Zum Hauptinhalt springen
Blogbeitrag

KI-gestütztes Publizieren und Qualitätsmerkmale von Softwaresystemen - neue Welt trifft alte Welt

KI-gestützte Textproduktion vom Co-Autorenteam Mensch und Maschine in der Wissenschaft. Das von der OpenAI im März 2020 veröffentlichte Sprachmodell GPT-3, das über eine Exklusivlizenz mit Zugang zum Quellcode in den Händen von Microsoft liegt, basiert auf einer Datengrundlage von 45 Terabyte. Es arbeitet mit 175 Milliarden Parametern, d.h. der zehnfachen Menge im Vergleich zu den bisherigen KI-Sprachmodellen (arxiv.org). Ein Anwendungsgebiet ist u.a. die automatische Generierung von Texten (sueddeutsche.de).

Für Wissenschaftlerinnen, Wissenschaftler und Forschende bieten diese KI-gestützten Werkzeuge aus dem „Natural Language Processing (NLP)“ neue Potenziale bei der Erstellung von Publikationen. Zusätzlich zu den Textgeneratoren aus dem „Natural Language Generation“ bieten bereits sehr niedrigschwellige Übersetzungslösungen wie z.B. „DeepL“ vom gleichnamigen Kölner StartUp vielfältige KI-Funktionalitäten für die Textmodifikation. Werden diese Übersetzungslösungen in Verbindung mit bereits vorhandenen, digital verfügbaren Dokumenten (eigenen oder auch fremden Publikationen) und Rewriting-Tools wie zum Beispiel „Quillbot“ in geschickter Weise kombiniert, entstehen quasi auf „Knopfdruck“ vermeintlich neue Texte (forschung-und-lehre.de).

Qualitäts- und Kontrollverlust in der Wissenschaft bei KI-generierten Texten. „Das wird keiner merken“, so die Medienethikerin Jessica Heesen von der Universität Tübingen, die eine Kennzeichnungspflicht für KI-generierte Texte fordert (riffreporter.de). Heesen weist auf die Gefahr des Kontrollverlustes für die Wissenschaft hin, wenn Sprachmodelle wie das aktuelle GPT-3 oder auch zukünftige Modelle mit Texten trainiert werden, die zuvor von anderen KI-Systemen generiert wurden (riffreporter.de). Dabei ist bekannt, dass die derzeitigen Plagiatserkennungs-Softwarelösungen bereits bei nicht durch KI-Tools generierte Texte unzureichende Textergebnisse aufweisen (arxiv.org) und bei KI-generierten Texten naturgemäß keine Lösung bieten können.

Auf der Suche nach guten Forschungspraktiken für Wissenschaft und Forschung. Wie können die Grundsätze guter Forschungspraktiken im Zeitalter der Künstlichen Intelligenz sichergestellt werden? Einen Orientierungsrahmen bietet der Europäische Verhaltenskodex für Integrität in der Forschung (allea.org). Er orientiert sich an diesen vier Grundwerten: Zuverlässigkeit, Ehrlichkeit, Respekt und Rechenschaftspflicht. Unter diesen vier Grundwerten steht die Zuverlässigkeit als Qualitätsbegriff für das Forschungsergebnis, das auf Basis der Konzeption, des Methodeneinsatzes, der Analyse und der Ressourcennutzung entsteht. Die zunehmende Digitalisierung in diesen Prozessabläufen führt zu einem Bedeutungszuwachs der dort eingesetzten Softwaresystemen. Sie stehen immer mehr im Fokus, wenn es um die Zuverlässigkeit der erzielten Forschungsergebnisse geht.

Der Grundwert der Zuverlässigkeit für Integrität in Wissenschaft und Forschung als Qualitätsmerkmal von Softwaresystemen im Zeitalter künstlicher Intelligenz?  Etymologisch wird Zuverlässigkeit mit den Begriffen Sicherheit und Verlässlichkeit assoziiert und positiv im Sinne der Vertrauensbildung konnotiert. Es geht um das Vertrauen in die neue Ära der KI-gestützten Textproduktion in der Form der Co-Autorenschaft von Mensch und Maschine. Mit Blick auf die Entwicklungen im Robo-Journalismus darf prognostiziert werden, dass der Einsatz von Schreibbots auch in Wissenschaft und Forschung kontinuierlich zunehmen wird. Betrachten wir die von menschlichen Autorinnen und Autoren gesteuerte KI-Textproduktion als ein soziotechnisches „Softwaresystem“, ist der Terminus Zuverlässigkeit über die Norm „System and software quality models“ präzise definiert. In dieser Norm wird die Zuverlässigkeit durch die vier Merkmale Reifegrad, Verfügbarkeit, Fehlertoleranz und Wiederherstellbarkeit charakterisiert. Die Gesamtanalyse dieser vier Merkmale führt zur Frage, ob bzw. wie die Zuverlässigkeit als Qualitätsmerkmal im Zeitalter künstlicher Intelligenzen „neu“ zu interpretieren ist. Nur das Merkmal der Verfügbarkeit erweist sich im digitalen Zeitalter als offensichtlich unkritisch. Die drei anderen Merkmale Fehlertoleranz, Wiederherstellbarkeit und Reifegrad sollen nachfolgend detaillierter untersucht werden.

Die Qualitätsmerkmale Fehlertoleranz und Wiederherstellbarkeit auf dem Prüfstand.  Die Bewertung der Fehlertoleranz setzt voraus, dass der zugrundeliegende Fehlerbegriff geklärt werden kann. Diese Überprüfbarkeit ist in der Regel nicht gegeben, da es sich bei den KI-gestützten Tools der Textgenerierung oder auch der Textmodifikation um „Black Box“-Algorithmen handelt, die zumindest den Endanwenderinnen und Anwendern keinen Einblick in den Prozessablauf gewähren (können). Das Merkmal der Wiederherstellbarkeit basiert auf der Annahme eines definierten Soll-Systemzustands, in den zurückgekehrt werden kann. Algorithmen im Bereich „Natural Language Processing“ produzieren aber Textsequenzen, die Unikate darstellen. Diese Prozesse lassen sich nicht wiederholen. Somit lassen sich auch die Ergebnisse im Sinne eines Prozess-Outputs nicht reproduzieren.

Der Reifegrad als Maßstab für die Leistungsstärke KI-basierter Textgeneratoren. Hierfür könnten neue Benchmarks in Anlehnung an den Turing-Test (mixed.de) entwickelt werden. Wäre diese Voraussetzung gegeben, könnte die Arbeitsumgebung im Sinne eines komplexen und individuell genutzten „Anwendungssystems“ gekennzeichnet und im Rahmen der Forschung und wissenschaftlicher Publikationen ausgewiesen werden. Setzt ein Wissenschaftler oder eine Forscherin im Rahmen der eigenen Tätigkeiten IT-/KI-basierte Werkzeuge ein, so sollte das Gesamtspektrum der genutzten Werkzeuge einsehbar sein, inklusive der Kennzeichnung der einzelnen Werkzeuge mit einem Index für den obigen „Reifegrad“.

Bewusstsein schaffen für den Bedarf neuer Qualitätsmaßstäbe im KI-Zeitalter. Die obigen Ausführungen belegen den strukturellen Misfit des Qualitätsmerkmals Zuverlässigkeit für die KI-gestützte Textproduktion nach den derzeitigen Maßstäben der ISO/IEC 25010. Die größte Herausforderung besteht aber darin, das Bewusstsein für die neuen Formen der Co-Autorenschaft von Mensch und Maschine und der daraus resultierenden disruptiven Veränderungen zu wecken. Selbst der im Jahr 2019 herausgegebene neue Kodex der Deutschen Forschungsgemeinschaft (zenodo.org) unterscheidet „nur“ eigene Beiträge versus Beiträge Dritter und berücksichtigt den Einflussfaktor der Künstlichen Intelligenz bei der Generierung von Texten (noch) nicht. Nicht unerwähnt bleiben sollen die Bemühungen der „High-Level Expert Group on AI“ der EU-Kommission, die sich explizit um allgemeine Merkmale und Kriterien einen vertrauenswürdigen KI bemühen (europa.eu). Aber die Zeit drängt. Ohne wachsendes Problembewusstsein und neue Qualitätsmaßstäbe für die Zuverlässigkeit soziotechnischer KI-Systeme droht die Vertrauensfrage zur gesellschaftlichen Schicksalsfrage zu werden.

Diesen Beitrag hat unsere Leserin Prof. Dr. Doris Weßels (Institut für Wirtschaftsinformatik an der FH Kiel) beigesteuert. Vielen Dank!

© 2015 McLittle Stock/Shutterstock
© - Shutterstock