Seit der Lancierung eines gigantischen Sprachmodells namens GPT-3 ist es allen Menschen mit Internetzugang möglich, quasi von Zauberhand Texte zu generieren (NLG). Welche Auswirkungen haben diese Textgeneratoren speziell für den Wissenschaftsbetrieb? Sind sie nur ein Hype oder eine Revolution?
Automatische Textgenerierung wird seit über 50 Jahren praktiziert, indem beispielsweise in den Anfangszeiten Abfragesysteme für Assessment-Zwecke gebaut wurden. Der entscheidende Unterschied der grossen Sprachmodelle (large language models, LLM) zu den früheren ist, dass die heutigen mit einer riesigen Anzahl an Daten trainiert wurden, Computer über eine grosse Rechenpower verfügen und dass beispielsweise ChatGPT oder der Playground von Openai oder ohne jegliche Programmierkenntnisse verwendet werden können.
Size is not everything
Diese technologische Demokratisierung bringt einige Risiken, aber mindestens so viele Chancen mit sich. Dabei weist die Verfügbarkeit von Textgeneratoren viele Parallelen zu Wikipedia auf: Das enzyklopädische Wissen war für die Menschen der westlichen Hemisphäre zwar zugänglich – beispielsweise in Form von Bibliotheken oder familiären Buchsammlungen –, aber fürs Aneignen von Wissen mussten zuerst nicht zu unterschätzende Hürden überwunden werden. Auch wenn es nur sei, dass die eigenen vier Wände verlassen werden mussten, um die Stadtbibliothek aufzusuchen. Und heute? Heute ist praktisch das gesamte Menschheitswissen im Internet zu finden. Zumindest ist dies das Vorurteil: Denn auch hier herrscht das Primat der Mehrheitsgesellschaft. Diese bestimmt, was tradiert wird und was nicht. Die Ausprägungen der hegemonialen Gesellschaft zeigen sich beispielsweise in den Trainingsdaten von grossen Sprachmodellen (LLM) wie Gopher oder Chinchilla von Deepmind, Megatron von NVIDIA, Galactica von Meta, Flan-T5 bzw. PaLM von Google oder BLOOM von Huggingface und GPT-3 von OpenAI: So hielten Bender et al. 2021 fest, dass Grösse noch keine Diversität garantiere, da die Trainingsdaten zum Beispiel für GPT-3 vor allem aus englischen Reddit- und Wikipedia-Artikeln bestehen, wie OpenAI selber zugibt. Entscheiden sich Hochschulen dafür, Textgeneratoren einzusetzen, werden Biases reproduziert. Zudem werden mithilfe von Erkenntnissen aus der Vergangenheit Schlüsse für die Zukunft abgeleitet. Es ist zu überlegen, ob Bildungsinstitutionen eigene Sprachmodelle trainieren sollten. Ein weiterer, nicht zu unterschätzender Faktor ist die Verfügbarkeit des populären Textgenerators ChatGPT: Ab etwa Dezember 2022, nachdem viele Medien über ChatGPT berichtet hatten, kam es des Öfteren vor, dass der Textgenerator nicht erreichbar war. Seit anfangs Februar 2023 wird nun die Bezahlversion (20 Franken pro Monat) angeboten, mit der u. a. ein ständiger Zugriff garantiert werden soll. Menschen mit geringem Einkommen riskieren, den Anschluss an diese Technologie zu verlieren.
Aufklärung statt Verklärung
Trotz der oben genannten Herausforderungen erstaunt die Attraktivität von Textgeneratoren nicht. In Domänen, in denen routinisierte Sprachhandlungen (Wetter- und Sportberichte) vollzogen werden, ist der Einsatz logisch.
Das wissenschaftliche Schreiben weist einige Merkmale von stark konventionalisiertem Schreiben auf: Sachlichkeit, Nüchternheit und Referenzialität. Umso erstaunlicher ist es, dass es im wissenschaftlichen Schreiben nur erste zaghafte Versuche gibt, Textgeneratoren produktiv im Schreibprozess einzusetzen. An einigen Hochschulen – so mein Eindruck – hoffen die Verantwortlichen, dass die Student*innen die Textgeneratoren nicht entdecken. Hier ist Analogie zum Sexual-Aufklärungsunterricht nicht zu übersehen.
Gerade aber für Schreibnoviz*innen könnten diese Tools einen produktiven Mehrwert darstellen. Dies unter der Voraussetzung, dass der kompetente Umgang mit ihnen gelehrt wird, indem explizit auch auf Grenzen und Risiken eingegangen wird.
- Dozent*innen als Vorbild: Um Kompetenz zu erlangen, werden Vorbilder benötigt, die verstehen, was sie lehren – dies im Sinne einer cognitive apprenticeship. Personen, die im wissenschaftlichen Umfeld mit wissenschaftlichem Schreiben konfrontiert sind, sollten die Tools zumindest interpretieren können. Darüber hinaus dienen die Textgeneratoren auch kompetenten Schreibenden, indem beispielsweise ein Textentwurf sowie das Gerüst generiert (shitty first draft) und danach an diesem gefeilt wird.
- Willkommene Hilfsmittel: Wenn leistungsstarke Textgeneratoren Student*innen dazu befähigen, bessere, verständlichere, korrektere und wissenschaftlichere Texte zu schreiben, ist das Hochschulpersonal dazu angehalten, diese Tools zu empfehlen.
- Reflexion ist das A und O: Durch die Anwendung solcher Tools im Hochschulumfeld soll eine reflektierte und kritische Diskussion über die Daten angeregt werden: Was ist die Datenbasis der grossen Sprachmodelle? Sind Biases darin enthalten? Wie gehen wir als Hochschulorganisation damit um? Braucht es Sprachmodelle, die auf «fairen» Daten basieren?
- Entwicklung einer Schreibidentität: Student*innen sollen trotz des Einsatzes von Textgeneratoren ihre Individualität in wissenschaftlich verfassten Texten zum Ausdruck bringen können – dies im Sinne einer eigenen Schreibvoice.
- Kompetenzorientierung auch beim summativen Überprüfen: Können Textgeneratoren und ähnliche Tools problemlos die Aufgabenstellung erfüllen, müssen bessere Aufgaben gestellt werden. Die Schreibaufträge an die Student*innen müssen so formuliert werden, dass sie herausfordernd sind und einem Kompetenzzuwachs dienen. Portfolioarbeiten, Reflexionsübungen, mündliche Prüfungen – beispielsweise das Simulieren eines Elterngesprächs – oder auch das Herstellen eines Produktes erachte ich als sinnvolle Aufgaben.
Interessant sind die Beobachtungen zum Sprachmodell «Galactica», das der US-Techkonzern Meta zuerst veröffentlicht und dann wieder deaktiviert hat. Was ist passiert? Mit dem Sprachmodell, das mit weniger, aber dafür qualitativ hochstehenden Daten (vor allem aus der Domäne der Wissenschaft) trainiert wurde, konnten Fake News generiert werden. Der Aufschrei war riesig. Aber das heisst noch nicht, dass das Modell nicht veröffentlicht werden sollte. Auch Menschen können ganz ohne Hilfe einer KI falsche und diskriminierende Inhalte generieren. Es ist nur folgerichtig, dass dies die KI ebenfalls kann. Nicht nur, aber besonders für die Vermittlung des wissenschaftlichen Schreibens erachte ich solche qualitativ hochstehenden Sprachmodelle als sehr fruchtbar.
Dieses Beispiel zeigt sehr schön, dass KI nicht als Ersatz für menschliche Intelligenz gilt, sondern als Werkzeug eingesetzt werden muss, gleichzeitig ist immer die kritische Denkleistung der Menschen gefordert.
Ein vorläufiges Fazit
Einleitend habe ich die Frage aufgeworfen, ob Textgeneratoren ein Hype sind oder das Potenzial haben, besonders den Wissenschaftsbetrieb zu revolutionieren. Nun … Die Wahrheit liegt wohl irgendwo dazwischen. Viele Seminararbeiten lassen sich problemlos von ChatGPT schreiben, auch in Wissensprüfungen kann eine KI problemlos reüssieren. Eine Reaktion darauf wäre, das Prinzip «Paper and Pencil» zu reaktivieren. Eine meines Erachtens bessere Reaktion ist, Kompetenzen mittels Portfolioarbeiten, Reflexionsaufgaben, Produkten oder auch mündlichen Prüfungen zu testen. Und sich auch zu fragen, warum Student*innen überhaupt auf Textgeneratoren zurückgreifen müssen. Denn mein Ideal ist es, dass Student*innen intrinsisch motiviert schreibend einen Gegenstand erforschen können. Wenn ich mich ausdrücken möchte, hilft mir auch die beste KI nicht dabei. Eine kritische Denkleistung nimmt mir kein Tool ab.