apa.at
blog / Mittwoch 05.04.23

ChatGPT – Mythen und Annahmen

openai bricht mit ChatGPT derzeit alle Wachstumsrekorde im Bereich Nutzung. Die zugrundeliegende Technologie ist einigermaßen komplex und der langzeitige Einfluss auf unseren Lebensalltag noch nicht abschätzbar. Mit Sicherheit ist derzeit nur zu sagen, dass die jetzigen Auswirkungen im Bereich Bildung und Mensch-Computer-Interaktion bereits massiv sind. Zeit, um ein paar der gängigsten Annahmen und Mythen um ChatGPT zu durchleuchten:
Michael Bihlmayer / ChromOrange / picturedesk.com
„Diese Modelle werden darauf trainiert, wie Menschen zu klingen. Dass dabei manchmal etwas faktisch Richtiges herauskommt, liegt in der Natur der Sache, ist aber nicht das Ziel. ChatGPT wurde mit ‚dem Internet‘ trainiert - es hat aber kein Wissen daraus gezogen.“

Andreas Mauczka

Chief Digital Officer / APA

Von Andreas Mauczka, Chief Digital Officer der APA

These Nummer 1: ChatGPT ist ein Recherche-Werkzeug

ChatGPT ist sehr gut darin, Instruktionen zu verstehen. Und es ist auch sehr gut darin, Texte zu schreiben, die fundiert und wohl formuliert klingen. Allerdings ist das zugrundeliegende Sprachmodell nicht auf faktentreue Wiedergabe hin konzipiert. Aktuell finden sehr viele Bemühungen statt, um diese faktischen Fehler zu reduzieren – mit GPT-4 vermeldet openai weitere Fortschritte in diesem Bereich, allerdings ist das Ausschließen von Fehlern weiterhin nicht möglich. Die erzielten Fortschritte in GPT-4 erfolgen über eine stärkere Gewichtung des Inputs und eine Reduktion der Ausgabe-Freiheit.

GPT-3, GPT-3.5, GPT-4 und alle zukünftigen Generationen (im Weiteren nur mehr als Large Language Models oder LLM bezeichnet) ähnlicher AI-Modelle werden darauf trainiert, wie Menschen zu klingen. Dass manchmal (oder sogar meistens) dabei etwas faktisch Richtiges rauskommt, liegt in der Natur der Technologie, ist aber kein deklariertes Ziel von LLM. LLM werden auf Grundlage von sehr großen Textkorpora – also einer Sammlung von schriftlichen Texten – trainiert. Im Falle von GPT-3 geschieht das auf Basis „des Internets“ und wenn dort entsprechend oft eine Sequenz von Wörtern gemeinsam vorkommt, die faktisch korrekt ist, dann besteht eine gute Wahrscheinlichkeit, dass GPT-3 diese übernimmt und so einen Text produziert, der auch faktisch korrekt ist. Aber mit Wissen im eigentlichen Sinne hat das wenig zu tun.

Fazit: ChatGPT ist kein Recherche-Werkzeug. Möchte ich von GPT-3 wissen, wie viele unter 19-jährige im 2. Wiener Gemeindebezirk leben, erhalte ich Werte, die vernünftig klingen (manchmal 24%, manchmal 18%), aber nur selten den tatsächlichen Wert, nämlich 19,6%. Das liegt daran, dass es für die Lesbarkeit der Meldung eine untergeordnete Rolle spielt, ob 24%, 18% oder der korrekte Wert im Text vorkommt.

These Nummer 2: Das Wissen von ChatGPT ist im Jahr 2021 stecken geblieben

ChatGPT wurde mit „dem Internet“ aus dem Jahr 2021 trainiert. Es hat aber kein Wissen daraus gezogen. Auch wenn der Unterschied zwischen „echtem Wissen“ über ein Faktum und der Abbildung dieses durch eine erhöhte Wahrscheinlichkeit von Wort-Folgen gering erscheint, so beleuchtet es aber das grundsätzliche Dilemma der öffentlichen Rezeption von LLM. Wenn Wörter nämlich woanders auch oft miteinander vorkommen (aber in einem anderen Kontext), werden sie für LLM austauschbar, verlieren also das vermeintliche „Wissen“, das sie abbilden.

Dieser Unterschied offenbart, wieso LLM nicht direkt als Recherchewerkzeug verwendet werden sollten. Am Beispiel der Integration in Bing sieht man, wie eine Nutzung von einem LLM als Unterstützung bei einer Suche in der Praxis aussieht (und trotzdem nur leidlich funktioniert zum derzeitigen Stand): GPT-4 wird genutzt, um Suchergebnisse zusammenzufassen. Der Term, der hierfür verwendet wird, ist Knowledge Injection, d.h. durch eine Eingabe des Nutzers bzw. der Nutzerin wird dem LLM Wissen hinzugeführt, auf dem dann „Sprache“ ausgeführt wird. Diese Woche hat openai die Möglichkeit eröffnet, ChatGPT als Plug-In zu nutzen, um Nutzer:innen weiteren Zugriff auf Echtzeitdaten zu ermöglichen.

Fazit: ChatGPT generiert Sprache, für das Wissen sollte man selbst sorgen (auch für jenes vor 2021).

These Nummer 3: GPT flunkert

Wie oben bereits dargestellt – ein LLM flunkert nicht, denn es wurde nicht dafür gebaut, die Wahrheit zu sagen. Es wurde dazu gebaut, gut klingende Texte zu fabrizieren. Für die Abweichung von Fakten wird der Begriff „Halluzination“ genutzt, dieser ist ein loser definierter Term im Bereich der LLM. „Halluzination“ bedeutet eine scheinbar korrekte Antwort, die ohne zugrundeliegende Trainingsdaten erzeugt wurde. Halluzinationen entstehen, weil sich ein LLM der Wahrscheinlichkeiten von Wort-Folgen (eigentlich Tokens, wobei ein Token einem Teil eines Wortes entspricht) bedient. Wie weit das LLM sich innerhalb der Wahrscheinlichkeiten bewegen darf, ist anpassbar. Aus den oben genannten Gründen führt aber auch eine komplette Einschränkung auf die größte Wahrscheinlichkeit von Wort-Folgen nicht automatisch zu einem faktentreuen Ergebnis.

Fazit: Die Nutzung des Begriffs „Halluzination“ ist denkbar unglücklich, weil sie impliziert, dass das LLM sich eine Form der Wahrheit „einbildet“. Dem ist aber nicht so.

These Nummer 4: Das kann man doch reparieren … oder?

Nicht laut einem Paper aus dem Jahr 2021. Annahme darin ist, dass Language Modeling per se nie in der Lage sein wird „truthful“ zu sein. In einer vorsichtigen Interpretation gibt es ein sogenanntes „truthful AI-Model“ nur, wenn vollständig kuratierter Content zur Verfügung steht. Für die Menge an Text, die notwendig ist, um beispielsweise GPT-3 zu trainieren, ist das eine vermutlich unlösbare Aufgabe. Abgesehen davon, dass auch ein faktentreuer Text die Wahrscheinlichkeiten der Wort-Folgen so ändern kann, dass aus zwei Fakten wieder eine zumindest fehlerhafte Fakteninterpretation entstehen kann. Die wesentlichen Stellschrauben für eine „Reparatur“ wären die Kreativitätsgrade des Outputs, laufendes Training sowie eine Gewichtung des Inputs – nur würde mit jeder Einschränkung in einem dieser Bereiche die Textqualität leiden.

Fazit: Derzeitige Reparaturen sind symptomatisch und können das Problem nicht endgültig lösen. Ein umfangreiches Wissensmanagement sowohl für Input-Einschränkung als auch für Output-Verifizierung wird langfristig nicht vermeidbar sein.

Wie geht es weiter?

An der Nutzung von generativer Text-KI führt kein Weg vorbei. Die Produktivitätssteigerung für viele Aspekte des Büro-Alltags wird bereits wissenschaftlich evaluiert und erste Indikationen deuten auf einen gewaltigen Sprung hin. Von der Extraktion von Daten aus Texten über die Unterstützung im Bereich Software-Entwicklung bis zur Transformation von Content für unterschiedliche Channels werden LLM unseren Arbeitsalltag drastisch vereinfachen. Wie mit jeder neuen Technologie ist aber auch Vorsicht beim Einsatz geboten – je freier und offener die Fragestellungen lauten, die wir ChatGPT und Co. stellen, desto fehlerbehafteter (und kreativer) werden auch die Ausgaben dieser Tools sein. Eine Einordnung für die Medienlandschaft finden Sie im Blogbeitrag von Katharina Schell.