«Quasselquote» bei LLM-Sprachmodellen


Neulich erwähnte jemand, dass man ChatGPT-Output bei Schülern häufig an der «Quasselquote» erkennen könne. Das ist eine Nebenwirkung der Funktionsweise dieser Sprachmodelle, aber natürlich noch kein Beweis. Etwas Hintergrund.

Sprachmodelle wie ChatGPT erzeugen ihren Output („Antworten“ etc.) Bruchstück für Bruchstück (genannt Token), typischerweise jeweils ein paar Buchstaben aufs Mal. Wer schon einmal mit einem dieser sogenannten LLMs (Large Language Model) gespielt hat, hat das sicher auch schon bemerkt.

Diese Generierungsform ist auch die Ursache für die hohe Quasselquote, wie sie beispielsweise hier sichtbar wird: Als Anfrager möchte ich nicht eine ganze Schulstunde für Drittklässler über Dreisatz aufgetischt bekommen, sondern einfach die Antwort wissen!

Grosse Sprachmodelle (LLM, Large Language Model) „denken“ auch immer nur ans nächste Token. Es existiert vorgängig kein Konzept, keine Skizze, was sie erzählen wollen. Das „Gehirn“ wird nicht vor dem Reden eingeschaltet, sondern es wird munter drauflos geredet, in der „Hoffnung“, dass dann schon etwas Brauchbares herauskomme.

Wir Menschen gehen davon aus, dass—wenn wir etwas erklären müssen—uns zumindest ganz grob überlegt haben, was wir eigentlich sagen wollen. Erst recht, wenn wir diese Erklärung aufschreiben wollen.

Wir haben einen Plan. Und wenn wir den nicht schon von Anfang an haben, dann legen wir ihn uns zwischendurch mal zurecht und beginnen vielleicht nochmals von vorne oder schreiben den Text um.

Die aktuellen Sprachmodelle haben diesen Luxus nicht. Nicht nur kennen sie das Konzept „Planung“ nicht, sie schreiben auch absolut linear. Ohne Ausnahme.

Entsprechend gibt es keine Plan, wie ein Dreisatz präsentiert werden soll. ChatGPT erzeugt einfach mal zum Thema „Dreisatz“ und dem konkreten Kontext passenden Text.

Klar, das jeweils nächste Token wird erzeugt, dass es irgendwie (meistens sogar recht gut) zum bisherigen Text (Frage+Antwort) passt, indem aus allen antrainierten Mustern eine Kombination ausgewählt wird.

Ex Post

Ob die Erklärung gut war, wird erst im Nachhinein evaluiert. Eines der möglichen erzeugten Token ist das spezielle „ENDE“-Token. Es ist unsichtbar, wechselt aber vom Ausgabe- in den „Warten auf die nächste Eingabe“-Modus.

Je besser die bisherigen Antwort einem der möglichen Muster für eine gute Antwort entspricht, desto wahrscheinlicher ist die Ausgabe dieses Tokens und damit das Ende der Erklärung.

Wenn der erste Erklärungsversuch nicht gut genug für das „ENDE“-Token war, wird einfach weitergeschrieben. Bis irgendwann die Erklärung als „gut genug“ eingestuft wird.

Und zu dem Zeitpunkt ist möglicherweise schon viel mittelmässiger oder gar schlechter Text entstanden. Da gibt es jetzt aber kein Zurück mehr.

Entsprechend kann ChatGPT-Text eine hohe Quasselquote aufweisen. Oder, wie ich es jeweils sage:

Es sieht so aus, als ob ein Prüfling bei einer Prüfung alles aufgeschrieben habe, was ihm in den Sinn gekommen sei. In der Hoffnung, dass der Lehrer bzw. die Lehrerin dann schon das daraus liest, was er/sie gerne sehen möchte.

Künstliche Intelligenz

News (mehr…)

Lange Artikel (mehr…)


Bleibe auf dem Laufenden!

Erhalte eine Mail bei jedem neuen Artikel von mir.

Ca. 1-2 Mails pro Monat, kein Spam.

Folge mir im Fediverse


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.


Webapps