Todesstoss für ChatGPT & Co?

Die New York Times verhandelt schon länger mit OpenAI über Urheberrechtsabgaben. Laut Berichten hat OpenAI für das Training von ChatGPT unautorisiert Materialien der New York Times genutzt. Das kann in mehrfacher Sicht teuer werden.

Die New York Times kann vor Gericht bis zu 150’000 Dollar pro Urheberrechtsverletzung zugesprochen bekommen; d.h. pro Artikel, der für Trainingsdaten genutzt wird. Alleine aus der New York Times könnten das Tausende von Artikeln sein, die zumindest in Bruchstücken in ChatGPT eingeflossen sind. Das könnte Abermillionen kosten.
Sollte dieses Gerichtsverfahren Erfolg haben, werden weitere Rechteinhaber auf OpenAI (ChatGPT), Google (Bard) und Meta (LLaMA) zukommen, um nur einige zu nennen. Sie alle dürften aus Millionen bis Milliarden Webseiten Daten extrahiert haben. Diese Klagen könnten potenziell sehr teuer werden, ebenfalls potenziell Dutzende bis Hunderte Millionen oder mehr.
Aber auch wenn nur ein kleiner Teil der Daten beanstandet wird und die Strafzahlungen klein ausfallen sollten: Es ist gut möglich, dass die US-Gerichte trotzdem die Entfernung dieser Daten aus den Trainingsdaten anordnen. Und Löschen ist bei KI nicht einfach. Und geht ins Geld.
ChatGPT und Co. sind nur in Gebieten zuverlässig, in denen sie genügend viele Trainingsdaten gesehen haben. Durch diese Löschaktion können grosse „Wissenslücken“ aufgerissen werden. Ob diese erkannt werden, wie sie wieder geschlossen werden können und welche Einflüsse das auf das „Gesamtverhalten“ („Alignment“) der LLM-Sprachsysteme hat, ist schwer abzusehen.

Ich habe zu einem früheren Zeitpunkt gesagt, dass ich befürchte, dass der Text and Data Mining Act (TDM) der EU möglicherweise zu einem Papiertiger verkommt, weil er nicht praktikabel und umsetzbar sei, vor allem vermutlich nicht retroaktiv. Wahrscheinlich braucht die EU das Skalpell des TDM gar nicht, wenn die Amerikaner das Problem mit der Kanone des Urheberrechts „lösen“.

Inhalt

Eigeninitiative

Wer selbst aktiv werden will, kann bereits jetzt einige wenige KI-Crawler davon abhalten, zukünftig keine Inhalte der eigenen Webseiten mehr zu verdauen. Dabei bleiben aber noch viele Fragen offen.

Nachtrag 2023-08-21

Ob das (US-)Urheberrecht der richtige Ansatz ist, wird sich zeigen müssen. Andere US-Medienunternehmen verhandeln aktuell noch mit den Techfirmen.

A top concern for the Times is that ChatGPT is, in a sense, becoming a direct competitor with the paper by creating text that answers questions based on the original reporting and writing of the paper’s staff.
Bobby Allyn: ‚New York Times‘ considers legal action against OpenAI as copyright tensions swirl, NPR, 2023-08-16.

Wenn Inhalt, Wortwahl oder Satzstruktur eines Artikels, der Eingang in die Trainingsdaten fand, genügend eindeutig ist, kann die Autovervollständigung von Sprachmodellen wie ChatGPT im Extremfall dazu führen, dass diese Trainingsdaten 1:1 wiedergegeben werden.

Bei Bilddaten ist die Beinahe-Reproduktion eines Portraits von Anne Graham Lotz dokumentiert. Wie hoch die Chancen auf Erfolg einer Times-Klagen wäre, ist nicht abzusehen. Eine Zusammenfassung der Argumente dafür und dagegen finden sich z.B. hier.

Aktuell wird auch heftig um die Nutzung der Bilder von Greg Rutkowski in Trainingsdaten gestritten, der den Stil von vielen KI-generierten Fantasybildern prägt.

Künstliche Intelligenz

Persönliche Daten für Facebook-KI2025-05-19
Meta – Zuckerbergs Imperium hinter Facebook, WhatsApp, Instagram, Threads etc. – hat angekündigt, ab 27. Mai die persönlichen Daten seiner Nutzer:innen in Europa für KI-Training zu verwenden. Dazu gehören alle Beiträge (auch die zutiefst persönlichen), Bilder (auch die peinlichen) und Kommentare (auch die blöden Sprüche) auf Facebook und Instagram, die Interaktionen mit dem KI-Chatbot «Meta… Persönliche Daten für Facebook-KI weiterlesen
«Reddit rAIngelegt»: Hörkombinat-Podcast-Interview zur fragwürdigen KI-Manipulation an der Universität Zürich2025-05-11
Forschende der Uni Zürich haben KI-Bots in ein Forum der Plattform Reddit eingeschleust. Und zwar ohne Wissen der Betreiber:innen und User:innen. In diesem Forum, «ChangeMyView», fordern die Teilnehmenden dazu auf, ihre Meinungen zu widerlegen. Nun haben zahlreiche von ihnen nichts ahnend mit Maschinen diskutiert und mitgelitten – eine KI gab sich etwa als Missbrauchsopfer aus.
Forschung am Menschen ohne deren Wissen: Universität Zürich und Reddit «r/ChangeMyView»2025-05-02
Wie DNIP.ch am Montag als erstes Medium berichtete, hat eine Forschungsgruppe mit Anbindung zur Universität Zürich mittels KI psychologische Forschung an Menschen durchgeführt, ohne dass diese Menschen über die Studie informiert waren. Aus guten Gründen (Vertrauen, Ethik, …) ist das in den meisten Fällen ein No-Go.
KI-Webseiten petzen und beeinflussen2025-02-26
Klar kann man die KI manchmal zu verräterischem Verhalten verleiten. Aber noch einfacher ist es, wenn die Webseite ihre Anweisungen an die KI selbst verrät.
Können KI-Systeme Artikel klauen?2024-12-05
Vor ein paar Wochen hat die NZZ einen Artikel veröffentlicht, in dem Petra Gössi das NZZ-Team erschreckte, weil via KI-Chatbot angeblich «beinahe der gesamte Inhalt des Artikels […] in der Antwort von Perplexity zu lesen» gewesen sei. Und nun könne «man gratis oder für eine Gebühr von etwa 20 Dollar pro Monat jede Zeitung auf… Können KI-Systeme Artikel klauen? weiterlesen
Was verraten KI-Chatbots?2024-09-27
«Täderlät» die KI? Vor ein paar Wochen fragte mich jemand besorgt, ob man denn gar nichts in Chatbot-Fenster eingeben könne, was man nicht auch öffentlich teilen würde. Während der Erklärung fiel mir auf, dass ganz viele Leute ganz wenig Ahnung haben, wie die Datenflüsse bei KI-Chatbots wie ChatGPT etc. eigentlich ablaufen. Deshalb habe ich für… Was verraten KI-Chatbots? weiterlesen
KI-Datenkreisläufe2024-09-14
Hier ein kleiner Überblick über die Datenkreisläufe rund um generative KI, insbesondere grosse Sprachmodelle (Large Language Model, LLM) wie ChatGPT, Gemini oder Claude.
Der Homo Ludens muss Werkzeuge spielend erfahren. Auch KI2024-08-24
Fast alle Werkzeuge, die wir «spielend» beherrschen, haben wir spielend gelernt. Das sollten wir auch bei generativer KI.
Der Turing-Test im Laufe der Zeit2024-07-18
Vor einem knappen Jahrhundert hat sich Alan Turing mit den Fundamenten der heutigen Informatik beschäftigt: Kryptographie, Komplexität/Rechenaufwand, aber auch, ob und wie wir erkennen könnten, ob Computer „intelligent“ seien. Dieses Imitationsspiel kennen wir heute als Turing-Test und ist aktuell wieder in aller Munde, weil gerade behauptet wird, dass Computer inzwischen intelligenter seien als Menschen. Er… Der Turing-Test im Laufe der Zeit weiterlesen
«QualityLand» sagt die Gegenwart voraus und erklärt sie2024-06-12
Ich habe vor Kurzem das Buch «QualityLand» von Marc-Uwe Kling von 2017 in meinem Büchergestell gefunden. Und war erstaunt, wie akkurat es die Gegenwart erklärt. Eine Leseempfehlung.
Kritik an KI ist nötig. Aber wie?2024-05-02
KI ist seit 1½ Jahren in aller Munde. Die Meinungen gehen von Woher kommt diese Uneinigkeit? Daran, dass die Kritik an der KI faul geworden sei und nur noch wiederkäue, meint Danilo Campos in einem Essay, das er Ende letzten Jahres geschrieben hat. Darin versucht er die Kritik an der KI zu strukturieren und zu… Kritik an KI ist nötig. Aber wie? weiterlesen
Neuralink ist (noch) keine Schlagzeile wert2024-02-02
Diese Woche haben einige kurze Tweets von Elon Musk hunderte oder gar tausende von Artikeln ausgelöst. Wieso?
Die düsteren Datenhintergründe der KI2024-01-12
Generative Sprachmodelle wie beispielsweise ChatGPT erwecken den Eindruck, Neues zu erzeugen. Dabei kombinieren sie nur Muster neu. Wobei: Diese Kombinationen sind nicht immer wirklich neu. Mit ein bisschen Geschick kann man die Sprachmodelle dazu bringen, viel über ihre ansonsten geheimen Trainingsdaten auszuplappern. Diese Einblicke in die dunklen Hintergründe dieser Daten werden unseren Umgang mit Privatsphäre,… Die düsteren Datenhintergründe der KI weiterlesen
«Quasselquote» bei LLM-Sprachmodellen2024-01-11
Neulich erwähnte jemand, dass man ChatGPT-Output bei Schülern häufig an der «Quasselquote» erkennen könne. Das ist eine Nebenwirkung der Funktionsweise dieser Sprachmodelle, aber natürlich noch kein Beweis. Etwas Hintergrund.
«KI» und «Vertrauen»: Passt das zusammen?2023-12-11
Vor einigen Wochen hat Bruce Schneier einen Vortrag gehalten, bei dem er vor der der Vermischung und Fehlinterpretation des Begriffs «Vertrauen» gewarnt hat, ganz besonders beim Umgang mit dem, was heute von Firmen als «Künstliche Intelligenz» verkauft wird.