Können KI-Systeme Artikel klauen?

Ein stilisierter Roboterkopf mit einer Comic-Augenbinde und einem Fragezeichen daneben

Vor ein paar Wochen hat die NZZ einen Artikel veröffentlicht, in dem Petra Gössi das NZZ-Team erschreckte, weil via KI-Chatbot angeblich «beinahe der gesamte Inhalt des Artikels […] in der Antwort von Perplexity zu lesen» gewesen sei. Und nun könne «man gratis oder für eine Gebühr von etwa 20 Dollar pro Monat jede Zeitung auf der Welt durchforsten».

Dramatische Zeilen. Adrienne Fichter und ich wollten das für DNIP genauer wissen.

Die Langversion dieses Artikels — geschrieben gemeinsam mit Adrienne Fichter — findet ihr hier: Die KI-Modelle beklauen die Medien — Fehlender Faktencheck der NZZ

Was ist eigentlich eine Paywall?

Dazu schauen wir uns zuerst eine „normale“ Webseite an. Also, wie es vor 20 Jahren normal war: Ohne Paywall, ohne «789 ausgewählte Werbe- und Trackingpartner».

Keine Paywall («normal»)

Hier ein Screenshot eines Webbrowsers, der einen DNIP-Artikel offen hat und daneben die Entwicklertools, die jeder Browser beinhaltet und ohne die kein Webdesigner oder -entwickler arbeiten kann.

Links die Webseite aus Sicht der Leser:in; rechts was der Browser vom Webserver bekam.

Ein DNIP.ch-Artikel, wie er bei aktivierter Entwicklungsumgebung des Browsers erscheint. Links ist der Artikel zu sehen, wie ihn Leserinnen sehen würden; rechts sind die Informationen zu sehen, die der Webbrowser vom Webserver erhalten hat. Rechts findet sich derselbe Text als HTML-Quelltext, also so, wie es der Browser vom Webserver erhalten hat. (Die Rahmen und Pfeile sind natürlich zur Hervorhebung der entsprechenden Inhalte darüber gelegt und nicht Teil des Screenshots.)
Ein DNIP.ch-Artikel, wie er bei aktivierter Entwicklungsumgebung des Browsers erscheint. Links ist der Artikel zu sehen, wie ihn Leserinnen sehen würden; rechts sind die Informationen zu sehen, die der Webbrowser vom Webserver erhalten hat. Rechts findet sich derselbe Text als HTML-Quelltext, also so, wie es der Browser vom Webserver erhalten hat. (Die Rahmen und Pfeile sind natürlich zur Hervorhebung der entsprechenden Inhalte darüber gelegt und nicht Teil des Screenshots.)

Harte («hard») Paywall

Online-Medien haben schon früh begonnen, die Inhalte zu monetarisieren. Zum einen über Werbung und Tracking, zum anderen über Bezahlmodelle. Das einfachste ist, nur zahlenden Abonnent:innen den gesamten Artikeltext zur Verfügung zu stellen. Dazu müssen diese sich einloggen, bevor sie den ganzen Artikel sehen können.

Hier das Beispiel, wie ein Tagi-Artikel mit einer (sog. „harten“) Paywall aussieht: Nur die ersten paar Sätze sind sichtbar, der Webserver behält den Rest.

Ein Tages-Anzeiger-Artikel im Browser mit offenen Entwicklertools. Hier wird nur der Aufmachertext zurückgeliefert, solange man als nicht eingeloggter „Normaluser“ auf den Artikel zugreifen will.
Ein Tages-Anzeiger-Artikel im Browser mit offenen Entwicklertools. Hier wird nur der Aufmachertext zurückgeliefert, solange man als nicht eingeloggter „Normaluser“ auf den Artikel zugreifen will.

Weiche («soft») Paywall

Der Nachteil der obigen „harten“ Paywall: Suchmaschinen finden den Artikel auch nicht. Also haben die Online-Medien schon vor Jahrzehnten begonnen, diese anders zu behandeln. Eine Möglichkeit ist, die Crawler von Google & Co gezielt zu erkennen und ihnen trotzdem den ganzen Text zu servieren.

Eine andere Möglichkeit ist die „weiche“ (soft) Paywall: Da liefert der Webserver den ganzen Text an alle Anfrager; der Browser wird aber mittels JavaScript nach dem Laden angewiesen, ihn zu verstecken.

Hier die NZZ:

Ein NZZ-Artikel. Es wird nur der erste Absatz gezeigt, obwohl der gesamte Artikeltext zurückgeliefert wird. Der Rest wird einfach ausgeblendet. * Die orangen Rahmen zeigen wieder den Text des ersten Abschnitts. * Der violette Rahmen umfasst den Text nach dem ersten Abschnitt. Dieser wird vom NZZ-Webserver ebenfalls allen Nutzerinnen bereitwillig und ungefragt zurückgeliefert. * Der Scrollbalken im hellblauen Rahmen weist darauf hin, dass die Inhalte weitergehen. Die Abschnitte sind also nur auf dem Screenshot abgeschnitten.
Ein NZZ-Artikel. Es wird nur der erste Absatz gezeigt, obwohl der gesamte Artikeltext zurückgeliefert wird. Der Rest wird einfach ausgeblendet. * Die orangen Rahmen zeigen wieder den Text des ersten Abschnitts. * Der violette Rahmen umfasst den Text nach dem ersten Abschnitt. Dieser wird vom NZZ-Webserver ebenfalls allen Nutzerinnen bereitwillig und ungefragt zurückgeliefert. * Der Scrollbalken im hellblauen Rahmen weist darauf hin, dass die Inhalte weitergehen. Die Abschnitte sind also nur auf dem Screenshot abgeschnitten.

Die ganze Disziplin der Suchmaschinenoptimierung (SEO) beschäftigt sich seit Jahren damit. Und keine Zeitung, die etwas auf sich hält, kommt heute noch ohne SEO-Team aus. Weil die Suchmaschinen heute für einen Grossteil der Besuche auf den Seiten verantwortlich sind. Auch, weil die Zeitungen es nicht geschafft haben, ihre Leser:innen bei der Stange zu halten.

Um so erstaunlicher ist es, das angebliche Erstaunen und Entsetzen in der NZZ-Redaktion zu sehen, das im NZZ-Artikel vermittelt wird.

Wie kommen KI-Bots wie Perplexity an ihre Daten?

Zum einen durch Abgrasen des Internet nach von Menschen geschriebenen Texten. Diese dienen zwei Zwecken: Zum Einen dem Erlernen menschlicher Sprache, zum Anderen dem Erlernen von Fakten.

Beides passiert übrigens nicht scharf getrennt, sondern es werden „einfach“ Muster aus diesen gesamten (geschredderten!) Texten extrahiert. Die Reproduktion dieser Muster nennen wir dann „Antworten“ der KI.

Mehr dazu in früheren Erklärstücken zu KI und ihren Daten:

Das obige „Basiswissen“ hinkt aber meist mehrere Monate hinter dem aktuellen Stand des Internet her. Deshalb nutzen einige Chatbots (wie der von Bing/Microsoft oder eben Perplexity) aktiv Suchmaschinen, um aufgrund einer gut formulierten Suchanfrage Webseiten zu besuchen und deren Texte für die gewünschte Antwort mitzunutzen. Also eigentlich das, was, was ein Mensch, der gut mit Suchmaschinen umgehen kann, auch tun würde.

Was heisst das für den NZZ-Artikel?

Wieso dann dieser NZZ-Artikel?

Zumindest vom einen Autor des Artikels sollte man erwarten können, dass ihm zumindest ein Teil dieser Zusammenhänge klar gewesen seien.

Aber: Es läuft auch immer wieder die Diskussion um das Leistungsschutzrecht (1, 2, 3), bei dem der Bundesrat gerade wieder am arbeiten ist.

Die Hintergründe über das «Wieso?» kennen wir nicht. Aber es gibt einige Anzeichen: Es sieht von aussen so aus, als ob das Leistungsschutzrecht eine treibende Kraft hinter dem Artikel sein könnte.

Und anzudeuten, dass die in gewissem Masse «magisch» anmutende KI alleine dank ihrer besonderen «Magie» Daten klauen könnte, dürfte einige Politiker mehr zum Handeln animieren, als eine sachliche Darlegung der Eigenschaften.

Den ganzen Artikel von Adrienne Fichter und mir gibt es kostenlos und werbefrei bei DNIP: Die KI-Modelle beklauen die Medien — Fehlender Faktencheck der NZZ.

Künstliche Intelligenz

News (mehr…)

Lange Artikel (mehr…)


Bleibe auf dem Laufenden!

Erhalte eine Mail bei jedem neuen Artikel von mir.

Ca. 1-2 Mails pro Monat, kein Spam.

Folge mir im Fediverse


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.


Webapps