Webseiten für KI-Crawler sperren?


Der grösste Teil der Texte, auf denen moderne KI-Sprachmodelle trainiert wurden, stammen von Webseiten. Wenn Sie eine haben, dann vermutlich auch von Ihrer. Was kann man da tun?

Wenn Suchmaschinen wie Google Webseiten durchsuchen, bieten Sie den Betreibern der Webseite auch eine Gegenleistung: Sie werden besser gefunden.

Wenn die Texte für das Training von KI-Sprachmodellen („LLM“, Large Language Model) verwendet werden, gibt es keine offensichtliche Gegenleistung für den Schreiber der Seite.

Die ursprünglichen Trainingsdaten von beispielsweise ChatGPT stammen zu rund 80% aus Webseiten. Die genutzten Webseiten hat die Washington Post zu reproduzieren versucht.

Visualisierung der Aufteilung der Inputs: Rund 60% stammen aus allgemeinen Webseiten; 22% aus Webseiten, die von Reddit verlinkt wurden; je 8% aus zwei Büchersammlungen und 3% von Wikipedia.

Was gesammelt wurde, bleibt in der Sammlung; denn das Entfernen von Daten ist sehr teuer. Zu teuer, um es ohne zwingenden Grund zu machen.

Aber auch das Hinzufügen von neuen Daten ist kaum kontrollierbar:

  • Google nutzt die für die Suchmaschine gesammelten Daten auch für ihr Sprachmodell Bard.
  • Bei OpenAI kann man zukünftig das Sammeln einschränken. Und auch einen Teil der Nutzung von Webseiteninhalten via Plugins.

Mehr Infos dazu in meinem englischsprachigen Artikel «How to block AI crawlers with robots.txt».

Leider löst dies das Problem nicht. Damit Nutzer die Kontrolle über die Weiterverarbeitung ihrer Texte haben, ist wohl eine gesetzliche Regelung mit begleitender technischer Umsetzung unumgänglich.

[Neu 2023-11-04] Im englischen Originalartikel habe ich inzwischen auch das Thema „AI Poisoning“ („KI-Vergiftung“) als Mechanismus aufgenommen.


Künstliche Intelligenz

  • Was verraten KI-Chatbots?
    «Täderlät» die KI? Vor ein paar Wochen fragte mich jemand besorgt, ob man denn gar nichts in Chatbot-Fenster eingeben könne, was man nicht auch öffentlich teilen würde. Während der Erklärung fiel mir auf, dass ganz viele Leute ganz wenig Ahnung haben, wie die Datenflüsse bei KI-Chatbots wie ChatGPT etc. eigentlich ablaufen. Deshalb habe ich für… Was verraten KI-Chatbots? weiterlesen
  • KI-Datenkreisläufe
    Hier ein kleiner Überblick über die Datenkreisläufe rund um generative KI, insbesondere grosse Sprachmodelle (Large Language Model, LLM) wie ChatGPT, Gemini oder Claude.
  • Der Homo Ludens muss Werkzeuge spielend erfahren. Auch KI
    Fast alle Werkzeuge, die wir «spielend» beherrschen, haben wir spielend gelernt. Das sollten wir auch bei generativer KI.
  • Der Turing-Test im Laufe der Zeit
    Vor einem knappen Jahrhundert hat sich Alan Turing mit den Fundamenten der heutigen Informatik beschäftigt: Kryptographie, Komplexität/Rechenaufwand, aber auch, ob und wie wir erkennen könnten, ob Computer „intelligent“ seien. Dieses Imitationsspiel kennen wir heute als Turing-Test und ist aktuell wieder in aller Munde, weil gerade behauptet wird, dass Computer inzwischen intelligenter seien als Menschen. Er… Der Turing-Test im Laufe der Zeit weiterlesen
  • «QualityLand» sagt die Gegenwart voraus und erklärt sie
    Ich habe vor Kurzem das Buch «QualityLand» von Marc-Uwe Kling von 2017 in meinem Büchergestell gefunden. Und war erstaunt, wie akkurat es die Gegenwart erklärt. Eine Leseempfehlung.
  • Kritik an KI ist nötig. Aber wie?
    KI ist seit 1½ Jahren in aller Munde. Die Meinungen gehen von Woher kommt diese Uneinigkeit? Daran, dass die Kritik an der KI faul geworden sei und nur noch wiederkäue, meint Danilo Campos in einem Essay, das er Ende letzten Jahres geschrieben hat. Darin versucht er die Kritik an der KI zu strukturieren und zu… Kritik an KI ist nötig. Aber wie? weiterlesen
  • Neuralink ist (noch) keine Schlagzeile wert
    Diese Woche haben einige kurze Tweets von Elon Musk hunderte oder gar tausende von Artikeln ausgelöst. Wieso?
  • Die düsteren Datenhintergründe der KI
    Generative Sprachmodelle wie beispielsweise ChatGPT erwecken den Eindruck, Neues zu erzeugen. Dabei kombinieren sie nur Muster neu. Wobei: Diese Kombinationen sind nicht immer wirklich neu. Mit ein bisschen Geschick kann man die Sprachmodelle dazu bringen, viel über ihre ansonsten geheimen Trainingsdaten auszuplappern. Diese Einblicke in die dunklen Hintergründe dieser Daten werden unseren Umgang mit Privatsphäre,… Die düsteren Datenhintergründe der KI weiterlesen
  • «Quasselquote» bei LLM-Sprachmodellen
    Neulich erwähnte jemand, dass man ChatGPT-Output bei Schülern häufig an der «Quasselquote» erkennen könne. Das ist eine Nebenwirkung der Funktionsweise dieser Sprachmodelle, aber natürlich noch kein Beweis. Etwas Hintergrund.
  • «KI» und «Vertrauen»: Passt das zusammen?
    Vor einigen Wochen hat Bruce Schneier einen Vortrag gehalten, bei dem er vor der der Vermischung und Fehlinterpretation des Begriffs «Vertrauen» gewarnt hat, ganz besonders beim Umgang mit dem, was heute von Firmen als «Künstliche Intelligenz» verkauft wird.
  • Wegweiser für generative KI-Tools
    Es gibt inzwischen eine grosse Anzahl generativer KI-Tools, nicht nur für den Unterricht. Hier ein Überblick über verschiedene Tool-Sammlungen.
  • KI-Vergiftung
    Eine aggressive Alternative zur Blockade von KI-Crawlern ist das «Vergiften» der dahinterliegenden KI-Modelle. Was bedeutet das?
  • Lehrerverband, ChatGPT und Datenschutz
    Der Dachverband der Lehrerinnen und Lehrer (LCH) sei besorgt, dass es in der Schweiz keine einheitliche Regelung gäbe, wie Lehrpersonen mit Daten ihrer Schützlinge umgehen sollen und ob sie dafür KI-Systeme nutzen dürften.
  • «Recht auf Vergessenwerden»: Ende durch KI?
    Das Recht auf Vergessenwerden soll Menschen erlauben, dass Daten über sie nicht unnötig lange digital gespeichert oder verfügbar gemacht werden. Doch KI vergisst nicht gerne. Wie passt das zusammen?
  • Webseiten für KI-Crawler sperren?
    Der grösste Teil der Texte, auf denen moderne KI-Sprachmodelle trainiert wurden, stammen von Webseiten. Wenn Sie eine haben, dann vermutlich auch von Ihrer. Was kann man da tun? Wenn Suchmaschinen wie Google Webseiten durchsuchen, bieten Sie den Betreibern der Webseite auch eine Gegenleistung: Sie werden besser gefunden. Wenn die Texte für das Training von KI-Sprachmodellen… Webseiten für KI-Crawler sperren? weiterlesen

Bleibe auf dem Laufenden!

Erhalte eine Mail bei jedem neuen Artikel von mir.

Ca. 1-2 Mails pro Monat, kein Spam.

Folge mir im Fediverse


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.


Webapps