Der grösste Teil der Texte, auf denen moderne KI-Sprachmodelle trainiert wurden, stammen von Webseiten. Wenn Sie eine haben, dann vermutlich auch von Ihrer. Was kann man da tun?
Wenn Suchmaschinen wie Google Webseiten durchsuchen, bieten Sie den Betreibern der Webseite auch eine Gegenleistung: Sie werden besser gefunden.
Wenn die Texte für das Training von KI-Sprachmodellen („LLM“, Large Language Model) verwendet werden, gibt es keine offensichtliche Gegenleistung für den Schreiber der Seite.
Die ursprünglichen Trainingsdaten von beispielsweise ChatGPT stammen zu rund 80% aus Webseiten. Die genutzten Webseiten hat die Washington Post zu reproduzieren versucht.
Was gesammelt wurde, bleibt in der Sammlung; denn das Entfernen von Daten ist sehr teuer. Zu teuer, um es ohne zwingenden Grund zu machen.
Aber auch das Hinzufügen von neuen Daten ist kaum kontrollierbar:
- Google nutzt die für die Suchmaschine gesammelten Daten auch für ihr Sprachmodell Bard.
- Bei OpenAI kann man zukünftig das Sammeln einschränken. Und auch einen Teil der Nutzung von Webseiteninhalten via Plugins.
Mehr Infos dazu in meinem englischsprachigen Artikel «How to block AI crawlers with robots.txt
».
Leider löst dies das Problem nicht. Damit Nutzer die Kontrolle über die Weiterverarbeitung ihrer Texte haben, ist wohl eine gesetzliche Regelung mit begleitender technischer Umsetzung unumgänglich.
[Neu 2023-11-04] Im englischen Originalartikel habe ich inzwischen auch das Thema „AI Poisoning“ („KI-Vergiftung“) als Mechanismus aufgenommen.
Künstliche Intelligenz
- Neuralink ist (noch) keine Schlagzeile wertDiese Woche haben einige kurze Tweets von Elon Musk hunderte oder gar tausende von Artikeln ausgelöst. Wieso?
- Die düsteren Datenhintergründe der KIGenerative Sprachmodelle wie beispielsweise ChatGPT erwecken den Eindruck, Neues zu erzeugen. Dabei kombinieren sie nur Muster neu. Wobei: Diese Kombinationen sind nicht immer wirklich neu. Mit ein bisschen Geschick kann man die Sprachmodelle dazu bringen, viel über ihre ansonsten geheimen Trainingsdaten auszuplappern. Diese Einblicke in die dunklen Hintergründe dieser Daten werden unseren Umgang mit Privatsphäre, … Weiterlesen: Die düsteren Datenhintergründe der KI
- «Quasselquote» bei LLM-SprachmodellenNeulich erwähnte jemand, dass man ChatGPT-Output bei Schülern häufig an der «Quasselquote» erkennen könne. Das ist eine Nebenwirkung der Funktionsweise dieser Sprachmodelle, aber natürlich noch kein Beweis. Etwas Hintergrund.
- «KI» und «Vertrauen»: Passt das zusammen?Vor einigen Wochen hat Bruce Schneier einen Vortrag gehalten, bei dem er vor der der Vermischung und Fehlinterpretation des Begriffs «Vertrauen» gewarnt hat, ganz besonders beim Umgang mit dem, was heute von Firmen als «Künstliche Intelligenz» verkauft wird.
- Wegweiser für generative KI-ToolsEs gibt inzwischen eine grosse Anzahl generativer KI-Tools, nicht nur für den Unterricht. Hier ein Überblick über verschiedene Tool-Sammlungen.
- KI-VergiftungEine aggressive Alternative zur Blockade von KI-Crawlern ist das «Vergiften» der dahinterliegenden KI-Modelle. Was bedeutet das?
- Lehrerverband, ChatGPT und DatenschutzDer Dachverband der Lehrerinnen und Lehrer (LCH) sei besorgt, dass es in der Schweiz keine einheitliche Regelung gäbe, wie Lehrpersonen mit Daten ihrer Schützlinge umgehen sollen und ob sie dafür KI-Systeme nutzen dürften.
- «Recht auf Vergessenwerden»: Ende durch KI?Das Recht auf Vergessenwerden soll Menschen erlauben, dass Daten über sie nicht unnötig lange digital gespeichert oder verfügbar gemacht werden. Doch KI vergisst nicht gerne. Wie passt das zusammen?
- Webseiten für KI-Crawler sperren?Der grösste Teil der Texte, auf denen moderne KI-Sprachmodelle trainiert wurden, stammen von Webseiten. Wenn Sie eine haben, dann vermutlich auch von Ihrer. Was kann man da tun? Wenn Suchmaschinen wie Google Webseiten durchsuchen, bieten Sie den Betreibern der Webseite auch eine Gegenleistung: Sie werden besser gefunden. Wenn die Texte für das Training von KI-Sprachmodellen … Weiterlesen: Webseiten für KI-Crawler sperren?
- KI und die Arbeitswelt der ZukunftMichael Seemann hat in rund 100 sehr gut lesbaren Seiten das Wichtigste zusammengefasst, was wir über ChatGPT & Co wissen. Und ein paar Szenarien für die Arbeitswelt analysiert.
- Todesstoss für ChatGPT & Co?Die New York Times verhandelt schon länger mit OpenAI über Urheberrechtsabgaben. Laut Berichten hat OpenAI für das Training von ChatGPT unautorisiert Materialien der New York Times genutzt. Das kann in mehrfacher Sicht teuer werden.
- Sinkt OpenAI?Schlagzeilen machen die Runde, dass OpenAI, die Firma hinter ChatGPT, schon nächstes Jahr Konkurs gehen könnte. Ein Versuch einer Analyse.
- Goethe oder GPThe?In «Wie funktioniert ChatGPT?» habe ich die Experimente von Andrej Karpathy mit Shakespeare-Texten wiedergegeben. Aber funktioniert das auch auf Deutsch? Zum Beispiel mit Goethe? Finden wir es heraus!
- KI: Alles nur Zufall?Wer von einer «Künstlichen Intelligenz» Texte oder Bilder erzeugen lässt, weiss, dass das Resultat stark auf Zufall beruht. Vor Kurzem erschien in der NZZ ein Beitrag, der die Unzuverlässigkeit der KI vor allem dem Zufall in die Schuhe schob. Doch so einfach ist das nicht.
- Hype-TechWieso tauchen gewisse Hype-Themen wie Blockchain oder Maschinelles Lernen/Künstliche Intelligenz regelmässig in IT-Projekten auf, obwohl die Technik nicht wirklich zur gewünschten Lösung passt? Oder es auch einfachere, bessere Ansätze gäbe? Felix von Leitner hielt im Herbst 2021 einen Vortrag zu «Hype-Tech», in dem er einige Gründe dafür aufzeigt (Navigation in den Folien mittels Wischgesten oder … Weiterlesen: Hype-Tech
Schreibe einen Kommentar