Im NZZ Folio vom 6. September 2022 beschrieb Reto U. Schneider u.a., wie er mit DALL•E 2 Bilder erstellte. Die Bilder waren alle sehr eindrücklich. Ich fragte mich allerdings, wie viele Versuche der Autor (oder in diesem Fall besser: Prompt-Designer
) wohl gebraucht habe, bis diese eindrücklichen Resultate herauskamen.
A related article (actually a follow-up with language comparison) is available here in English 🇬🇧: «Reproducible AI Image Generation: Experiment Follow-Up».
Hier mein Selbstversuch, wie viel Arbeit ich als Journalist oder Prompt-Designer in die Auswahl von KI-Bildern stecken müsste. Die Aufgabe ist zweiteilig:
- Finde den richtigen Text
- Wähle ein passendes Bild
Wie viel Stochern im Nebel ist dabei?
Ich vertrete ja die Meinung, dass AI (Artificial Intelligence, das englische Vorbild für unser Künstliche Intelligenz) uns nicht wirklich versteht, sondern aus dem riesigen Datenvorrat etwas halbwegs Passendes daherbrabbelt. Bei kurzen Interaktionen fällt es nicht auf, ganz ähnlich wie bei Demenz im Frühstadium.
Entsprechend spannend fand ich den NZZ-Artikel zu künstlicher Intelligenz, der zu allen Bildern jeweils die Textvorgabe, den sogenannten „Prompt“ lieferte. Damit konnte man zumindest zum zweiten Teil der Fragestellung etwas aussagen.
Wie viel „Faultier“ steckt in der KI?
Oder anders gefragt, wie viel Arbeit delegiert die KI zurück zum Menschen, der sie bedient? Der somit zur eigentlichen Labormaus wird? (Douglas Adams lässt grüssen.)
Der Aufwand, den Reto U. Schneider wirklich in sein Prompt Design gesteckt hat, erläutert er nicht. Aber folgende Reproduktionen geben vielleicht einen Anhaltspunkt.
Ich zeige alle Bilder, die ich mit demselben Prompt vom selben Dall•E 2 erhalten habe, verschweige nichts.
Trotzdem darf die Aussagekraft dieses kleinen Experiments nicht überschätzt werden. Es kann lediglich einige Datenpunkte liefern.
(Mehr zum Faultier KI hier.)
Die KI versteht nur Bahnhof
Das erste Bild der NZZ soll einen intelligenten Roboter an einem Bahnhof zeigen. Die folgenden 4 Bilder sind mit dem Prompt unterhalb der Galerie entstanden. Wie alle Prompts stammen sie direkt aus dem NZZ-Artikel. DALL•E 2 liefert im Webinterface bei jeder Anfrage vier Bilder zur Auswahl. Hier die ersten 4 davon:




«Ein Roboter liest draussen in einer Schweizer Stadt eine Zeitung, während er auf den Zug wartet. Grossformatige Fotografie im Stil von Jeff Wall. Sehr detailliert. Sehr hohe Auflösung. Linhof Master Technika Classic. Hasselblad. 80 mm.»
Das erste Bild, das grösstenteils weiss ist, stammt wirklich von der KI und ist kein Übermittlungsfehler. Vielleicht entstand dieses Bild gerade, als eine Dampflokomotive vorbeifuhr?
Fazit: ¾ der Bilder sind gut, auch wenn einzelne Details sicher nicht passen, wenn man genauer hinschaut.
Bild 1 (das weisse) verwirrt mich; so sehr „irgendwas blabbern“ hatte ich definitiv nicht erwartet. Von Bild 4 oben lasse ich mir zum Spass Varianten geben, um auch diese Funktion auszuprobieren. Die Geometrie ist manchmal sehr seltsam, besonders im Bauchbereich. Bei Bild 2 wird die Bank mitgemorpht. Seltsam, aber DALL•E 2 schlägt sich bisher gut.




Intelligenz




Klare, einfache Anweisung; dazu findet sich sicher einiges in den Inputdaten. Die Resultate sind ansprechend, aber bei vielen fehlt mir der Bezug zu „Intelligenz“. Bild 4 könnte man da wahrscheinlich brauchen.
Resultat: ¼
Klassik




Schöne Bilder, könnten reale Fotos sein.
Statue: Check. Katze: Check. Stolpern: Kratz, kratz!
Resultat: 0/4
Neuronales Netzwerk




Grafisch gefallen mir die ersten drei sehr gut. Alle vier stellen Neuronen dar, aber „Netzwerk“? Nichts zu finden.
Resultat: 0/4
Kulturschock




„Stil“ scheint sich hier auf die Farbwahl der Titelseite zu beziehen, aber das lassen wir mal durchgehen. Roboter: 50%. Buch: Check. Strasse in Indien: OK.
Resultat: ½
Krach am Nil




„Altägyptisch“ können wir glaube ich allen geben. Müll und Streit ist nur mit viel Phantasie zu sehen.
Resultat: Zéro points (in Worten: 0/4)
Sneakernet




Turnschuh: Yep. Wolken: Auf alle Fälle, sogar teilweise in der herbeigezauberten Schrift. „aus“ kann ich nur beim letzten erkennen.
Resultat: ¼
(Woher kommt die Schrift? Und welche Marke hat 7 Streifen? Fragen über Fragen…)
Der Künstler




Roboter: Ja. Schreibmaschine: Ja. „An“? 50% oder so. Paul Klee? Geben wir da mal grosszügig 50%, auch wenn Paul Klee dem wohl heftig widersprechen würde.
Resultat: ¼ (aufgerundet)
Kronjuwelen




Dieser Prompt zeigt für mich besonders schön, dass die KI auch Dinge zusammenstellen können, die es so nicht gibt. Ein königliches Skateboard hat wohl noch niemand gesehen, und trotzdem ist es vorstellbar. Und DALL•E 2 kann es zeichnen. Chapeau!
Skateboard: Check. Königlich: Check. Ausgestellt: Yep. Kronjuwelen? Krone ja, Juwelen nein. Tower of London: Naja.
Resultat: Die Bilder passen zum NZZ-Bild, aber nicht den Prompt. Gut gespickt, aber leider vom falschen Prüfling. 0/4
Kirchenfenster




Roboter: Ja. Buch: Ja. Kirchenfenster: Ja. Manchmal etwas seltsam (durchsichtiger Roboter in Bild 4). Definitiv kein „als“.
Resultat: 0/4
Was zeigt uns das?
Trotz kleiner Stichprobe ein erster Anhaltspunkt. Meine Schlussfolgerung:
Substantive werden erfüllt, der Rest ist Glücksache.
Die Bilder entsprachen sehr selten der Beschreibung, aber alle waren wunderschön. Ich hatte eine genussvolle Zeit. Geniesst die Bilder!
Lust am Experimentieren?
[Hinzugefügt 2022-11-20:] Wer mittels generativer KI Bilder erzeugen möchte, kann folgende Tools nutzen:
- DALL•E 2, das hier verwendete System: Benötigt ein Konto (Mailadresse+Handynummer); gratis bei Wenignutzung; kann noch mehr als hier vorgestellt. Auf Englisch ausgerichtet, funktioniert aber auch mit deutschen Prompts (siehe oben) sehr gut.
- Craiyon, setzt auf dem „Vorgänger“ DALL•E mini auf: Gratis, niedrige Auflösung, kein Login nötig. Ideal um einfach mal reinzuschnuppern. Kann auch Deutsch, aber die Resultate sind viel schlechter als mit englischen Prompts.
- Stable Diffusion (Huggingface): „Stable Diffusion“ ist hinter den Kulissen ein ganz anderer Ansatz als der von DALL•E, aber liefert auch sehr gute Ergebnisse. Gratis, niedrige Auflösung, kein Login nötig; in der Pro-Version fallen diese Limiten weg. Englische Prompts auch hier dringend empfohlen.
- Stable Diffusion (Replicate): Ein weiteres Stable-Diffusion-Modell, bei dem man an vielen Schrauben drehen kann. Gratis, niedrige Auflösung, kein Login nötig; in der Pro-Version fallen diese Limiten weg. Englische Prompts auch hier dringend empfohlen.
- MidJourney: Nochmals ein anderes Konzept und eine andere Benutzeroberfläche: Man schreibt eine Nachricht in einem Discord-Gruppenchat und darauf werden die Vorschläge zurückgeliefert, die man dann ebenfalls weiterverarbeiten kann. Versteht definitiv nur Englisch. [Neu 2022-11-24]
Mein Testsatz, den ich für den Deutsch-Sprachtest verwendet hatte, war „Haustür mit Krokodil“: DALL•E 2 musste sich hier nicht mehr beweisen (der Hauptteil des Artikels handelt von seinem Deutschverständnis), die anderen haben nur entweder eine Haustür oder ein Krokodil gezeichnet (während „Door with crocodile“ immer beides beinhaltete, mehr oder weniger kreativ kombiniert). MidJourney versteht gar nichts, will sich das (aber ganz KI, aber auch teilweise menschlich) nicht anmerken lassen. [Neu 2022-11-24]
Viel Spass beim Experimentieren!
Künstliche Intelligenz
News (mehr…)
- Lehrerverband, ChatGPT und DatenschutzDer Dachverband der Lehrerinnen und Lehrer (LCH) sei besorgt, dass es in der Schweiz keine einheitliche Regelung gäbe, wie Lehrpersonen mit Daten ihrer Schützlinge umgehen sollen und ob sie dafür … Weiterlesen
- «Recht auf Vergessenwerden»: Ende durch KI?Das Recht auf Vergessenwerden soll Menschen erlauben, dass Daten über sie nicht unnötig lange digital gespeichert oder verfügbar gemacht werden. Doch KI vergisst nicht gerne. Wie passt das zusammen?
- Webseiten für KI-Crawler sperren?Der grösste Teil der Texte, auf denen moderne KI-Sprachmodelle trainiert wurden, stammen von Webseiten. Wenn Sie eine haben, dann vermutlich auch von Ihrer. Was kann man da tun?
Lange Artikel (mehr…)
- Goethe oder GPThe?In «Wie funktioniert ChatGPT?» habe ich die Experimente von Andrej Karpathy mit Shakespeare-Texten wiedergegeben. Aber funktioniert das auch auf Deutsch? Zum Beispiel mit Goethe? Finden wir es heraus!
- KI: Alles nur Zufall?Wer von einer «Künstlichen Intelligenz» Texte oder Bilder erzeugen lässt, weiss, dass das Resultat stark auf Zufall beruht. Vor Kurzem erschien in der NZZ ein Beitrag, der die Unzuverlässigkeit der … Weiterlesen
- Hype-TechWieso tauchen gewisse Hype-Themen wie Blockchain oder Maschinelles Lernen/Künstliche Intelligenz regelmässig in IT-Projekten auf, obwohl die Technik nicht wirklich zur gewünschten Lösung passt? Oder es auch einfachere, bessere Ansätze gäbe? … Weiterlesen
- 📹 Die Technik hinter ChatGPTDer Digital Learning Hub organisierte 3 Impuls-Workshops zum Einsatz von ChatGPT in der Sekundarstufe II. Im dritten Teil präsentierte ich die Technik hinter ChatGPT. In der halben Stunde Vortrag werden … Weiterlesen
- Ist ChatGPT für Ihre Anwendung ungefährlich?Ob man KI-Chatbots sicher einsetzen kann, hängt von der Anwendung ab. Aleksandr Tiulkanov hat deshalb ein Flussdiagramm als Entscheidungshilfe erstellt. Hier eine deutsche Übersetzung und ein paar Anmerkungen zum Korrekturlesen … Weiterlesen
- Wie funktioniert ChatGPT?ChatGPT ist wohl das zur Zeit mächtigste Künstliche-Intelligenz-Sprachmodell. Wir schauen etwas hinter die Kulissen, wie das „large language model“ GPT-3 und das darauf aufsetzende ChatGPT funktionieren.
- Die KI ChatGPT und die Herausforderungen für die GesellschaftWas lange währt, wird endlich, äh, published. Mein neuer DNIP-Artikel zu ChatGPT ist online, in drei Teilen:
- Identifikation von KI-KunstKI-Kunst ist auf dem Vormarsch, sowohl was die Qualität als auch die Quantität betrifft. Es liegt (leider) in der menschlichen Natur, einiges davon als echte Kunst zu vermarkten. Hier sind … Weiterlesen
- Die Lieblingsfragen von ChatGPTEntmutigt durch die vielen Antworten von ChatGPT, es könne mir auf diese oder jene Frage keine Antwort geben, weil es nur ein von OpenAI trainiertes Sprachmodell sei, versuchte ich, ChatGPT … Weiterlesen
- Wie funktioniert Künstliche Intelligenz?Am vergangenen Mittwoch habe ich im Rahmen der Volkshochschule Stein am Rhein einen Überblick über die Mächtigkeit, aber auch die teilweise Ohnmächtigkeit der Künstlichen Intelligenz gegeben. Das zahlreich anwesende Publikum … Weiterlesen
- Künstliche Intelligenz — und jetzt?Am 16. November 2022 halte ich einen öffentlichen Vortrag zu künstlicher Intelligenz an der VHS Stein am Rhein. Sie sind herzlich eingeladen. Künstliche Intelligenz ist derzeit in aller Munde und … Weiterlesen
- Reproduzierbare KI: Ein SelbstversuchIm NZZ Folio vom 6. September 2022 beschrieb Reto U. Schneider u.a., wie er mit DALL•E 2 Bilder erstellte. Die Bilder waren alle sehr eindrücklich. Ich fragte mich allerdings, wie viele … Weiterlesen
- Machine Learning: Künstliche Faultier-IntelligenzMachine Learning („ML“) wird als Wundermittel angepriesen um die Menschheit von fast allen repetitiven Verarbeitungsaufgaben zu entlasten: Von der automatischen Klassifizierung von Strassenschilden über medizinische Auswertungen von Gewebeproben bis zur … Weiterlesen
Schreibe einen Kommentar