Reproduzierbare KI: Ein Selbstversuch

Ein Roboter am Bahnhof, von DALL•E

Im NZZ Folio vom 6. September 2022 beschrieb Reto U. Schneider u.a., wie er mit DALL•E 2 Bilder erstellte. Die Bilder waren alle sehr eindrücklich. Ich fragte mich allerdings, wie viele Versuche der Autor (oder in diesem Fall besser: Prompt-Designer) wohl gebraucht habe, bis diese eindrücklichen Resultate herauskamen.

A related article (actually a follow-up with language comparison) is available here in English 🇬🇧: «Reproducible AI Image Generation: Experiment Follow-Up».

Hier mein Selbstversuch, wie viel Arbeit ich als Journalist oder Prompt-Designer in die Auswahl von KI-Bildern stecken müsste. Die Aufgabe ist zweiteilig:

  1. Finde den richtigen Text
  2. Wähle ein passendes Bild

Wie viel Stochern im Nebel ist dabei?

Ich vertrete ja die Meinung, dass AI (Artificial Intelligence, das englische Vorbild für unser Künstliche Intelligenz) uns nicht wirklich versteht, sondern aus dem riesigen Datenvorrat etwas halbwegs Passendes daherbrabbelt. Bei kurzen Interaktionen fällt es nicht auf, ganz ähnlich wie bei Demenz im Frühstadium.

Entsprechend spannend fand ich den NZZ-Artikel zu künstlicher Intelligenz, der zu allen Bildern jeweils die Textvorgabe, den sogenannten „Prompt“ lieferte. Damit konnte man zumindest zum zweiten Teil der Fragestellung etwas aussagen.

Wie viel „Faultier“ steckt in der KI?

Oder anders gefragt, wie viel Arbeit delegiert die KI zurück zum Menschen, der sie bedient? Der somit zur eigentlichen Labormaus wird? (Douglas Adams lässt grüssen.)

Der Aufwand, den Reto U. Schneider wirklich in sein Prompt Design gesteckt hat, erläutert er nicht. Aber folgende Reproduktionen geben vielleicht einen Anhaltspunkt.

Ich zeige alle Bilder, die ich mit demselben Prompt vom selben Dall•E 2 erhalten habe, verschweige nichts.

Trotzdem darf die Aussagekraft dieses kleinen Experiments nicht überschätzt werden. Es kann lediglich einige Datenpunkte liefern.

(Mehr zum Faultier KI hier.)

Die KI versteht nur Bahnhof

Das erste Bild der NZZ soll einen intelligenten Roboter an einem Bahnhof zeigen. Die folgenden 4 Bilder sind mit dem Prompt unterhalb der Galerie entstanden. Wie alle Prompts stammen sie direkt aus dem NZZ-Artikel. DALL•E 2 liefert im Webinterface bei jeder Anfrage vier Bilder zur Auswahl. Hier die ersten 4 davon:

«Ein Roboter liest draussen in einer Schweizer Stadt eine Zeitung, während er auf den Zug wartet. Grossformatige Fotografie im Stil von Jeff Wall. Sehr detailliert. Sehr hohe Auflösung. Linhof Master Technika Classic. Hasselblad. 80 mm.»

Das erste Bild, das grösstenteils weiss ist, stammt wirklich von der KI und ist kein Übermittlungsfehler. Vielleicht entstand dieses Bild gerade, als eine Dampflokomotive vorbeifuhr?

Fazit: ¾ der Bilder sind gut, auch wenn einzelne Details sicher nicht passen, wenn man genauer hinschaut.

Bild 1 (das weisse) verwirrt mich; so sehr „irgendwas blabbern“ hatte ich definitiv nicht erwartet. Von Bild 4 oben lasse ich mir zum Spass Varianten geben, um auch diese Funktion auszuprobieren. Die Geometrie ist manchmal sehr seltsam, besonders im Bauchbereich. Bei Bild 2 wird die Bank mitgemorpht. Seltsam, aber DALL•E 2 schlägt sich bisher gut.

Intelligenz

Klare, einfache Anweisung; dazu findet sich sicher einiges in den Inputdaten. Die Resultate sind ansprechend, aber bei vielen fehlt mir der Bezug zu „Intelligenz“. Bild 4 könnte man da wahrscheinlich brauchen.

Resultat: ¼

Klassik

Schöne Bilder, könnten reale Fotos sein.

Statue: Check. Katze: Check. Stolpern: Kratz, kratz!

Resultat: 0/4

Neuronales Netzwerk

Grafisch gefallen mir die ersten drei sehr gut. Alle vier stellen Neuronen dar, aber „Netzwerk“? Nichts zu finden.

Resultat: 0/4

Kulturschock

„Stil“ scheint sich hier auf die Farbwahl der Titelseite zu beziehen, aber das lassen wir mal durchgehen. Roboter: 50%. Buch: Check. Strasse in Indien: OK.

Resultat: ½

Krach am Nil

„Altägyptisch“ können wir glaube ich allen geben. Müll und Streit ist nur mit viel Phantasie zu sehen.

Resultat: Zéro points (in Worten: 0/4)

Sneakernet

Turnschuh: Yep. Wolken: Auf alle Fälle, sogar teilweise in der herbeigezauberten Schrift. „aus“ kann ich nur beim letzten erkennen.

Resultat: ¼

(Woher kommt die Schrift? Und welche Marke hat 7 Streifen? Fragen über Fragen…)

Der Künstler

Roboter: Ja. Schreibmaschine: Ja. „An“? 50% oder so. Paul Klee? Geben wir da mal grosszügig 50%, auch wenn Paul Klee dem wohl heftig widersprechen würde.

Resultat: ¼ (aufgerundet)

Kronjuwelen

Dieser Prompt zeigt für mich besonders schön, dass die KI auch Dinge zusammenstellen können, die es so nicht gibt. Ein königliches Skateboard hat wohl noch niemand gesehen, und trotzdem ist es vorstellbar. Und DALL•E 2 kann es zeichnen. Chapeau!

Skateboard: Check. Königlich: Check. Ausgestellt: Yep. Kronjuwelen? Krone ja, Juwelen nein. Tower of London: Naja.

Resultat: Die Bilder passen zum NZZ-Bild, aber nicht den Prompt. Gut gespickt, aber leider vom falschen Prüfling. 0/4

Kirchenfenster

Roboter: Ja. Buch: Ja. Kirchenfenster: Ja. Manchmal etwas seltsam (durchsichtiger Roboter in Bild 4). Definitiv kein „als“.

Resultat: 0/4

Was zeigt uns das?

Trotz kleiner Stichprobe ein erster Anhaltspunkt. Meine Schlussfolgerung:

Substantive werden erfüllt, der Rest ist Glücksache.

Die Bilder entsprachen sehr selten der Beschreibung, aber alle waren wunderschön. Ich hatte eine genussvolle Zeit. Geniesst die Bilder!

Lust am Experimentieren?

[Hinzugefügt 2022-11-20:] Wer mittels generativer KI Bilder erzeugen möchte, kann folgende Tools nutzen:

  • DALL•E 2, das hier verwendete System: Benötigt ein Konto (Mailadresse+Handynummer); gratis bei Wenignutzung; kann noch mehr als hier vorgestellt. Auf Englisch ausgerichtet, funktioniert aber auch mit deutschen Prompts (siehe oben) sehr gut.
  • Craiyon, setzt auf dem „Vorgänger“ DALL•E mini auf: Gratis, niedrige Auflösung, kein Login nötig. Ideal um einfach mal reinzuschnuppern. Kann auch Deutsch, aber die Resultate sind viel schlechter als mit englischen Prompts.
  • Stable Diffusion (Huggingface): „Stable Diffusion“ ist hinter den Kulissen ein ganz anderer Ansatz als der von DALL•E, aber liefert auch sehr gute Ergebnisse. Gratis, niedrige Auflösung, kein Login nötig; in der Pro-Version fallen diese Limiten weg. Englische Prompts auch hier dringend empfohlen.
  • Stable Diffusion (Replicate): Ein weiteres Stable-Diffusion-Modell, bei dem man an vielen Schrauben drehen kann. Gratis, niedrige Auflösung, kein Login nötig; in der Pro-Version fallen diese Limiten weg. Englische Prompts auch hier dringend empfohlen.
  • MidJourney: Nochmals ein anderes Konzept und eine andere Benutzeroberfläche: Man schreibt eine Nachricht in einem Discord-Gruppenchat und darauf werden die Vorschläge zurückgeliefert, die man dann ebenfalls weiterverarbeiten kann. Versteht definitiv nur Englisch. [Neu 2022-11-24]
MidJourney versteht kein Deutsch. Auch wenn in der Variante links oben wenigstens ein Hauch von „Krokodil“ zu erkennen ist…

Mein Testsatz, den ich für den Deutsch-Sprachtest verwendet hatte, war „Haustür mit Krokodil“: DALL•E 2 musste sich hier nicht mehr beweisen (der Hauptteil des Artikels handelt von seinem Deutschverständnis), die anderen haben nur entweder eine Haustür oder ein Krokodil gezeichnet (während „Door with crocodile“ immer beides beinhaltete, mehr oder weniger kreativ kombiniert). MidJourney versteht gar nichts, will sich das (aber ganz KI, aber auch teilweise menschlich) nicht anmerken lassen. [Neu 2022-11-24]

Viel Spass beim Experimentieren!

Mehr zu KI

, ,

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.


Webapps