Ein Prompt macht mehr als tausend Bilder

Ein Prompt macht mehr als tausend Bilder
Illustration: KI-generiert/GPT-4/Schwarze

Grafiker müssen umdenken. Wer eine Bebilderung für ein schwieriges Thema braucht, füttert seit ein paar Monaten eine Bilder-KI mit Anweisungen. Wenn man es richtig macht, kommt dabei eine vorzeigbare Illustration heraus. Diese kann fotorealistisch oder wie eine Zeichnung aussehen, vektorisiert (wie oben) oder wie ein Ölgemälde – es kommt eben auf den Prompt an, die Regieanweisung also an die KI.

Midjourney galt bisher als der Porsche unter den generativen Bilder-KIs, obwohl die Bedienung in Verknüpfung mit der Chat-Software Discord nicht eben leicht zu erlernen war. Die Resultate aber waren und sind oft überzeugend.

Seit wenigen Tagen hat auch ChatGPT eine Bilderfunktion eingebaut. Sie heißt Dall-E 3 und lässt sich bei der kostenpflichtigen Version GPT-4 über den gleichlautenden Menüpunkt aktiveren. Eine Anleitung zu Dall-E 3 kennt GPT-4 nicht. Aber dafür gibt’s ja mich.

Der Prompt für die vier Bilder oben in GPT-4 lautete (deutsche Übersetzung folgt):

Create an illustration depicting the role of a meticulous journalist summarizing a specific text according to strict guidelines. The scene should encompass the following elements: The Journalist at the Desk: Showcase a person seated at a desk equipped with a computer, notes, and books. The individual should appear focused, possibly holding a magnifying glass to symbolize attention to detail. A Marked and Annotated Text: Place a document on the desk with highlights, underlines, and annotations, emphasizing the requirements of the journalistic process, such as gendering job titles and avoiding certain words. Vivid Examples: Include small illustrations or symbols representing the themes or concepts described in the text, fulfilling the demand for vivid examples. Neutral Style and Color Scheme: Employ subdued, neutral colors to reflect the journalist's objectivity and neutrality. The goal is to craft a scene that illustrates both the complexity of the journalistic task and the simplicity and clarity of the requirements. The illustration should strike a balance between richness in detail and simplicity, highlighting the care and accuracy of the journalist.  
Erstelle eine Illustration, die die Rolle eines sorgfältigen Journalisten beim Zusammenfassen eines spezifischen Textes nach strengen Richtlinien darstellt. Die Szene sollte folgende Elemente umfassen:

Der Journalist am Schreibtisch: Zeige eine Person, die an einem mit Computer, Notizen und Büchern ausgestatteten Schreibtisch sitzt. Die Person sollte konzentriert wirken, möglicherweise mit einer Lupe in der Hand, um die Liebe zum Detail zu symbolisieren.

Ein markierter und annotierter Text: Platziere ein Dokument auf dem Schreibtisch, das Hervorhebungen, Unterstreichungen und Anmerkungen aufweist. Diese sollen die Anforderungen des journalistischen Prozesses hervorheben, wie zum Beispiel das Gendern von Berufsbezeichnungen und das Vermeiden bestimmter Worte.

Lebendige Beispiele: Füge kleine Illustrationen oder Symbole hinzu, die die Themen oder Konzepte im Text repräsentieren und damit den Anspruch an lebendige Beispiele erfüllen.

Neutraler Stil und Farbschema: Verwende zurückhaltende, neutrale Farben, um die Objektivität und Neutralität des Journalisten widerzuspiegeln.

Das Ziel ist es, eine Szene zu schaffen, die sowohl die Komplexität der journalistischen Aufgabe als auch die Einfachheit und Klarheit der Anforderungen illustriert. Die Illustration sollte ein Gleichgewicht zwischen Detailreichtum und Einfachheit finden und die Sorgfalt und Genauigkeit des Journalisten hervorheben.

Nicht ich habe diesen Prompt so ausgefeilt formuliert, sondern die KI Chat-GPT bereits vor ein paar Monaten. Damals für Midjourney. Heraus kam bei Midjourney diese Illustration:

Illustration: KI-generiert/Midjourney/Schwarze

Beide Ergebnisse halte ich für beachtlich.

Einen Schritt weiter geht die Anwendung Firefly 2 von Adobe. Der oben genannte Prompt ist dafür zu lang und produziert deshalb einen Fehler. Verkürze ich den Prompt, kommen diese Ergebnisse heraus – nach zusätzlichem Einstellen eines Inhaltstyps Foto (statt Kunst) und Hinzufügen der Effekte Hyperrealistisch und Goldene Stunde.

Illustration: KI-generiert/Firefly Image 2 (Beta)/Schwarze

Finger und Haut wirken etwas unnatürlich. Beim Herunterladen merkt die Software an, dass in der Datei Informationen hinterlegt werden, wonach es sich um ein KI-generiertes Bild handelt.

Illustration: KI-generiert/Firefly Image 2 (Beta)/Schwarze

Firefly erschließt erstmals besser die berüchtigte „Blackbox“ der künstlichen Intelligenz: Bei Midjourney und Co stocherte man bisher im Nebel, warum die Maschine gewisse Bilderelemente generierte und welche Stile sie beherrscht und warum die KI sie anwendet. Bei Firefly ist alles fein ziseliert einstellbar – fast wird man erschlagen von den Möglichkeiten. Neben der grundlegenden Festlegung auf Foto oder Kunst lassen sich zum Beispiel folgende Effekte anwenden:

Art déco, Jugendstil, Barock, Bauhaus, Konstruktivismus, Kubismus, Cyberpunk, Fantasy, Fauvismus, Film noir, Glitch-Kunst, Impressionismus, Industriedesign, Mayimalismus, Minimalismus, Moderne Kunst, Modernism, Neo-Expressionismus, Pointillismus, Psychedelisch, Science Fiction, Steampunk, Surrealismus, Synthetismus, Synthwave, Vaporware, 3D, Anime, Cartoon, Kino, Comic, Concept Art, Cyber-Matrix, Digitale Kunst, Flache Farben, Geometrisch, Glassmorphismus, Grafik-Glitch, Graffitti, Grafik, Hyperrealistisch, Innenausstattung, Linienverlauf, Low-Poly-Art, Zeitungscollage, Optische Täuschung, Pixelmuster, Pixel-Art, Pop-Art, Produktfotografie, Psychedelischer Hintergrund, Skandinavisch, Splash-Bilder, Briefmarke, Trompe l’oeil, Vektor-Look, Drahtmodell.

Hinzu kommen jeweils ebenso viele

  • Techniken von Acrylfarbe bis Gekritzelt,
  • weitere Filter von Fischauge bis Isometrisch,
  • Materialen wie Kohle, Holzschnitzerei oder Marmor,
  • sogenannte Konzepte von Chaotisch bis Göttlich,
  • Farbgebungen von schwarz-weiß bis Pastell,
  • Beleuchtungen von Gegenlicht bis Goldene Stunde,
  • Kompositionen von Nahaufnahme bis Vogelperspektive.

Die Möglichkeiten bei Firefly sind kombinierbar und somit endlos.

Illustration: KI-generiert/Firefly Image 2 (Beta)/Schwarze

Ein bereits früher verwendetes Beispiel einer neuen Brücke über dem Mittelrhein brachte seinerzeit bei Midjourney folgendes Ergebnis:

Design an elegant bridge (40 meters tall) over the River of the Rhine in the middle rhine valley, with separate lanes for pedestrians, cars and bikes, that is a finely geometrical fractal shell, nautilus regular logarithmic spiral geometrically developed fibonacci, translucent, parametric architecture grasshopper, in the golden hour time near the lorelei or Boppard
Illustration: KI-generiert/Midjourney/Schwarze, Prompt: im Alt-Text.

Bei GPT-4 mit Dall-E 3 tobt sich die Maschine bei dem gleichen Prompt aus und schießt übers Ziel hinaus:

Illustration: KI-generiert/GPT-4/Schwarze

Adobe Firefly 2 dagegen setzt stärker auf die Realität, fast scheint man die Loreley im Hintergrund zu erkennen:

Illustration: KI-generiert/Firefly Image 2 (Beta)/Schwarze

Bei vielen weiteren Versuchen stellte sich heraus, dass mit Adobe Firefly am besten zu steuern ist, wie die Maschine agieren soll. Allerdings sind die Einstellungen so vielfältig, dass sie sich kaum auf Anhieb erschließen. Versuch und Irrtum sind die neuen Zeiträuber – wieder ist eine Stunde weg, ohne dass ein „perfektes“ Ergebnis vorliegt.

Andererseits kann mit den Werkzeugen nun jeder Anfänger eine schnelle Illustration für eine Präsentation zaubern. Der Aufwand beträgt etwas Gehirnschmalz für den geeigneten Prompt – und gegebenenfalls etwas Überarbeitung.

Für den Lokaljournalismus ergeben sich so neue Möglichkeiten. Wenn dann tatsächlich nach Jahrzehnten der Diskussion über eine neue Brücke am Mittelrhein eine wichtige grundlegende Entscheidung gefällt wurde – warum sollte man sie nicht mit einer Illustration dokumentieren, die die Leserinnen und Leser träumen lässt? Andererseits wird der Journalist mit einer solchen Darstellung zum Akteur: Kein Planungsbüro, kein Bauamt hat diese Entwürfe gemacht, die Kosten unabsehbar, die Realisierung in jedem Fall fraglich. Entsprechend als „KI-generiert“ zu kennzeichnen sind diese Bilder daher allemal.

fashion photo of a young woman centered straight shot photo shot on Canon EOS R3 f1.8/135 mm of a woman dressed in Gucci, wearing an intricate royal blue dress, natural lighting
Illustration: KI-generiert/Midjourney/Schwarze. Prompt: siehe Alt-Text.

Eines meiner Lieblingsbilder der KI, das einer Frau in Gucci-Klamotten (oben), lässt sich bei Firefly auch als „Referenzbild“ für neue Kreationen festlegen. Die Maschine analysiert dann das Bild und nimmt grundlegende Erkenntnisse für eine neue Darstellung zum gleichen Prompt auf. Das Ergebnis:

Illustration: KI-generiert/Adobe Firefly 2 (Beta)/Schwarze.

Die grundlegenden Elemente, Farben, Stimmungen und Details neu aufzunehmen, wird so zur neuen Möglichkeit, ohne Model, Studio, Schweiß und Tränen. Andererseits birgt die KI-Technik die Gefahr, sich in den Tiefen des Promptens zu verzetteln. Und 100-prozentig authentisch wirken die Ergebnisse weiterhin nur per Zufall.

Marcus Schwarze

Marcus Schwarze

Journalist und Berater Digitales. Angelernt, nie ausgelernt bei Behörden, F.A.Z., Reporterfabrik, EA RLP, StoryMachine, Morgenpost, Rhein-Zeitung, HAZ
Koblenz, Germany