ChatGPT bekommt Augen: So liest die KI Fotos

ChatGPT bekommt Augen: So liest die KI Fotos
Illustration: KI-generiert/Midjourney/Schwarze. Prompt: ChatGPT with eyes focused on a computer screen displaying a website. Medium: Photography.Style: Hyperrealism, inspired by the works of artist Chuck Close. Lighting: Natural daylight coming from the side. Colors: Cool color palette with accents of blue and gray. Composition: Using a Canon EOS 5D Mark IV DSLR camera, EF 50mm f/1. 8 STM lens, Resolution 30.4 megapixels, ISO sensitivity: 32,000, Shutter speed 1/125 second.

Da lädt jemand ein Handyfoto einer Zeichnung von einer Konferenztafel hoch, die KI macht daraus eine funktionierende Webseite:

https://twitter.com/mckaywrigley/status/1707101465922453701

Jemand aus Italien lädt ein Foto eines Wohnzimmers hoch und bittet um Vorschläge fürs Verschönern. Die Maschine schlägt unter anderem Akzentfarben vor, inspiriert von italienischem Dekor:

https://twitter.com/skirano/status/1707466657176637709

Eine verwirrende Ansammlung von Straßenschildern interpretiert ChatGPT: Ja, Du kannst hier ab 16 Uhr an einem Dienstag für eine Stunde parken:

https://twitter.com/petergyang/status/1707169696049668472

Ein kaum durchschaubares Schaubild zur Instabilität Afghanistans interpretiert die Maschine nüchtern-sachlich:

https://twitter.com/seanspriggens/status/1706785998812631529

Den Screenshot eines Dashboards baut ChatGPT fast 1:1 nach:

https://twitter.com/seanspriggens/status/1706785998812631529

Prüfungsaufgaben der Mathematik und Physik, hochgeladen als Foto, beantwortete die Maschine mit entsprechenden Formeln (allerdings sind die Antworten wohl nicht in Gänze korrekt, wie die Diskussion unter dem Tweet zeigt):

https://twitter.com/skirano/status/1707468861929381959

Für eine bestimmte Innenarchitektur und das dargestellte Design findet die Maschine offensichtlich richtigerweise den Begriff des „Athenischen Modernismus“ (einfach mal googeln):

https://twitter.com/skirano/status/1707130007599116289

OpenAI selbst zeigt, wie ChatGPT durch Bilder, Anleitung und Ein Foto vom Werkzeugkoffer bei einer Handwerkeraufgabe helfen kann:

https://twitter.com/MarcusSchwarze/status/1706665702407467078

Und dann war da noch dieses Video einer ganz anderen Baustelle, von Lex Fridman mit Mark Zuckerberg, das erstmals anschaulich das viel besprochene und von vielen schon wieder totgesagte Metaverse zeigt – einen virtuellen Raum, an dem die Facebook-Schmiede Meta feilt. Die Herren tragen eigentlich schwere Brillen und Kopfhörer, doch die Technik lässt die Geräte verschwinden. Mimik und Sprache werden künstlich generiert, man wähnt sich in einem gemeinsamen verdunkelten Raum:

https://twitter.com/MarcusSchwarze/status/1707639105633337771

Das neue ChatGPT Vision

… konnte ich noch nicht testen, die Funktion wird erst nach und nach ausgerollt. Viele weitere Beispiele zeigen die Leistungsfähigkeit, aber auch die Fehler. OpenAI selbst hat in einem Papier bereits untersucht, welche Gefahren von der neuen Sehfähigkeit der Maschinen ausgehen können. Sie reichen von falsch erkannten giftigen Pilzen bis zur Befeuerung von Klischees und Vorurteilen.

Und noch eine Funktion wird bei ChatGPT gerade populär: die Fähigkeit, gesprochene Prompts zu erkennen und gesprochen zu beantworten. Das ist zwar mit Blick auf die alten Damen Alexa und Siri keine Meisterleistung mehr, in Verknüpfung mit KI-Leistungen im Hintergrund aber für viele ebenso krasses Neuland.


Vielen Dank fürs Lesen von Marcus Schwarzes Newsletter! Dieser Post ist öffentlich, also zögern Sie nicht, ihn zu teilen.


Mehr zur rasanten Entwicklung der künstlichen Intelligenz bietet das Briefing Frankfurter Allgemeine Pro D:ECONOMY. Darin auch der „Prompt der Woche“ mit bisher zwei Beiträgen von mir:

Marcus Schwarze

Marcus Schwarze

Journalist, Promptpraktiker, Berater Digitales. Angelernt, nie ausgelernt bei Behörden, F.A.Z., Reporterfabrik, EA RLP, StoryMachine, Morgenpost, Rhein-Zeitung, HAZ
Koblenz, Germany