ChatGPT bekommt Augen: So liest die KI Fotos
Da lädt jemand ein Handyfoto einer Zeichnung von einer Konferenztafel hoch, die KI macht daraus eine funktionierende Webseite:
https://twitter.com/mckaywrigley/status/1707101465922453701
Jemand aus Italien lädt ein Foto eines Wohnzimmers hoch und bittet um Vorschläge fürs Verschönern. Die Maschine schlägt unter anderem Akzentfarben vor, inspiriert von italienischem Dekor:
https://twitter.com/skirano/status/1707466657176637709
Eine verwirrende Ansammlung von Straßenschildern interpretiert ChatGPT: Ja, Du kannst hier ab 16 Uhr an einem Dienstag für eine Stunde parken:
https://twitter.com/petergyang/status/1707169696049668472
Ein kaum durchschaubares Schaubild zur Instabilität Afghanistans interpretiert die Maschine nüchtern-sachlich:
https://twitter.com/seanspriggens/status/1706785998812631529
Den Screenshot eines Dashboards baut ChatGPT fast 1:1 nach:
https://twitter.com/seanspriggens/status/1706785998812631529
Prüfungsaufgaben der Mathematik und Physik, hochgeladen als Foto, beantwortete die Maschine mit entsprechenden Formeln (allerdings sind die Antworten wohl nicht in Gänze korrekt, wie die Diskussion unter dem Tweet zeigt):
https://twitter.com/skirano/status/1707468861929381959
Für eine bestimmte Innenarchitektur und das dargestellte Design findet die Maschine offensichtlich richtigerweise den Begriff des „Athenischen Modernismus“ (einfach mal googeln):
https://twitter.com/skirano/status/1707130007599116289
OpenAI selbst zeigt, wie ChatGPT durch Bilder, Anleitung und Ein Foto vom Werkzeugkoffer bei einer Handwerkeraufgabe helfen kann:
https://twitter.com/MarcusSchwarze/status/1706665702407467078
Und dann war da noch dieses Video einer ganz anderen Baustelle, von Lex Fridman mit Mark Zuckerberg, das erstmals anschaulich das viel besprochene und von vielen schon wieder totgesagte Metaverse zeigt – einen virtuellen Raum, an dem die Facebook-Schmiede Meta feilt. Die Herren tragen eigentlich schwere Brillen und Kopfhörer, doch die Technik lässt die Geräte verschwinden. Mimik und Sprache werden künstlich generiert, man wähnt sich in einem gemeinsamen verdunkelten Raum:
https://twitter.com/MarcusSchwarze/status/1707639105633337771
Das neue ChatGPT Vision
… konnte ich noch nicht testen, die Funktion wird erst nach und nach ausgerollt. Viele weitere Beispiele zeigen die Leistungsfähigkeit, aber auch die Fehler. OpenAI selbst hat in einem Papier bereits untersucht, welche Gefahren von der neuen Sehfähigkeit der Maschinen ausgehen können. Sie reichen von falsch erkannten giftigen Pilzen bis zur Befeuerung von Klischees und Vorurteilen.
Und noch eine Funktion wird bei ChatGPT gerade populär: die Fähigkeit, gesprochene Prompts zu erkennen und gesprochen zu beantworten. Das ist zwar mit Blick auf die alten Damen Alexa und Siri keine Meisterleistung mehr, in Verknüpfung mit KI-Leistungen im Hintergrund aber für viele ebenso krasses Neuland.
Vielen Dank fürs Lesen von Marcus Schwarzes Newsletter! Dieser Post ist öffentlich, also zögern Sie nicht, ihn zu teilen.
Mehr zur rasanten Entwicklung der künstlichen Intelligenz bietet das Briefing Frankfurter Allgemeine Pro D:ECONOMY. Darin auch der „Prompt der Woche“ mit bisher zwei Beiträgen von mir:
Comments ()