So lÀsst sich jeder geschriebene Text zu einem lippensynchronen Video mit eigener Stimme vertonen
KĂŒnstliche Intelligenz klont die eigene Stimme. Damit lassen sich beliebige Texte vertonen. Und in ein Video anhand von Bildern umwandeln. Zumindest die Stimme wirkt dadurch frappierend echt.
Das unglaubliche Tempo bei der kĂŒnstlichen Intelligenz (KI) bringt dem Otto-Normal-Verbraucher und der Anna-Spezial-Verbraucherin Anwendungen, die frĂŒher Fachleute vorbehalten war. Diesen Text habe ich klassisch am Computer getippt. Das Video unten entstand daraus in der Maschine.
Und zwar, ohne dass ich den Text je eingesprochen habe. Die Stimme ist computergeneriert. Und die Lippenbewegungen im Video sind es ebenfalls.
Die Anwendung basiert auf ElevenLabs. Deren Sprachmodul erlaubt es, meine Stimme zu synthetisieren. Mindestens eine Minute von einem beliebigen Text spricht man vor, schon lÀsst sich die Stimme klonen.
Wenige Minuten der Stimme genĂŒgen
Wer mich kennt und in dem Video hört, dĂŒrfte mich an der Stimme halbwegs wiedererkennen. Dabei habe ich hier nur die âInstantâ-Schnellversion des Stimme-Klonens angewendet. Ein besseres Modell erfordert mindestens dreiĂig Minuten Einsprechen eines ausfĂŒhrlichen beliebigen Textes. Dann gelingt das Stimme-Klonen genauer.
So habe ich einen lĂ€nglichen Spiegel-Artikel vorgelesen, mich manchmal verhaspelt und von einem Amazon-Lieferanten stören lassen, egal: Ab Juli soll die stark verbesserte geklonte Stimme ausgeliefert werden, ich habe mich da in eine Schlange eingereiht. Wer weiĂ, wozu man das noch braucht.
Die VerknĂŒpfung mit dem Standbild und die lippensynchrone Aussprache erfolgt dann ĂŒber eine KI-App namens Heygen â oder hier: D-ID. Da lĂ€dt man sein Foto hoch, kopiert den Text dieses Beitrags hinein â schon spricht der virtuelle Marcus wie gewĂŒnscht, was hier steht.
Wer will, kann den vielleicht zu monotonen Ton aufpeppen. Gerade lĂ€ngere Texte können schnell langweilig klingen. Dann dreht man etwa an der Stellschraube âStabilitĂ€tâ, variiert die Betonung. Es gibt lĂ€ngere Pausen, wo die KI das fĂŒr empfehlenswert hĂ€lt, die Stimme geht mal hoch und runter.
Texte ohne Ăhs und Genuschel
Auf der Strecke bleiben dabei Ăhs und Genuschel, was ich mir schon wĂŒnsche. Auch ĂŒberlange Pausen in einer normalen Aufnahme, weil vielleicht gerade eine Meldung auf dem Handy ablenkte, sind eliminiert.
In der Praxis muss man auf ein paar Besonderheiten bei Elevenlabs achten. So wird die Jahreszahl Zweitausenddreiundzwanzig in Ziffernschreibweise als 2023 ausgesprochen, englisch also, obwohl der Text in Deutsch ist. Ausgeschrieben funktioniert die Jahreszahl aber. Oder das Wort âbeiâ: Mein Instant-Sprachmodell hat das deutsche âbeiâ-Wort nicht richtig angelernt, also ersetze ich es im Text durch das englische âbyâ mit b und Ypsilon.
Kleinigkeiten. Eine groĂe Nummer wird aus diesen Experimenten, wenn man die weiteren Stellschrauben bedient: Der Unternehmenschef soll in der Monatsbotschaft auf Deutsch, Englisch, Schwedisch und Schweizerdeutsch die Mitarbeitenden ansprechen? Kein Problem: Die geschriebenen Texte lassen sich von DeepL schnell ĂŒbersetzen. Elevenlabs generiert dann vier Sprachaufnahmen. Die werden lediglich noch mit Heygen und dem Foto des Herrn verknĂŒpft â schon gelingt die weitgehend fehlerfreie Aussprache in den Fremdsprachen.
(Vorausgesetzt, man hat den Chef einmal halbwegs fehlerfrei einen beliebigen Text in der Fremdsprache einsprechen lassen.)
âSound happierâ â der Text wirkt freundlicher
Und noch eine Funktion stellt Heygen bereit: Der schriftliche Text lĂ€sst sich inhaltlich sinnvoll kĂŒrzen oder verlĂ€ngern. Er kann âprofessionellerâ oder âansprechenderâ umformuliert werden. âSound happierâ ist womöglich ein anderer Wunsch an den Text. Klar, auch hier kommt wieder eine KI ins Spiel, in diesem Fall GPT.
Zur VerfĂŒgung stehen auĂerdem vorgegebene Stimmen â wie geschaffen fĂŒr den wöchentlichen Firmenpodcast unabhĂ€ngig von der Chefstimme. FĂŒr die Bahnansage ist vielleicht gerade ein donnernder âArnoldâ zeitgemĂ€Ă, fĂŒrs Einstimmen auf schlechte GeschĂ€ftszahlen eher ein rĂŒcksichtsvoll klingender Antoni.
Man stelle sich fröhlichere Bahnansagen, verstĂ€ndlichere Chefansprachen, auf den Kern verkĂŒrzte GeschĂ€ftsberichte ohne Geschwafel vor.
Die Wirkung wird âechterâ
Oder Nordkoreas Diktator Kim Jong-un, der nach seinem Ableben noch eine Weile zumindest Radioansprachen veröffentlichen lĂ€sst. Das lippensynchrone Abbild ist als FĂ€lschung schnell enttarnt. Noch. Bei Heygen gibt es bereits zwei professionell fotografierte Personen, die Gestik miteinbeziehen und âechterâ wirken.
Vom Standbild als Vorlage zum Video einer Ă€lteren Rede als Grundlage ist es fĂŒr die KI nur ein kleiner Kim.