Marcus Schwarzes Newsletter

Teilen Sie dies post

So lÀsst sich jeder geschriebene Text zu einem lippensynchronen Video mit eigener Stimme vertonen

newsletter.schwarze.info

So lÀsst sich jeder geschriebene Text zu einem lippensynchronen Video mit eigener Stimme vertonen

KĂŒnstliche Intelligenz klont die eigene Stimme. Damit lassen sich beliebige Texte vertonen. Und in ein Video anhand von Bildern umwandeln. Zumindest die Stimme wirkt dadurch frappierend echt.

Marcus Schwarze 🚀
11.06.2023
1
Teilen Sie dies post

So lÀsst sich jeder geschriebene Text zu einem lippensynchronen Video mit eigener Stimme vertonen

newsletter.schwarze.info
Aktie

Das unglaubliche Tempo bei der kĂŒnstlichen Intelligenz (KI) bringt dem Otto-Normal-Verbraucher und der Anna-Spezial-Verbraucherin Anwendungen, die frĂŒher Fachleute vorbehalten war. Diesen Text habe ich klassisch am Computer getippt. Das Video unten entstand daraus in der Maschine.

Und zwar, ohne dass ich den Text je eingesprochen habe. Die Stimme ist computergeneriert. Und die Lippenbewegungen im Video sind es ebenfalls.

Marcus Schwarzes Newsletter abonnieren:

Die Anwendung basiert auf ElevenLabs. Deren Sprachmodul erlaubt es, meine Stimme zu synthetisieren. Mindestens eine Minute von einem beliebigen Text spricht man vor, schon lÀsst sich die Stimme klonen.

Wenige Minuten der Stimme genĂŒgen

Wer mich kennt und in dem Video hört, dĂŒrfte mich an der Stimme halbwegs wiedererkennen. Dabei habe ich hier nur die „Instant“-Schnellversion des Stimme-Klonens angewendet. Ein besseres Modell erfordert mindestens dreißig Minuten Einsprechen eines ausfĂŒhrlichen beliebigen Textes. Dann gelingt das Stimme-Klonen genauer.

So habe ich einen lĂ€nglichen Spiegel-Artikel vorgelesen, mich manchmal verhaspelt und von einem Amazon-Lieferanten stören lassen, egal: Ab Juli soll die stark verbesserte geklonte Stimme ausgeliefert werden, ich habe mich da in eine Schlange eingereiht. Wer weiß, wozu man das noch braucht.

Die VerknĂŒpfung mit dem Standbild und die lippensynchrone Aussprache erfolgt dann ĂŒber eine KI-App namens Heygen – oder hier: D-ID. Da lĂ€dt man sein Foto hoch, kopiert den Text dieses Beitrags hinein – schon spricht der virtuelle Marcus wie gewĂŒnscht, was hier steht.

Wer will, kann den vielleicht zu monotonen Ton aufpeppen. Gerade lĂ€ngere Texte können schnell langweilig klingen. Dann dreht man etwa an der Stellschraube „StabilitĂ€t“, variiert die Betonung. Es gibt lĂ€ngere Pausen, wo die KI das fĂŒr empfehlenswert hĂ€lt, die Stimme geht mal hoch und runter.

Texte ohne Ähs und Genuschel

Auf der Strecke bleiben dabei Ähs und Genuschel, was ich mir schon wĂŒnsche. Auch ĂŒberlange Pausen in einer normalen Aufnahme, weil vielleicht gerade eine Meldung auf dem Handy ablenkte, sind eliminiert.

In der Praxis muss man auf ein paar Besonderheiten bei Elevenlabs achten. So wird die Jahreszahl Zweitausenddreiundzwanzig in Ziffernschreibweise als 2023 ausgesprochen, englisch also, obwohl der Text in Deutsch ist. Ausgeschrieben funktioniert die Jahreszahl aber. Oder das Wort „bei“: Mein Instant-Sprachmodell hat das deutsche „bei“-Wort nicht richtig angelernt, also ersetze ich es im Text durch das englische „by“ mit b und Ypsilon.

Kleinigkeiten. Eine große Nummer wird aus diesen Experimenten, wenn man die weiteren Stellschrauben bedient: Der Unternehmenschef soll in der Monatsbotschaft auf Deutsch, Englisch, Schwedisch und Schweizerdeutsch die Mitarbeitenden ansprechen? Kein Problem: Die geschriebenen Texte lassen sich von DeepL schnell ĂŒbersetzen. Elevenlabs generiert dann vier Sprachaufnahmen. Die werden lediglich noch mit Heygen und dem Foto des Herrn verknĂŒpft – schon gelingt die weitgehend fehlerfreie Aussprache in den Fremdsprachen.

(Vorausgesetzt, man hat den Chef einmal halbwegs fehlerfrei einen beliebigen Text in der Fremdsprache einsprechen lassen.)

„Sound happier“ – der Text wirkt freundlicher

Und noch eine Funktion stellt Heygen bereit: Der schriftliche Text lĂ€sst sich inhaltlich sinnvoll kĂŒrzen oder verlĂ€ngern. Er kann „professioneller“ oder „ansprechender“ umformuliert werden. „Sound happier“ ist womöglich ein anderer Wunsch an den Text. Klar, auch hier kommt wieder eine KI ins Spiel, in diesem Fall GPT.

Zur VerfĂŒgung stehen außerdem vorgegebene Stimmen – wie geschaffen fĂŒr den wöchentlichen Firmenpodcast unabhĂ€ngig von der Chefstimme. FĂŒr die Bahnansage ist vielleicht gerade ein donnernder „Arnold“ zeitgemĂ€ĂŸ, fĂŒrs Einstimmen auf schlechte GeschĂ€ftszahlen eher ein rĂŒcksichtsvoll klingender Antoni.

Man stelle sich fröhlichere Bahnansagen, verstĂ€ndlichere Chefansprachen, auf den Kern verkĂŒrzte GeschĂ€ftsberichte ohne Geschwafel vor.

Die Wirkung wird „echter“

Oder Nordkoreas Diktator Kim Jong-un, der nach seinem Ableben noch eine Weile zumindest Radioansprachen veröffentlichen lĂ€sst. Das lippensynchrone Abbild ist als FĂ€lschung schnell enttarnt. Noch. Bei Heygen gibt es bereits zwei professionell fotografierte Personen, die Gestik miteinbeziehen und „echter“ wirken.

Vom Standbild als Vorlage zum Video einer Ă€lteren Rede als Grundlage ist es fĂŒr die KI nur ein kleiner Kim.

Marcus Schwarzes Newsletter abonnieren:

1
Teilen Sie dies post

So lÀsst sich jeder geschriebene Text zu einem lippensynchronen Video mit eigener Stimme vertonen

newsletter.schwarze.info
Aktie
Vorherige
NĂ€chste
Kommentare
Spitze
Neu
Gemeinschaft

Keine BeitrÀge

Bereit fĂŒr mehr?

© 2023 Marcus Schwarze 🚀
PrivatsphĂ€re ∙ Bedingungen ∙ Abholhinweis
Beginnen Sie mit dem SchreibenHol dir die App
Substack ist die Heimat fĂŒr großartiges Schreiben