Wie man auf die Schnelle mehrstündige Videos zusammengefasst bekommt

Wie man auf die Schnelle mehrstündige Videos zusammengefasst bekommt
Illustration: Schwarze/Midjourney-KI

Ja, eindreiviertel Stunden. Zeitgewinn.

Den entsprechenden Wow-Moment über künstliche Intelligenz hatte ich am Wochenende nach einem Tweet von Rowan Cheung.

Man stelle sich vor, eine Gruppe Menschen diskutiere vor laufender Kamera eine Stunde über ein gerade ergangenes Gerichtsurteil. Auf Facebook und YouTube gibt es bekanntlich derart langatmige Videos, auch ARD und ZDF füllen so manches Abendprogramm mit reinen Diskussionen. Nicht jeder hat die Zeit oder Lust, sich das alles anzusehen. Eine Zusammenfassung fällt da schwer. Oder auch nur ein Durchsuchen des Videos nach bestimmten getroffenen Aussagen.

Auf tritt summarize.tech.

Der künstlichen Intelligenz speist man die YouTube-Adresse des gewünschten Videos ein. 40 Sekunden später ist der einstündige Smalltalk zusammengefasst. Auf Englisch zwar, aber das lässt sich von ChatGPT oder DeepL übersetzen.

Wie kann die Maschine so schnell eine Stunde Diskussion erfassen? Sie holt sich aus dem Video lediglich die Untertitel. Und diese Texte wiederum kann eine Maschine zusammenfassen. So wird aus einem langen Video auf die Schnelle ein Absatz mit den wesentlichen gesprochenen Informationen. Was fehlt, sind im Video zu sehende Informationen.

Jetzt stellen Sie sich einmal vor, dass Fernsehsendungen und Internetvideos durchsuchbar werden. Nun sind sie es. Zumindest die mit Untertiteln.

Allerdings: Auch hier kann die Tücke im Detail liegen. Denn wenn der YouTuber die Untertitel automatisch erstellen ließ (YouTube und Facebook machen das ja möglich) und sie nicht im Nachhinein überprüft, können sich Fehler bei der Spracherkennung ergeben. Und die setzen sich dann auch in der Zusammenfassung von summarize.tech fort.

In meinem Beispiel des Videos der Menschen vor einem Gerichtsgebäude hat die Maschine den Namen der angeklagten Person fälschlich mit dem eines Zeugen verwechselt. (Was aus Gründen des Persönlichkeitsschutzes vermutlich ausnahmsweise hilfreich ist.)

Der Dienst summarize.tech möchte nach der ersten Abfrage für ein Video auf die kostenpflichtige Premiumversion wechseln. Dann heißt es, ein neues privates Browserfenster zu wählen.

Bei Videos ohne Untertitel scheitert die Maschine. So schalten auch manche Facebook-Live-Stars die Untertitel wohl bewusst aus. Zudem ist es auf Facebook nicht ohne Weiteres möglich, fremde Videos herunterzuladen.

Mit dem Untertitel-Trick ist noch mehr möglich: Die Texte lassen sich über Seiten wie Downsub (Achtung, fiese Werbefenster) als Datei auf die eigene Festplatte laden. Mit Copy-and-paste und dem Prompt

Fasse mir den folgenden Text zusammen

entsteht in ChatGPT-4 eine qualitativ bessere Zusammenfassung als mit summarize.tech. Und es wird möglich, gezielt nach Details aus dem Gesprochenen zu suchen: Wie lautete das Urteil? Die Maschine findet eine entsprechende Textpassage und spuckt sie aus.

Bei besonders langen Dokumenten gerät aber auch ChatGPT in der kostenpflichtigen Version an seine Grenzen. Denn jede übermittelte Silbe kostet die Hersteller der künstlichen Intelligenz Geld für Rechenkraft. Darum ist die Länge der übermittelten Frage wie auch die der Antwort begrenzt, auf sogenannte Tokens. Wer dann mal eben den 600-seitigen Bericht zum Zusammenfassen übermitteln möchte, wird scheitern.

Aber auch dafür gibt es einen Trick. Normalerweise liegt die Grenze von GPT-3 bei 4.000 Token und die des kostenpflichtigen GPT-4 bei 8.000 Token (= ca. 12,5 Seiten). Wie Mike Kim auf Twitter schrieb, kann über die KIs Playground.ai oder Bing oder Google Bard das Limit ausgeweitet werden.

Ein anderer Weg besteht darin, das Dokument stückweise nacheinander zusammenzufassen – und am Ende die Maschine zu bitten, alle Zusammenfassungen zusammenzufassen. Allerdings begrenzt die KI wiederum das eigene Erinnerungsvermögen an die ersten Zusammenfassungen. So könnten zusätzliche „zusammenfassende Zusammenfassungen von Zusammenfassungen“ nötig werden. Künftig soll das Limit auf 32.000 Token erhöht werden.

Weitere Möglichkeiten beschreibt Diego.

Des Weiteren soll es möglich sein, das Texteingabefeld von ChatGPT mittels der vom Browser eingeblendeten Webinformationen zu vergrößern. Das habe ich allerdings nicht im Detail ausprobiert.

Die drei Screenshots im Bild zeigen das berühmte 55-minütige Video „Die Zerstörung der CDU“ von Rezo aus 2019, die Zusammenfassung von summarize.tech und die Übersetzung von DeepL.
Marcus Schwarze

Marcus Schwarze

Journalist und Berater Digitales. Angelernt, nie ausgelernt bei Behörden, F.A.Z., Reporterfabrik, EA RLP, StoryMachine, Morgenpost, Rhein-Zeitung, HAZ
Koblenz, Germany