Künstliche Intelligenz: Messi spricht jetzt sogar Englisch

Künstliche Intelligenz
Messi spricht jetzt sogar Englisch

Bitte anschnallen: Stimmenklonen, Übersetzersoftware und Gesichtsmanipulationen läuten die «Peak-Deepfake»-Ära ein.

Andrian Kreye

Publiziert: 17.09.2023, 18:02

FORT LAUDERDALE, FLORIDA - AUGUST 17: Lionel Messi of Inter Miami CF speaks during a news conference at DRV PNK Stadium on August 17, 2023 in Florida, USA. (Photo by Marco Bello/Anadolu Agency via Getty Images) — Messi, hier für einmal der echte: Der argentinische Weltfussballer an einer Pressekonferenz in den USA (an der er, wie gewohnt, nur Spanisch sprach).
Anadolu Agency (Getty Image)

Schon gesehen? Robert De Niro spricht perfektes Hochdeutsch, Jack Nicholson Académie-reifes Französisch und (für Sportsfreunde besonders lustig) der bislang stoisch nur Spanisch sprechende Lionel Messi verständliches Englisch. Voice-Cloning nennt sich die Technologie aus dem Feld der künstlichen Intelligenz, die sich in diesen Memes mit Übersetzer-KI vereint. Und weil KI inzwischen auch die Lippenbewegungen angleichen können, wirkt das im Video so überzeugend, als hätten die Promis die Fremdsprachen in Höchstgeschwindigkeit auf Muttersprachniveau gelernt.

So schnell überholt die Wirklichkeit die Fiktion. Ende des Monats wird das Science-Fiction-Epos «The Creator» in die Kinos kommen. In diesem benutzen die amerikanischen Protagonisten in ihrem panasiatischen Einsatzgebiet klobige Kästen, die mit Schnarrstimme Gespräche mit Einheimischen simultan dolmetschen. Man braucht nun aber keine klobigen Kästen mehr, es reicht schon ein Smartphone. Die Stimmen schnarren auch nicht mehr, sondern klingen sehr flüssig nach dem Menschen, der zu sehen oder auch nur zu hören ist.

Keanu Reeves fand die Memes «beängstigend»

Solche KI sind schon seit einigen Monaten marktreif, was Qualität und Kosten betrifft. Mit dem Messi-Meme sind sie nun im Gespräch. Eine davon heisst zum Beispiel Hey-Gen. Der Techinfluencer Jon Finger führte sie vor ein paar Tagen in einem Video vor. Dreissig Sekunden spricht er da auf Englisch mit seiner Stimme in die KI, die wandelt Sprache und Mundbewegungen um, und schon spricht er denselben Text mit eigener Stimme auf Französisch und Deutsch. Da stürzt der Turm von Babel mit dem Silberflirren aus dem Chor synthetischer Stimmen in sich zusammen. Die Überwindung der Sprachbarrieren ist zunächst einmal ein technischer Fortschritt von historischem Ausmass.

Hier wird Inhalt angezeigt, der zusätzliche Cookies setzt.

An dieser Stelle finden Sie einen ergänzenden externen Inhalt. Falls Sie damit einverstanden sind, dass Cookies von externen Anbietern gesetzt und dadurch personenbezogene Daten an externe Anbieter übermittelt werden, können Sie alle Cookies zulassen und externe Inhalte direkt anzeigen.

Die Methode ist bei allen die gleiche. Man füttert eine KI mit einer Stimme und einem Gesicht. Bei manchen Anwendungen reichen schon wenige Sekunden. Aus diesen Daten erstellt die KI dann eine Matrix, die als Vorlage für jede weitere Version dient. Bei vielen KI-Anbietern funktioniert das im Liveversuch noch etwas stockend. Die Ausgabe hinkt hinter der Texteingabe her, die Stimmen haben einen synthetischen Beiklang. Wobei der Vergleich mit ähnlichen Videos aus dem vergangenen Jahr schon zeigt, dass die Entwicklung Fahrt aufgenommen hat.

Im März letzten Jahres kam ein Video in Umlauf, das den ukrainischen Präsidenten Wolodimir Selenski zeigte, der seine Truppen aufforderte, die Waffen niederzulegen und sich Russland zu ergeben. Da sah man auf den ersten Blick, dass jemand seinen Kopf auf einen Rumpf montiert hatte. Wobei die Lippen sich schon synchron zum falschen Text bewegten und er zwar klang, als spräche er aus einem Walkie-Talkie, aber es schien eben seine Stimme zu sein. Solche Fälschungen gelangen nur, wenn man eine Vorlage nahm, in der die Sprecherfigur ganz gerade in die Kamera schaute. Der falsche Messi sitzt dagegen relativ natürlich wie bei einer Pressekonferenz vor der Kamera und bewegt den Kopf von einer Seite zur anderen. Der synthetische Schleier über seiner Stimme ist kaum wahrnehmbar.

Hier wird Inhalt angezeigt, der zusätzliche Cookies setzt.

In den Demo-Filmszenen der Firma Flawless sprechen Robert De Niro, Jack Nicholson und Tom Hanks in den Fremdsprachen schon in ihren klassischen Rollen, ohne dass ihre Bewegungen eingeschränkt wären. Selbst die Sprachmelodie ist kein Hindernis mehr. Auf der Youtube-Seite «There I Ruined It» kombiniert der Musiker Dustin Ballard die Stimmen von Stars mit Songs, die so gar nicht zu ihnen passen.

Bekannt wurde er in diesem Sommer vor allem mit einem Video, in dem seine KI-Kombi Johnny Cash den Eurodance-Hit «Barbie Girl» von Aqua singen lässt. Theoretisch sind all diese Dinge schon länger möglich, auch im Film wird solche KI schon länger eingesetzt. Zum Beispiel, um das Alter von Stars zu verändern, so wurden Robert De Niro, Al Pacino und Joe Pesci für den Film «Irishman» um dreissig Jahre jünger gemacht, und der 81-jährige Harrison Ford spielte im neuen «Indiana Jones» seine Titelrolle als um die 40-Jährigen. Er fand das grossartig. Musste er ja sagen, er braucht sich um seine berufliche Zukunft auch keine Sorgen zu machen. James Earl Jones erlaubte Disney auch, seine Darth-Vader-Stimme in Zukunft auch ohne seine Beteiligung zu benutzen. Keanu Reeves fand die Memes mit synthetisch generierten Versionen seiner selbst «beängstigend».

Hier wird Inhalt angezeigt, der zusätzliche Cookies setzt.

Rechnergeschwindigkeiten, Speicherkapazitäten und die Weiterentwicklung von Algorithmen und Sensortechnik machen all dies nun auch für Normalnutzer zugänglich. Filmeffekte und Memes sind zwar zunächst nur digitale Zirkuspferdchen, die die digitale Öffentlichkeit mit ihren Kunststückchen amüsieren.

Der praktische Nutzen für solche KI-Anwendungen ist allerdings immens. Filme und Serien lassen sich in Zukunft ohne die unbeholfenen Brüche zwischen Sprache und Lippenbewegungen synchronisieren. Bei Konferenzen kann sich jeder jede beliebige Sprache einstellen. Mithilfe eines Large-Language-Modells kann man sich in Zukunft dann bei Videocalls von einem Avatar vertreten lassen, der vorher programmiert wurde, die passenden Wortbeiträge einzubringen. Schauspieler können ihre Stimme vermieten und dafür Tantiemen kassieren. Anwendungen für Menschen mit eingeschränktem Sprachvermögen schlagen eine Brücke zur Medizin.

Wie jede Technologie hat aber auch das Stimmenklonen eine finstere Seite. Nicht nur, dass Synchronsprecher, Dolmetscher und Übersetzer ihre Jobs verlieren. Der andere Fachbegriff für das Stimmenklonen ist Deepfake. Solche Tiefenfälschungen sind der Albtraum der Politik. Zwei Phänomene machen sie zu einer Gefahr für demokratische Prozesse.

Liegt da nicht ein Flirren über Mick Jaggers Stimme?

Da ist zum einen die zunehmende Gewöhnung der Öffentlichkeit an synthetische Stimmen. Streng genommen hat das eine lange Vorgeschichte, weil die westliche Popkultur schon seit siebzig Jahren mit Kunststimmen experimentiert. Das begann Mitte der Fünfzigerjahre, als Sam Phillips, der Produzent der Sun Studios, sein legendäres «Slapback Echo» über Elvis Presleys Stimme legte. Inzwischen gehören Stimmverfremdungen zum Standardrepertoire. Manche nutzen das offensiv, wenn sie das Silberflirren der Autotune-Software über ihre Stimmen legen. Andere verfeinern damit nur ihren Naturklang, vor allem, um leichte Unschärfen der Intonierung zu korrigieren. Ganz sicher kann man sich da nicht mehr sein. Liegt dieses Flirren auf der neuen Rolling-Stones-Single «Angry» nicht sogar über Mick Jaggers Stimme? Betriebsgeheimnis.

Eine Studie ergab, dass Deepfakes selbst die Erinnerung an Filmklassiker verzerren können.

Je besser die Deepfakes werden, desto grösser die Wirkung in jener Strategie, die der politischen Gegenwart schon den Titel der «post-truth era» eingebracht hat, der Ära nach der Wahrheit. Eine Studie der School of Applied Psychology des irischen University College Cork ergab, dass Deepfakes selbst die Erinnerung an Filmklassiker verzerren können.

Für den Versuch erstellte das Wissenschaftsteam Clips von vier Filmen, in denen sie die Darsteller austauschten. Da spielte dann Will Smith statt Keanu Reeves den Neo in «The Matrix», Brad Pitt und Angelina Jolie übernahmen die Hauptrollen von Jack Nicholson und Shelley Duvall in Stanley Kubricks «The Shining», Chris Pratt wurde zu Indiana Jones und Charlize Theron zu Captain Marvel. 49 Prozent der 400 Testpersonen gaben dann an, dass sie diese Clips für echte Filme hielten.

Genauso funktioniert auch die Fake-News-Strategie, die vor allem Populisten wie Donald Trump und Diktatoren wie Wladimir Putin einsetzen. Bisher spielte es nicht einmal eine so grosse Rolle, ob die Deepfakes und die Falschnachrichten besonders gut gemacht waren. Es kam besonders auf die Menge an, die ins Netz geblasen wurde. Je grösser die Zahl der Fakes, desto grösser die Wahrscheinlichkeit, dass die Lügen in den Köpfen der Menschen hängen blieben. Und sei es nur, um sie zu verunsichern.

Hier wird Inhalt angezeigt, der zusätzliche Cookies setzt.

Mit den neuen Deepfakes in hoher Qualität wird sich dieser Effekt noch steigern. Was also, wenn gefälschte Videos von Joe Biden oder Wolodimir Selenski in Umlauf kommen und nur noch die Hälfte der Menschen sofort bemerkt, dass es sich um einen Deepfake handelt? Bis die professionellen Medien das hinterhergearbeitet haben und die Fälschung entlarven, haben sich die Bilder schon im Gedächtnis eingeprägt. Die reine Vernunft kann sie einordnen. Doch so funktioniert Politik schon lange nicht mehr. Die Emotionen werden bleiben.

«Peak-Deepfake» nennt man den aktuellen Stand dieser Technologien schon. Der Zeitpunkt ist denkbar ungünstig. Das kommende Jahr 2024 wird ein Superwahljahr. In 44 Staaten wird es nationale Wahlen geben, auch in den USA. Dazu kommen noch ein paar Dutzend Regionalwahlen. Mit Wehmut wird man sich daran erinnern, wie lustig das war, als Lionel Messi plötzlich gutes Englisch sprach.

Fehler gefunden?Jetzt melden.