KI-Stimmen könnten künftig Synchronsprecher ersetzen

Synthetisierte Stimmen könnten künftig Synchronsprecher ersetzen. Das sind die technischen und rechtlichen Hintergründe.

Eine Kolumne

von Rolf Schwartmann

Diese Kolumne stellt die Sicht von Rolf Schwartmann dar. Informieren Sie sich, wie unsere Redaktion mit Meinungen in Texten umgeht.

Der Nobelpreis für Physik wurde 2024 auf dem Gebiet der Künstlichen Intelligenz (KI) verliehen. John Hopfield und Geoffrey Hinton haben wichtige Grundlagen zu künstlichen neuronalen Netzwerken erforscht und die "Grundlage des heutigen leistungsstarken maschinellen Lernens" gelegt. Neben der Anerkennung schlägt die Jury nachdenkliche Töne an.

Synthetisierte Stimmen klingen echt

Bislang übernimmt KI nur menschliche Aufgaben. Bei der Synchronisation menschlicher Stimmen ist die Technik im Einsatz. Fremdsprachige Schauspieler erkennt man in synchronisierten Filmen oft an ihrer Stimme. Allerdings ist das – denkt man etwa an Robert De Niro – natürlich nicht deren eigene Stimme, sondern die ihres Synchronsprechers. Die deutsche Stimme des Weltstars stammt von Christian Brückner. Sie ist im Vergleich zur Originalstimme so ausdrucksstark, dass man geradezu irritiert, wenn nicht sogar enttäuscht ist, wenn man De Niro im Original hört.

Das zentrale Merkmal einer guten Synchronisation ist die Nähe zum Original. Sie macht die Übertragung des Gesagten in eine andere Sprache authentisch, sagt Stefan Sporn, Honorarprofessor an der TH Köln und zugleich Mitinhaber eines Kölner Unternehmens, das sich auf die Synchronisation von Stimmen mittels KI spezialisiert hat. Das Verfahren besteht darin, mittels KI eine vorhandene Stimme so zu synthetisieren, also künstlich in einer anderen Sprache neu zu schaffen, dass die persönliche Charakteristik der Stimme ebenso erhalten bleibt wie deren Klangfarbe.

Auch emotionale Feinheiten wie Flüstern oder Schreien und weitere Facetten können per KI in fremde Sprachen gespiegelt werden. Das sei dann entscheidend, wenn eine Sprache charakterliche Eigenschaften wie einen "singenden" Unterton habe, der übertragen werden könne. An ihre Grenzen gerät die Technik bei der Synthetisierung von Dialekten, weil dazu die Daten im Fundus der KI-Modelle fehlen.

Einsparpotenziale liegen auf der Hand

Die Potenziale der neuen Technik liegen auf der Hand. Man kann Kosten sparen, wenn man eine Stimme als authentischen und synthetischen Zwilling der menschlichen Stimme quasi im Regal hat und sie einsetzt, wenn sie benötigt wird. Der Mensch, dem die Stimme gehört, hat dann die Möglichkeit, deren Nutzung zu gestatten und dafür Tantiemen zu verlangen.

Ein Schauspieler kann seine Stimme dann für den persönlichen Einsatz in fremdsprachigen Versionen seiner Filme verwerten. Die Übersetzung ist dann authentisch und überträgt die in der Stimme verkörperte Persönlichkeit der Sprechenden und wird nicht mehr durch eine andere Person mit einer anderen Stimme interpretiert. Das wahrt die Persönlichkeit in der Sprache und macht die Übersetzung authentisch, denn der Mensch kann beliebig viele Sprachen sprechen.

Technik

Studie lässt aufhorchen: Macht KI etwas, das ihr gar nicht beigebracht wurde?

15. Mai 2024

Das ist immer dann eine Option, wenn eine Person keine Interpretation ihres Inhaltes durch die Stimme einer anderen Person in einer Fremdsprache möchte. Will sie das nicht, dann kann sie mit Akzent selber sprechen oder sich für eine KI-Synchronisation entscheiden. Ebenso könnte Herbert Grönemeyer sich unter Wahrung seiner stimmlichen Charakteristik entscheiden, chinesisch zu singen.

Unverzichtbarkeit des Menschen

Das alles ist nicht trivial, wenn es gut sein soll. Neben der Technik braucht man qualifizierte Arbeitskräfte, "KI-Audio-Produzenten", die die Ecken und Kanten der Stimme sowie Emotionen per KI in eine andere Sprache überführen können. Allerdings benötigt man den Sprecher nur einmal und Toningenieure sowie Cutter werden in der Perspektive entbehrlich.

Sprecher und Schauspielerinnen können sich also künftig entscheiden, ob sie ihre Arbeit persönlich erledigen, oder ob sie Filmschaffenden wie Produzenten und Regisseuren gestatten, ihre synthetisierte Stimme einzusetzen oder gleich ganze Rollen von künstlichen Zwillingen ihrer selbst erledigen lassen.

Digital

"Auslöschung der Menschheit": Experten warnen vor Kontrollverlust bei KI

22. Mai 2024

Denkt man diesen Gedanken weiter, dann kann das Personal aus Hollywood sich künftig auf der Hollywoodschaukel ausruhen. Brad Pitt muss dann nur noch Geld zählen, nachdem seine synthetisierte Persönlichkeit im Einsatz war. Problematisch wird es vielleicht für die nachwachsende Schauspielergeneration, wenn Menschen mithilfe von KI durch synthetische Stimmen oder Personen ersetzt werden, die ähnlich populär werden wie echte Menschen. Das hat Micky Maus bereits geschafft.

Künstlich geschaffene Kinohelden

Warum nicht auch ein mittels KI generierter und mit deren Mitteln promoteter künstlicher Charakter, der quasi als "goldener Schnitt" aller menschlichen Action-Helden, der keinem konkret nachempfunden ist, zum neuen Überhelden avanciert? Das ist Zukunftsmusik, die man mit wenig Fantasie schon heute komponieren kann.

Es gibt auch Gefahren. Sie liegen etwa darin, dass man mit künstlichen Stimmen oder Bildern echter Personen, sogenannten Deepfakes, Schlimmes anrichten kann. Etwa dann, wenn Avatare echter Menschen fremdgesteuert Hass und Hetze verbreiten. Dagegen will die im August in Kraft getretene KI-Verordnung mit Kennzeichnungspflichten vorgehen.

Synthetische Stimmen bedeuten keinen Kontrollverlust an die Technik, denn sie werden bewusst eingesetzt. Mit ihnen geht aber etwas von einer alten Zeit verloren. Man kann das beklagen oder begrüssen. Das Phänomen ist nicht neu, denn mit dem Tonfilm ging die Ära der Kino-Orchestermusiker zu Ende. Ein Jahrhundert später muss sich das Personal auf der Leinwand Gedanken über die Zukunft machen.

Verwendete Quellen

dataagenda.podigee.io: KI-Stimme-Recht: Das geht mit digitalen Stimmen
dataagenda.podigee.io: AI Voice Rights. How Digital Voices Work