Synthetisierte Stimmen könnten künftig Synchronsprecher ersetzen. Das sind die technischen und rechtlichen Hintergründe.
Der Nobelpreis für Physik wurde 2024 auf dem Gebiet der Künstlichen Intelligenz (KI) verliehen. John Hopfield und Geoffrey Hinton haben wichtige Grundlagen zu künstlichen neuronalen Netzwerken erforscht und die "Grundlage des heutigen leistungsstarken maschinellen Lernens" gelegt. Neben der Anerkennung schlägt die Jury nachdenkliche Töne an.
Man müsse sich angesichts des technischen Fortschritts auch Sorgen über die Zukunft machen. Dem Menschen sei eine grosse Verantwortung für die ethisch und technisch sichere Nutzung des technischen Fortschritts aufgebürdet. Bemerkenswert ist, dass auch Preisträger Hinton warnt. Auf Basis seiner Forschung könnten Systeme entstehen, die intelligenter sind als Menschen und am Ende die Kontrolle übernehmen.
Synthetisierte Stimmen klingen echt
Bislang übernimmt KI nur menschliche Aufgaben. Bei der Synchronisation menschlicher Stimmen ist die Technik im Einsatz. Fremdsprachige Schauspieler erkennt man in synchronisierten Filmen oft an ihrer Stimme. Allerdings ist das – denkt man etwa an
Das zentrale Merkmal einer guten Synchronisation ist die Nähe zum Original. Sie macht die Übertragung des Gesagten in eine andere Sprache authentisch, sagt Stefan Sporn, Honorarprofessor an der TH Köln und zugleich Mitinhaber eines Kölner Unternehmens, das sich auf die Synchronisation von Stimmen mittels KI spezialisiert hat. Das Verfahren besteht darin, mittels KI eine vorhandene Stimme so zu synthetisieren, also künstlich in einer anderen Sprache neu zu schaffen, dass die persönliche Charakteristik der Stimme ebenso erhalten bleibt wie deren Klangfarbe.
Auch emotionale Feinheiten wie Flüstern oder Schreien und weitere Facetten können per KI in fremde Sprachen gespiegelt werden. Das sei dann entscheidend, wenn eine Sprache charakterliche Eigenschaften wie einen "singenden" Unterton habe, der übertragen werden könne. An ihre Grenzen gerät die Technik bei der Synthetisierung von Dialekten, weil dazu die Daten im Fundus der KI-Modelle fehlen.
Einsparpotenziale liegen auf der Hand
Die Potenziale der neuen Technik liegen auf der Hand. Man kann Kosten sparen, wenn man eine Stimme als authentischen und synthetischen Zwilling der menschlichen Stimme quasi im Regal hat und sie einsetzt, wenn sie benötigt wird. Der Mensch, dem die Stimme gehört, hat dann die Möglichkeit, deren Nutzung zu gestatten und dafür Tantiemen zu verlangen.
Ein Schauspieler kann seine Stimme dann für den persönlichen Einsatz in fremdsprachigen Versionen seiner Filme verwerten. Die Übersetzung ist dann authentisch und überträgt die in der Stimme verkörperte Persönlichkeit der Sprechenden und wird nicht mehr durch eine andere Person mit einer anderen Stimme interpretiert. Das wahrt die Persönlichkeit in der Sprache und macht die Übersetzung authentisch, denn der Mensch kann beliebig viele Sprachen sprechen.
Das ist immer dann eine Option, wenn eine Person keine Interpretation ihres Inhaltes durch die Stimme einer anderen Person in einer Fremdsprache möchte. Will sie das nicht, dann kann sie mit Akzent selber sprechen oder sich für eine KI-Synchronisation entscheiden. Ebenso könnte Herbert Grönemeyer sich unter Wahrung seiner stimmlichen Charakteristik entscheiden, chinesisch zu singen.
Unverzichtbarkeit des Menschen
Das alles ist nicht trivial, wenn es gut sein soll. Neben der Technik braucht man qualifizierte Arbeitskräfte, "KI-Audio-Produzenten", die die Ecken und Kanten der Stimme sowie Emotionen per KI in eine andere Sprache überführen können. Allerdings benötigt man den Sprecher nur einmal und Toningenieure sowie Cutter werden in der Perspektive entbehrlich.
Sprecher und Schauspielerinnen können sich also künftig entscheiden, ob sie ihre Arbeit persönlich erledigen, oder ob sie Filmschaffenden wie Produzenten und Regisseuren gestatten, ihre synthetisierte Stimme einzusetzen oder gleich ganze Rollen von künstlichen Zwillingen ihrer selbst erledigen lassen.
Denkt man diesen Gedanken weiter, dann kann das Personal aus Hollywood sich künftig auf der Hollywoodschaukel ausruhen. Brad Pitt muss dann nur noch Geld zählen, nachdem seine synthetisierte Persönlichkeit im Einsatz war. Problematisch wird es vielleicht für die nachwachsende Schauspielergeneration, wenn Menschen mithilfe von KI durch synthetische Stimmen oder Personen ersetzt werden, die ähnlich populär werden wie echte Menschen. Das hat Micky Maus bereits geschafft.
Künstlich geschaffene Kinohelden
Warum nicht auch ein mittels KI generierter und mit deren Mitteln promoteter künstlicher Charakter, der quasi als "goldener Schnitt" aller menschlichen Action-Helden, der keinem konkret nachempfunden ist, zum neuen Überhelden avanciert? Das ist Zukunftsmusik, die man mit wenig Fantasie schon heute komponieren kann.
Es gibt auch Gefahren. Sie liegen etwa darin, dass man mit künstlichen Stimmen oder Bildern echter Personen, sogenannten Deepfakes, Schlimmes anrichten kann. Etwa dann, wenn Avatare echter Menschen fremdgesteuert Hass und Hetze verbreiten. Dagegen will die im August in Kraft getretene KI-Verordnung mit Kennzeichnungspflichten vorgehen.
Synthetische Stimmen bedeuten keinen Kontrollverlust an die Technik, denn sie werden bewusst eingesetzt. Mit ihnen geht aber etwas von einer alten Zeit verloren. Man kann das beklagen oder begrüssen. Das Phänomen ist nicht neu, denn mit dem Tonfilm ging die Ära der Kino-Orchestermusiker zu Ende. Ein Jahrhundert später muss sich das Personal auf der Leinwand Gedanken über die Zukunft machen.
Verwendete Quellen
- dataagenda.podigee.io: KI-Stimme-Recht: Das geht mit digitalen Stimmen
- dataagenda.podigee.io: AI Voice Rights. How Digital Voices Work
"So arbeitet die Redaktion" informiert Sie, wann und worüber wir berichten, wie wir mit Fehlern umgehen und woher unsere Inhalte stammen. Bei der Berichterstattung halten wir uns an die Richtlinien der Journalism Trust Initiative.