Sprache wird formbar

Der Softwarehersteller Adobe hat ein Verfahren entwickelt, mit dem man Sprachaufnahmen nahezu frei nach Belieben umformen können soll.

2

03.01.2017, 06:00 Uhr

Lesezeit: 3 Min.

MIT Technology Review

Von

Ben Schwan

Photoshop kennt heutzutage jeder: Das Bildbearbeitungsprogramm erlaubt es, Fotos nahezu uneingeschränkt zu manipulieren, ohne dass der Betrachter dies leicht feststellen könnte.

Kein Zeitschriftencover ohne "Photoshopping", kein Foto eines Stars, an das nicht Hand angelegt worden wäre – was einst Retusche war, die nur Profis beherrschten, gelingt mittlerweile mit wenigen Mausklicks auch Anfängern.

Die Adobe-Software sieht aus wie ein Tonschnittprogramm – wäre da nicht die Transkription, die sich editieren lässt.

(Bild: Adobe)

Der Hersteller von Photoshop, der US-Softwarekonzern Adobe, ist auf solche Kreativprogramme spezialisiert, liefert neben Fotobearbeitungssoftware auch Anwendungen zum bildgenauen Videoschnitt und für Filmeffekte aus. Nun soll es eine Art von Photoshopping bald auch für Sprachaufnahmen geben – und das sogar noch leichter bedienbar als die Bildbearbietung.

Sprache soll zu Knetmasse werden

Adobe hat in diesem Winter den Prototypen vorgestellt: Das Programm namens "VoCo" – was für "Voice Conversion", also Sprachumwandlung, steht – soll menschliche Stimmen editier- und formbar machen.

Adobe VoCo wurde im Rahmen der Hausmesse Adobes vorgestellt – und bekam viel Beifall.

Dazu konvertiert VoCo zunächst Sprache in Text. Anschließend ist es möglich, diesen Text in seiner nun vorhandenen Schriftform auf dem Bildschirm zu editieren und daraus wieder eine Sprachaufzeichnung zu machen. Man kann Worte umstellen oder löschen – so etwas ginge theoretisch auch mit normalen Tonschnittprogrammen, wenn man diese mit einer Spracherkennung kombiniert.

Doch VoCo geht noch weiter: Die Software kann komplett neue Worte und sogar kurze Sätze erzeugen, die der Sprecher gar nicht gesagt hat. Das Ergebnis klingt erstaunlich natürlich, wie Adobe während einer Demonstration auf der Hausmesse des Unternehmens in San Diego anhand einer US-amerikanischen Stimme zeigte.

Einsatz im Filmgeschäft geplant

Aus dem datenleeren Raum agiert die Software dabei natürlich nicht: Damit VoCo funktioniert, müssen ungefähr 20 Minuten an realen Sprachaufzeichnungen einer Person vorliegen, die anschließend durch einen von Adobe entwickelten Algorithmus gejagt werden. Dazu reicht beispielsweise Rohmaterial eines Auftritts der zu editierenden Person.

Menschliche Sprache soll mit Adobe VoCo editierbar werden.

(Bild: Marcus Quigmire / Flickr / cc-by-2.0)

Betrügerische Absichten verfolgt Adobe mit VoCo nicht – und denkt auch nicht an eine solche Kundengruppe. Stattdessen soll die Anwendung beispielsweise im Filmbereich eingesetzt werden, wenn Off-Texte korrigiert werden müssen, der Sprecher das Studio aber längst verlassen hat. Das spart Anfahrtkosten und gegebenenfalls Honorargebühren, sollte die VoCo-Nutzung nicht unter das Urheberrecht des Originalsprechers fallen.

Adobe will ansonsten technisch verhindern, dass mit der App Schindluder getrieben werden kann – etwa für Fakes oder Identitätsklau. Daher wird jede Aufzeichnung aus VoCo, sollte die App einmal auf dem Markt sein, ein digitales Wasserzeichen enthalten. Über dieses soll sich dann zweifelsfrei erkennen lassen, dass VoCo der Urheber einer Aufzeichnung ist – und nicht der Originalsprecher. Zudem arbeitet der Softwarekonzern an weiteren Verfahren zur Erkennung manipulierter Sprachaufzeichnungen. Dass die bald notwendig sein können, zeigt schon der aktuelle VoCo-Prototyp. (bsc)