Generative Adversarial Networks erfinden jetzt auch Ton

Forscher der Universität San Diego haben eine für die Bilderzeugung beliebte Idee erfolgreich zur Tonerzeugung adaptiert. Ein Team aus gegeneinander arbeitenden neuronalen Netzen lernt dabei, mit wenig Daten Ziffern auszusprechen.

5

(Bild: Donahue et al.)

17.02.2018, 17:10 Uhr

Lesezeit: 2 Min.

Von

Pina Merkert

Ein Team aus einem Musiker und zwei Informatikern der Universität San Diego hat mit zwei Generative Adversarial Networks (GAN) kurze Audiosamples erzeugt. Der Algorithmus lernt Ziffern auszusprechen, ohne dafür Trainingsdaten zu brauchen, die festlegen, welche Ziffer gerade gesprochen wurde. Das könnte in Zukunft synthetische Sprecher ermöglichen, für die man auf bestehendes Material zurückgreifen kann, statt speziell Trainingsdaten einzusprechen. Die Audiobeispiele zum Paper zeigen: Die Ziffern sind für Menschen verständlich, klingen aber noch sehr synthetisch.

Bei GANs arbeiten zwei neuronale Netze gegeneinander. Das erste neuronale Netz, der Generator, erzeugt Datensätze, in diesem Fall Audio mit 16384 Samples (etwa 1 Sekunde bei 16kHz). Das zweite Netz, der Diskriminator, versucht zu entscheiden, ob Beispiele, die er zu sehen bekommt, vom Generator erzeugt wurden oder echte Beispiele aus den Trainingsdaten sind. In der Praxis entstehen dabei oft keine fürs Training nutzbaren Gradienten, sodass es oft Sinn ergibt, stattdessen die Wasserstein-1-Distanz zwischen den generierten Daten und den Trainingsbeispielen zu minimieren. Diese Variante heißt dann WGAN.

1-Dimensionale Convolutions

Statt wie bei DCGAN mit 5x5 arbeitet WaveGAN mit 25x1-Kerneln für die Faltungsoperationen.

(Bild: Donahue et al.)

Die Forscher wollten die Grundidee des Bilderzeugungsnetzwerks DCGAN auf Audio übertragen und ersetzten dafür die 5x5-Faltungskernel durch eindimensionale 25x1-Kernel. Außerdem verdoppelten sie die Schrittweite, um besser auf periodische Strukturen eingehen zu können, die in Audio wesentlich häufiger vorkommen als in Bildern.

Das entstehende Netz nennen sie WaveGAN und vergleichen es in ihrem Paper auch mit einer DCGAN-Variante, die Spektrogramme erzeugt (SpecGAN). Beide Varianten produzieren Audiobeispiele, die nach den berechenbaren Qualitätskriterien der Forscher ähnlich gut abschneiden. Die Beispiele von WaveGAN klingen aber für Menschen wesentlich besser.

Die Forscher wollen mit ihrer Arbeit mehr Interesse wecken, GANs zur Tonerzeugung einzusetzen. Dabei hoffen Sie auch auf bessere Methoden zum automatischen Evaluieren der Ergebnisse. (pmk)