Googles Audio Overviews: Der Podcast, der kein Podcast sein will

Die Funktion Audio Overviews im Rahmen des Google-Labs-Produkts NotebookLM fasziniert das Netz. Product Lead Raiza Martin im Interview ĂĽber die HintergrĂĽnde.

In Pocket speichern vorlesen Druckansicht 2 Kommentare lesen
Podcast aus Nullen und Einsen (Symbolbild)

Podcast aus Nullen und Einsen (Symbolbild).

(Bild: ymgerman/shutterstock.com)

Lesezeit: 8 Min.

NotebookLM ist eine Anwendung mit spitzer Zielgruppe: Studenten, Buchautoren und andere Wissensarbeiter können mit dem bislang kostenlosen Google-Produkt, das lange nur wenig Aufmerksamkeit bekam, viel Recherchematerial verwalten und es mittels KI analysieren und via Gemini-basiertem Chatbot befragen.

Doch seit im September die Audio-Overview-Funktion freigeschaltet wurde, kannte der Hype kein halten mehr: Mit dieser ist es möglich, aus nur einem Dokument – vom langweiligen PDF über die Kreditkartenabrechnung bis hin zum ganzen Buch – eine Hörsendung zu produzieren, in der zwei KI-Moderatoren diese besprechen. Zuletzt kam die Möglichkeit hinzu, die Hörübersichten über eigene Prompts in eine bestimmte Richtung zu lenken, zudem plant Google, aus NotebookLM auch ein Geschäftskundenprodukt zu machen, mit demnächst startender Preview-Phase.

Als die Audio Overviews erschienen, waren die sozialen Medien schnell voll von Beispielen, die die Hörer erstaunten. Auch bei heise online wurde über das Feature in der #heiseshow und in einem Kommentar debattiert. Doch was steckt konkret hinter Audio Overviews und wie geht Google technisch vor? Raiza Martin, zuständiger Product Lead von NotebookLM, gab uns im E-Mail-Interview Auskunft.

Google-Managerin Raiza Martin.

(Bild: privat)

heise online: Die Stimmen der Audio Overviews wirken sehr natĂĽrlich. Sind sie komplett synthetisch erstellt worden oder basieren sie auf Stimmen von Schauspielern, also Voice Actors?

Raiza Martin: Die Stimmen basieren tatsächlich auf denen von Voice Actors. Google hat da eine lange Tradition, Menschen zu engagieren und ihre Stimmen zu lizenzieren.

Der Output ist sehr Podcast-artig, mich erinnert dies beispielsweise an klassische Sendungen wie jene des US-Broadcasters NPR. Worauf wurde das System genau trainiert?

Wir geben aktuell keine Details über die spezifischen Trainingsdaten heraus, die wir für unser Audiomodell verwendet haben, aber die Audio Overviews sind so konzipiert, dass sie die Inhalte möglichst interessant und zugänglich aufbereiten.

Unser Team hat dabei auch einige redaktionelle Entscheidungen getroffen, damit es ein fesselndes Hörerlebnis wird. Da werden dann also Elemente wie Geplänkel zwischen den Moderatoren, das Erzählen von Geschichten und Frage-und-Antwort-Formate eingebaut. Darüber hinaus ist noch wichtig zu betonen, dass NotebookLM nicht auf von Benutzern hochgeladenen Daten trainiert wird.

Können Sie die verschiedenen Phasen einer "Produktion" erklären, wenn Audio Overview mit Quellmaterial wie etwa einem PDF konfrontiert wird?

Wir nennen diese Schritte momentan nicht öffentlich, aber wir stützen uns stark auf Gemini 1.5 Pro, um eine authentische, natürlich klingende Konversation zu erzeugen, die die Nutzer dann als ansprechend empfinden.

Ihr Kollege Steven Berlin Johnson, der Teil des NotebookLM-Teams ist und selbst als Bestsellerautor gearbeitet hat, sprach in Interview über den sogenannten Disfluency-Schritt, den die Audioproduktion zum Schluss durchläuft. Können Sie näher erläutern, was das heißt?

Ah, das ist ein typischer "Steven"-Begriff! Wir tun viel, um die Audio-Overview-Gespräche natürlich wirken zu lassen, und haben dabei festgestellt, dass dazu auch gehört, dass man besonders darauf achten muss, Bereiche des Gesprächs zu erzeugen, die ein eher klassisches Text-to-Speech-System als unvollkommen betrachten würde.

Ein natürliches Gespräch ist voll von subtilen Schlenkern, Pausen oder gar Nicht-Wörtern, die unserer Meinung nach aber wichtig sind, um das richtige Tempo für die Zuhörer zu finden, wenn sie zum ersten Mal etwas über ein neues Thema lernen.

Ich selbst habe viel mit Audio Overview experimentiert, so wie wahrscheinlich das halbe Internet. Die Sendungen zeigen sich meistens erstaunlich verständig für das Input-Material und kommen zu erstaunlichen Schlüssen. Ist das alles das Werk von Gemini Pro?

Gemini 1.5 Pro ist das "Arbeitspferd" hinter NotebookLM, und wir setzen auch andere Modelle ein, um die Audio Overviews zum Leben zu erwecken. Es ist wichtig zu erwähnen, dass wir die Funktion selbst als "Hörübersicht" und nicht als "Podcast" bezeichnen.

Wir sehen sie als personalisiertes Tool zum Verstehen von Informationen aus vom Benutzer bereitgestellten Inhalten. Es geht nicht um das Erstellen von Inhalten von allgemeinem Interesse, wie es eben ein Podcast ist.

Wenn ein Link zu einer Website anstelle einer PDF-Datei oder eines Textes als Input verwendet wird, folgt Audio Overview dann den Links auf dieser Website? Oder verwendet es nur das Material, das bereits im Modell enthalten ist?

Nein, Audio Overview innerhalb von NotebookLM folgt keinen Links auf einer hochgeladenen Website. Es untersucht nur den Inhalt der von Ihnen bereitgestellten Ausgangsseite.

Wie viel reine Programmierung war für Audio Overview erforderlich? Ist das sorgfältige Prompting von Gemini Pro fast so wichtig wie der Codierungsteil?

Die Magie unseres Produkts ergibt sich aus der Kombination der leistungsstarken zugrunde liegenden Funktionen der Modelle plus der schlauen Anwendung dieser Features. Dazu gehört das Prompting als ein entscheidendes Element, aber auch viele andere.

Wird es künftig mehr Stimmen geben? Und auch die Möglichkeit, die eigene zu verwenden?

Wir hören sehr auf das Feedback der Benutzer und arbeiten aktiv daran, die gesamte User Experience zu verbessern. Zu diesem Zeitpunkt können wir hier aber noch nichts Konkretes verraten.

Wie hat die Podcasting-Branche auf die Funktion reagiert?

Audio Overview ist ein Werkzeug, um Informationen in Quellen besser zu verstehen, die der User uns vorgibt. Wir sehen einen großen Nutzen darin, eine Audio-Diskussion zu generieren, egal ob der Input nun ein langer E-Mail-Thread von der Arbeit, Notizen eines Gemeindetreffens oder der eigene Lebenslauf ist, über dessen beeindruckende Errungenschaften die KI-Moderatoren dann sprechen. Nichts davon wäre jemals ein echter Podcast.

Deshalb bleiben unsere Hörübersichten eine einzigartige Möglichkeit, persönliche Quelleninformationen zu erkunden, aber kein Ersatz für Podcasts.

Mancher Beobachter meinte, dass Google mit den Audio Overviews seinen eigenen ChatGPT-Moment hatte – ein Moment, in dem die Nutzer wahrnahmen, dass es zu einer fundamentalen Veränderung kommt, weil die Technik so erstaunlich ist. Auch hier ist die Entstehungsgeschichte interessant: Es steckte in einem eher obskuren Werkzeug wie NotebookLM als Zusatzfunktion. War es gut, dass das Tool die Zeit hatte, in einem Riesenkonzern wie Google zu reifen?

Genau darum geht es bei Google Labs – neue Ideen und Produkte zu erproben und zu entwickeln. Wir sind besessen davon, Probleme zu lösen, die die Menschen frustrieren und entwickeln Produkte und Tools, um das zu schaffen. In den Labs haben wir dafür den Raum, unserer Neugier zu folgen und mit neuen Produktkonzepten zu experimentieren, um dort hin zu gelangen.

Es ist ja klar, dass große Produkte einmal klein angefangen haben. Aber für ein großes Unternehmen wie Google mit seinen enorm erfolgreichen Produkten und Geschäftsbereichen ist es echt schwer, kleine Dinge zu tun.

In der ersten Demo der Audio Overviews auf der Google I/O im Mai war das wichtigste "Knaller-Feature" die Möglichkeit, mit den KI-Moderatoren direkt zu interagieren. Wird es das wirklich geben und in Echtzeit funktionieren? Bislang generiert man eine Hörübersicht in ungefähr fünf Minuten.

Wir arbeiten aktiv an neuen Funktionen fĂĽr unsere Nutzer und freuen uns schon jetzt darauf, Ihnen zu gegebener Zeit mehr darĂĽber mitzuteilen.

Wie teuer ist ein Produkt wie Audio Overviews in Bezug auf die Serverleistung? Könnte ein Start-up-Unternehmen so etwas umsetzen oder musste es Google sein?

Dazu kann ich Ihnen leider keine Details sagen.

NotebookLM, das ja als Basis der Audio Overviews dient, erlaubt den Import von Inhalten manchmal aufgrund von "Quellenbeschränkungen" nicht. Welche sind das? Websites, die sich von Googles KI-Bot nicht indexieren lassen?

Das kann durch Inhalte ausgelöst werden, die sich hinter einer Paywall befinden. Außerdem respektieren wir die gängige Praxis, alle Websites auszuschließen, die sich gegen das Durchsuchen des Webcrawlers entschieden haben.

(bsc)