Statt NotebookLM Audio Overview von Google: Meta bringt NotebookLlama
Nachdem Googles Hörübersichten aus NotebookLM online für Furore sorgten, legt Meta einen Open-Source-Konkurrenten vor. Ganz so geschmeidig klingt er noch nicht.
Nachdem Google im September seinen KI-gestützten Zettelkasten NotebookLM mit der Audio-Overviews-Funktion ausgestattet hatte, gab es auf X und in anderen sozialen Medien kurz kein Halten mehr. Zahlreiche User wollten ausprobieren, wie man sich nur aus einem PDF oder einer einzigen URL – später auch aus einem YouTube-Video mit Transkript – einen eigenen Podcast zusammenstellen lassen kann, der auch noch sehr realitätsnah klingt. Mancher ließ sich sein Physik-Paper erklären, Journalisten ihre Kreditkartenabrechnung.
Nun bekommen die beiden KI-Moderatoren von Google Konkurrenz durch Meta: Die Facebook-Mutter hat ihren eigenen Podcast-Generator vorgestellt. Er hört auf den Namen NotebookLlama und basiert auf Metas eigenem Sprachmodell Llama-3.1-70B samt Spracherzeugung. Im Gegensatz zu Googles Hörübersichten ist die Zuckerberg-Variante quelloffen, der Code steht bereits auf GitHub bereit. Es kann also als Startpunkt für eigene Entwicklungen dienen. Die Ergebnisse, die NotebookLlama liefert – das eigentlich besser "Audio Overview Llama" heißen würde, da es nur die Podcast-Generierung enthält und nicht den gesamten NotebookLM-Funktionsumfang –, sind noch vergleichsweise schwach. Im Gegensatz zur Google-Variante wirken die Stimmen häufiger unnatürlich, es gibt Artefakte und die zwei Moderatoren, standardmäßig eine Frau und ein Mann, kommen nicht so recht in Schwung. Es fehlt die Emotionalität und auch die Betonungen klingen manchmal "off".
PDF oder gedruckte Website als Input
Als Eingabe dienen zunächst PDFs, die in reinen Text umgesetzt werden. Will man eine Website als Input nehmen, muss man diese als PDF abspeichern – das Problem gibt es allerdings regelmäßig auch bei NotebookLM, da dort nur Websites als Eingabe erlaubt sind, die den KI-Crawler von Google nicht verbieten. Anschließend generiert Llama-3.1-70B ein Skript für den Podcast, das dann wiederum via Llama-3.1-8B weiter aufgepeppt wird, um einen menschlicher klingenden Dialog zu erzeugen. Die Audiogenerierung erfolgt schließlich mittels Parler-tts und Suno.
Theoretisch ist es möglich, NotebookLlama auch auf dem eigenen Rechner laufen zu lassen. Dann sollte man, so die Macher, aber Llama 8B oder niedriger für die gesamte Pipeline nutzen. Ansonsten sind ein GPU-Server oder ein Llama-fähiger API-Anbieter zwingend. Die Anforderungen sind KI-typisch hoch: Bei Verwendung von 70B braucht es eine GPU mit 140 GByte aggregiertem Speicher (Genauigkeit: bfloat-16). Den Forschern von Meta, zu denen Vikas Sharma gehört, räumen ein, dass ihr Projekt noch Nachholbedarf hat. Momentan liegt ein eher robotischer Sound am Text-to-Speech-Modell. "Das ist die Limitierung, wie natürlich [der Output] klingt." Zudem könne das Skript spannender werden, wenn man es von zwei Agenten schreiben ließe, die miteinander debattieren. "Momentan nehmen wir nur ein einzelnes Modell, um das Podcast-Outline zu schreiben."
Google hat sich Schauspieler ins Studio geholt
Für Audio Overviews hatte sich Google zudem Experten ins Haus geholt. Dazu zählt der Bestseller-Autor Steven Berlin Johnson, der der kreative Leiter ist und aus der Inhaltebranche kommt. Auch teilte NotebookLM-Projektleiterin Raiza Martin gegenüber heise online mit, dass man für die beiden KI-Podcast-Moderatoren nicht etwa rein künstlich erzeugte Stimmen verwendet, sondern sich Sprecher (Schauspieler / Voice Actor) ins Studio geholt hat. NotebookLM will künftig mit einem Business-Angebot Geld verdienen, bei dem kürzlich eine Preview-Phase für ausgewählte Tester startete. Zudem können Nutzer die Hörübersichten mittlerweile per Prompt teilweise anpassen.
NotebookLlama ist nicht der erste Versuch, Googles Podcast-Generator zu kopieren. Das Projekt Open NotebookLM arbeitet ebenfalls quelloffen, verwendet Metas Llama 3.1 und MeloTTS. Tester bemängeln allerdings, dass die Software stärker zum Halluzinieren neigt als Googles Original. NotebookLM samt Audio Overviews versuchen das Problem zu umgehen, indem sich der Output stets möglichst genau an den Vorlagen orientieren muss, das Weltwissen ist für das Modell zweitrangig. Aber auch bei den Audio Overviews kommt es zu Fehlern. Die Machine-Learning-Expertin Iwona Bialynicka-Birula fütterte ihre Doktorarbeit von 2008 bereits im September hinein und musste feststellen, dass der Podcast voller "unsinniger Analogien" und Wiederholungen "auf 1000 verschiedene Arten" gewesen sei.
(bsc)