Tausende kostenlose Hörbücher: Project Gutenberg und Microsoft kooperieren

Die frei zugängliche digitale Büchersammlung "Project Gutenberg" und Tech-Riese Microsoft kooperieren für tausende kostenlose Hörbücher miteinander​.

In Pocket speichern vorlesen Druckansicht 14 Kommentare lesen
Bücher, auf denen ein Headset liet. Im Hintergrund leuchtet eine Lichterkette

(Bild: Erstellt mit Midjourney durch Marie-Claire Koch)

Lesezeit: 3 Min.
Inhaltsverzeichnis

Die frei zugängliche Büchersammlung Project Gutenberg und Microsoft arbeiten zusammen, um ungefähr 5000 Hörbücher kostenlos bereitzustellen. Dazu verwenden sie ein KI-Modell, das Tausende geschriebene Bücher realistisch vertonen soll. Die so erstellten Hörbücher wollen die Projektbetreiber künftig über Plattformen wie Spotify, dem Apple- und Google-Podcast und dem Internet Archive bereitstellen.

Bei einer ersten Hörprobe klingt das in englischer Sprache gelesene Wuthering Heights für eine Künstliche Intelligenz sehr natürlichsprachlich, vor allem aufgrund der vergleichsweise natürlichen Prosodie. Bei genauerem Hinhören fällt allerdings eine falsche Aussprache von Heathcliff auf. Die Forscher der zum Projekt kürzlich veröffentlichten Studie "Large-Scale Intelligent Microservices" geben an, dass einige Hörbücher "Fehler, seltsame Aussprachen, anstößige Sprache oder Inhalte enthalten", die nicht für alle Zielgruppen geeignet sind. Wer Probleme bei den Aufnahmen findet, kann diese melden.

Project Gutenberg verfügt über 70.000 digitalisierte Bücher in englischer Sprache, deren Inhalte gerne für automatisierte Textanalysen oder das Trainieren großer Sprachmodelle (Large Language Models, LLM) genutzt werden. Auch über Hörbücher verfügt Project Gutenberg bereits, allerdings werden diese mit einer roboterartigen Stimme vorgelesen. Mit dem neuen System, an dem unter anderem Forscher von Microsoft, dem Massachusetts Institute of Technology (MIT), Project Gutenberg und Google gearbeitet haben, sollen Nutzer künftig auch die Sprachausgabe eines Hörbuchs individuell anpassen können. So sollen sich etwa die Geschwindigkeit, der Stil und die emotionale Intonation verändern lassen. Auch die eigene oder eine gewünschte Stimme kann mithilfe eines kurzen Audiobeispiels zum Einsatz kommen.

In ihrem Paper (PDF) stellen die Forscher ein skalierbares System vor, das HTML-basierte E-Books in Hörbücher konvertieren kann. Dafür nutzt Microsoft die Open-Source-Bibliothek Synapse Machine Learning (SynapseML), die auf Github unter MIT-Lizenz zur Verfügung steht. SynapseML kann "Modelle [...] mit einem oder mehreren Knoten [...] in skalierbarer Größe trainieren und bewerten". Dabei kommen verschiedene Datenbanken und Cloud-Speicher zum Einsatz. Entwickler sollen damit verschiedene Machine-Learning-Frameworks zusammenführen können, etwa beim überwachten Lernen. Zudem kann SynapseML in verschiedenen Programmiersprachen wie Python, R, Scala und Java verwendet werden.

Während die Umwandlung von Text in Sprache bereits weit fortgeschritten ist, ist nach Angaben der Forscher noch weniger erforscht, welchen Text aus einem E-Book die künstliche Stimme vorlesen soll. Daher befassen sich die Forscher vor allem mit der Bereinigung der Texte und an welcher Textstelle die automatische Spracherzeugung starten soll – dabei kommen LSTM-Netze (Long short-term memory) zum Einsatz. So will das Team rund um Markus Weimer sicherstellen, dass beispielsweise keine Fußnoten, Seitenzahlen, Tabellen, Abbildungen und Inhaltsverzeichnisse vorgelesen werden.

Das Forschungsteam hat dafür teils automatisiert und teils händisch das Document Object Model (DOM) der E-Books erstellt, um die HTML-Dateien zu kategorisieren. Dadurch konnten sie Regeln erstellen, um die Texte automatisch zu strukturieren. Anschließend konnte der geparste Text an Text-to-Speech-Algorithmen übergeben werden.

Im Gegensatz zu anderen Plattformen wie LibriVox werden die Inhalte automatisch erzeugt. LibriVox wird dagegen von einem Team aus Freiwilligen betrieben, die die Hörbücher selbst aufzeichnen, wodurch auch die Ressourcen begrenzt sind. Die automatische Umwandlung beim Project Gutenberg soll Hörbuchliebhabern auf der ganzen Welt Literatur zugänglicher machen.

(mack)