Eine Million Bücher mit automatisch erzeugten Texten

Wenn Künstliche Intelligenz eine Doktorarbeit schreiben kann, was heißt dann Bildung? Interview mit dem Verleger Philip M. Parker

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Im deutschsprachigen Raum ist er fast ein Unbekannter: Der in Singapur lehrende Wirtschaftswissenschaftler und Unternehmer Philip M. Parker. Der von ihm gegründete Buchverlag ICON Group International hat mehr als eine Million verschiedener Bücher publiziert, deren Inhalte komplett automatisch generiert wurden. Mit Apps, Spielen und Lehrbüchern zu landwirtschaftlichen Techniken, Lesen und Rechnen - auch diese allesamt komplett automatisch erzeugt - will er die Alphabetisierung und Bildung in der Dritten Welt vorantreiben. Sein Programm "Totopoetry" erzeugt automatisch Perlen der Dichtkunst, wie er eindrucksvoll zeigen kann. Und nun will Parker auch noch die Wikipedia revolutionieren: natürlich mit Bots, die die Inhalte automatisch erstellen und übersetzen.

"Das ist keine Software, die das Web automatisch crawlt und Informationen copypastet", wehrt Parker gleich zu Beginn ab. "Insofern gibt es auch kein Plagiatsproblem." Die von seinem Verlag produzierten tausenden und abertausenden Bücher haben also mit den dubiosen Praktiken sonstiger Wikipedia-& Co-Kopier- und Raubverlage wenig bis nichts zu tun.

"Das Prinzip ist immer dasselbe, aber jeder Use Case ist anders: Wir greifen entweder auf Datenbanken zu, oder auf Satellitendaten oder auf sonstige Daten. Die Programme schreiben wir immer neu - abhängig davon, ob das Endprodukt eine Marktvorschau, ein Kreuzworträtselbuch, ein Sprachlernbuch, ein Sonett oder ein Wetterbericht sein soll."

Stefan Webers Buch "Roboterjournalismus, Chatbots & Co. Wie Algorithmen Inhalte produzieren und unser Denken beeinflussen" erscheint im November in der Reihe "Telepolis" (bei Amazon).

Chatbots, Sprach- und Schreibroboter sind vielen ein Begriff etwa durch (vermutete) Wahlmanipulationen oder Schlagzeilen zu Hasskommentaren in sozialen Netzwerken. Das vorliegende Buch zeichnet die Entwicklung der dahinterstehenden Technologien nach. Ziel ist ein umfassendes, aber leicht verständliches Bild der Anwendungen und ihrer zukünftigen Entwicklung.

Insbesondere wird erkennbar, wo sich die entsprechende Technologie bereits verbirgt (z.B bei automatisch generierten Zeitungsartikeln, Produktbewertungen oder Kommentare in sozialen Medien) oder auch ganz offen zeigt (Facebook-Messenger etc.). Immer effizientere Algorithmen erzeugen neben Texten auch Bilder und Filme, die neben den Menschen als Produzent solcher Inhalte treten und ihn vielleicht in Teilen ersetzen können.

Dieser kulturelle Wandel bleibt nicht ohne Folgen: Kreativität und soziale Umgangsformen, gerade unter jungen Menschen, leiden an der Entfremdung. Das Buch stellt die Frage, wie sich die Automatisierung des Schreibens, Sprechens und Denkens auf die Kultur als Ganzes auswirkt.

Mehr als eine Million Buchtitel seit 1998

Dahinter steckt Parkers Patent "Method and apparatus for automated authoring and marketing" aus dem Jahr 2007. Seine erste ökonomisch erfolgreiche Umsetzung erfuhr das Patent mit dem auf Nischenthemen spezialisierten Verlag ICON Group International. 2007 erklärte Parker das revolutionäre Prinzip eines Computerprogramms, das etwa zu einer speziellen Produktart die Marktvorschauen aus nahezu allen Ländern der Welt automatisch erzeugt und den Bericht sogar noch automatisch formatiert, so:

Knapp 900 Euro für eine automatisch erzeugte Marktvorschau in Buchform

Derzeit bietet der Verlag 50.000 verschiedene Titel an. Insgesamt, sagt Parker, waren es in den vergangenen 20 Jahren mehr als eine Million verschiedener Bücher. Für das automatisch generierte Buch "The 2016-2021 World Outlook for 3D Medical Imaging" sind $ 995 zu berappen, und es wird natürlich nach dem Book on Demand-Verfahren hergestellt. 863 Euro für ein automatisch erzeugtes Buch ist eine stolze Summe. Wenn sich nun jedes Buch exakt einmal verkauft hätte, hätte der Verlag bislang rund 1 Milliarde Euro eingenommen. Das aus 20 Personen bestehende Unternehmen arbeitet mittlerweile autonom, Parker werkt als Gründer nur noch im Hintergrund.

"Algorithmen sind im Long Tail-Business bereits definitiv die besseren Autoren", sagt Parker, der sich ganz diesem Prinzip verschrieben hat: "Biete Produkte zu möglichst vielen Nischenthemen an, und das Geschäftsmodell geht auch dann auf, wenn Du nur einen Bruchteil davon verkaufst."

Mit automatisch erzeugten Inhalten die Dritte Welt alphabetisieren: Der kühne Plan mit der Gates Foundation

Nachdem sein Modell eines Buchverlags auf Basis von Automated Content aufgegangen war, begann Parker, noch weitreichendere Pläne zu schmieden: Mit Hilfe der Bill & Melinda Gates Foundation rief er 2015 das Projekt "TotoGEO" (Toto: universell, GEO: Global Education & Outreach) ins Leben. Ziel war es nun, mit automatisch generierten Lehrbüchern, Spielen und Apps in mehr als 300 lokalen Landessprachen in Afrika und Asien die Alphabetisierung voranzutreiben. In drei Kurzvideos kann man sich einen raschen Eindruck von dem Projekt verschaffen.

Parker sagt im Telepolis-Interview, er sei der erste, der überhaupt ein automatisch generiertes Computerspiel geschaffen hat: das Spiel "Farm Defenders", eine 3D-Simulation, die sich aus realen landwirtschaftlichen Eckdaten speist und ebenfalls einen "bildungspädagogischen" Hintergrund hat.

Wie schon die ICON Group International mit ihren unüberschaubaren Marktvorschauen, Kreuzworträtseln und Sprachlernbüchern klingt auch das Projekt "TotoGEO" auf den ersten Blick nach Kraut und Rüben und somit zunächst fast unglaubwürdig:

Die Dimensionen des Projekts "TotoGEO". Bild: TotoGEO

"Mit der Content-Automatisierung sind solche breiten Vorhaben aber nun umsetzbar geworden", sagt Parker. Nicht nur das automatisierte Sammeln von Informationen aus unterschiedlichen Domänen (Content-Spalte in Abb.), sondern auch das (semi-)automatisierte Übersetzen (Languages) und das automatisierte Ausspielen in unterschiedlichen Formaten und Anwendungen (Formats) sind heute technisch machbar.

"Wir sind in der frühesten Phase der Natural Language Generation (NLG). Es gibt schon und wird bald noch viel mehr genre-spezifische Anwendungen geben. NLG wird bald die meisten Bereiche menschlicher Autorschaft betreffen", sagt Parker im Skype-Interview mit Telepolis.

"Totopoetry" überzeugt auch als Dichter - und kommt bald sogar die Dissertation aus dem Rechner?

Okay, the truth is harsh, I horse you not,
I render now the fact, I'm just a bot!

Das Wort "to horse" gibt es im Englischen nicht. Die Software Parkers hat sich die Neuschöpfung selbst ausgedacht, sie stammt vom englischen "horseplay" (Klamauk). Keine künstlichen neuronalen Netze, sondern Graphentheorie und Clusteranalyse seien hier im Einsatz, verrät Parker.

Ein automatisch generiertes Sonett. Quelle: Totopoetry

Philip Parker denkt nach seinen Toto-Projekten konsequent weiter: "Warum muss eigentlich ein kollaboratives Online-Lexikon wie die Wikipedia von menschlichen AutorInnen verfasst werden?", fragt er sich. Parker benennt folgende Mängel: Nicht wenige Wikipedia-Versionen in von wenigen Menschen gesprochenen Sprachen sind in den vergangenen Jahren ausgestorben. Die englischsprachige Wikipedia kennt das Lemma "Smelling" nicht (es wird zu "Olfaction" weitergeleitet), und man erfährt nicht, wofür die Abkürzung "T.R.E.E." stehen kann. Auch hier wäre an Automatisierungsoptionen zu denken. Eine diesbezügliche Beta-Version, die auf Wikipedia aufsetzt, gibt es bereits, ist aber noch geheim.

In dem folgenden Video (Start bei 8 min 40 sec.) erklärt Parker noch mehr zukünftige Anwendungsmöglichkeiten:

Was die Zukunft von Automated Content bringen könnte. Quelle: Philip Parker, Ted Talk

Wider die Schreibblockade: "Word 2.0" startet von selbst mit dem Text

Wenn in Zukunft Algorithmen Dissertationen schreiben werden und ein fiktives "Word 2.0" selbst zu einem gegebenen Thema zu texten beginnt, was geschieht dann mit der menschlichen Kreativität?

Ein personalisiertes Physik-Schulbuch, das eine/n Schüler/in bei seinem/ihrem speziellen Hobby abholt (z.B. die Welt der Physik - vom Fußball aus erklärt) scheint in der Tat eine pädagogisch bahnbrechende Idee zu sein. Aber was tut der/die Dissertant/in noch - außer die Software mit Stichworten zu füttern -, wenn die Doktorarbeit automatisch generiert wird? Und was und wen benotet der Lehrende?

Vielleicht sollte das Bildungssystem beginnen, sich darüber Gedanken zu machen, denn erste Angebote für automatisch erzeugte wissenschaftliche Texte gibt es bereits im Netz, wie etwa den EssayBuddy.

Sind kreative Köpfe wie Parker mit ihren kühnen und allumfassenden Automatisierungsprojekten die ersten Visionäre zukünftiger womöglich starker KI oder die ersten Zerstörer unserer menscheigenen Intelligenz und unserer jahrhundertelang dominierenden Geistesarbeit? Es erstaunt, dass diese Debatte bislang noch nicht einmal jenseits der Öffentlichkeit geführt wird. Automated Content ist bislang kein Thema in der Medienpädagogik, an Schulen und Universitäten, in Urheberrechtsgesetzen und offenbar auch nicht für die EU, was Regulierungs- und Kennzeichnungsfragen anbelangt.

Währenddessen arbeiten Google, Facebook, Apple & Co. hinter verschlossenen Türen an eigenen elaborierten Vorhaben und am weiteren Vormarsch von Automated Content (demnächst in Teil 2).