c't 24/2023
S. 114
Wissen
KI-Training
Bild: KI Midjourney | Bearbeitung c’t

Was KIs lesen

Qualitäts- und Urheberrechtsprobleme mit Trainingstexten für Sprachmodelle

Lesen bildet, so eine landläufige Meinung. Doch wenn Maschinen Millionen von Webseiten und Hunderttausende Bücher verschlingen, werden sie nicht unbedingt schlauer, wie ein Blick ins Bücherregal der künstlichen Intelligenzen zeigt.

Von Hartmut Gieselmann

Shawn Presser ist unter Buchautoren und Literaten derzeit wohl der am meisten gehasste US-Amerikaner. Auf ihn sind Autoren ähnlich schlecht zu sprechen wie Musiker auf Shawn Fanning und Sean Parker: Die starteten 1999 die Musiktauschbörse Napster und lösten damit die bis dato größte Krise und Transformation der Musikindustrie aus.

Presser unterhält keine Piratenseite, sondern er hat vor drei Jahren eine Sammlung von 196.000 Büchern zusammengetragen, die seitdem unter dem Namen Books3 zum Training großer Sprachmodelle wie Metas Llama herangezogen wird. Das US-Magazin Wired beschreibt Presser als einen zur damaligen Zeit arbeitslosen KI-Forscher. Auf der Suche nach einem großen Bücherkorpus sei er auf das Datenprojekt The Eye gestoßen, das unter dem Namen „Bibliotik“ eine große Schattenbibliothek digitaler Bücher hostete (alle Links zu diesem Artikel finden Sie unter ct.de/ytq3).

Kommentieren