Vermutlich KI-Training: Massenhafte Zugriffe kicken Internet Archive offline

Übers verlängerte Wochenende war das Internet Archive Ziel von vermutlich unabsichtlichen DDoS-Attacken. Der Verdacht fällt auf ein unbedachtes KI-Training.

In Pocket speichern vorlesen Druckansicht 17 Kommentare lesen

(Bild: Timofeev Vladimir/Shutterstock.com)

Lesezeit: 3 Min.

Das Internet Archive ist über Pfingsten vermutlich vorübergehend offline gegangen, weil jemand zum Training eines Textgenerators immens viele Zugriffe auf automatisiert erkannte Textsammlung ausgelöst hat. Laut Archivgründer Brewster Kahle gingen zwischenzeitlich Zehntausende Anfragen von virtuellen Hosts bei Amazons Web Services (AWS) pro Sekunde ein und das Archiv wurde für etwa eine Stunde komplett aus dem Netz gekickt. Wenige Stunden später wiederholte sich das Ganze. Wer genau dafür verantwortlich ist, weiß man beim Internet Archive nicht, der Verdacht falle aber natürlich auf das Training eines großen Sprachmodells (Large Language Model), der Grundlage für KI-Textgeneratoren wie ChatGPT. Dagegen habe man auch nichts, bitte aber um rücksichtsvolles Vorgehen.

Laut Kahle musste das Team erstmals am Sonntag tätig werden und die IP-Adressen blockieren, von denen die unzähligen Zugriffe eingingen. Stunden später hätten 64 neue Adressen mit identischen Aktivitäten begonnen, woraufhin das Internet Archive erneut offline gegangen war. Den Verdacht, dass es sich um mindestens ungünstiges KI-Training gehandelt hat, teilte das Archiv auf Twitter mit. Auf Mastodon erklärte ein Mitarbeiter, dass so etwas gelegentlich passiere. In verschiedenen Beiträgen scheint derweil die Unzufriedenheit durch, dass man deswegen jetzt an einem verlängerten Wochenende habe aktiv werden müssen.

Jason Scott vom Internet Archive erläutert auf Mastodon, dass man "natürlich" nicht wisse, welches "brillante Genie" sich für ein Vorgehen entschieden habe, das letztlich in einen DDoS-Angriff gemündet ist. Es sei naheliegend, vom Training einer KI auszugehen. Wäre es um "echte" Forschung gegangen, hätte man vorab einen Prozess für den massiven Datenabgriff besprochen. Wer jetzt dafür verantwortlich war, habe trotz eines eindeutigen Neins – sprich der Blockade der IP-Adressen – nicht aufgehört und es von einer neuen Adresse wieder versucht. Auch Kahle schreibt: "Wenn du geblockt wirst, beginne nicht einfach neu, sondern melde dich." Und ergänzt: "Benutzt das Internet Archive, aber kickt uns dabei nicht aus dem Netz."

Das Internet Archive wurde 1996 gegründet und widmet sich der Langzeitspeicherung digitaler Informationen in frei zugänglicher Form. Dafür betreibt es nicht nur die Wayback Machine, auf der sich historische Abbilder von Internetseiten besuchen lassen, sondern auch eine stetig wachsende digitale Bibliothek, in der Texte, Bücher, Videos, Audiodateien, Bilder und Software abrufbar sind. Sprachmodelle wie GPT-4 bilden die Grundlage für KI-Generatoren wie ChatGPT, die mit riesigen Materialsammlungen trainiert werden, um später automatisiert Inhalte zu erzeugen. Im aktuellen Fall ging es wohl darum, einen Textgenerator mit automatisiert erkannten Inhalten (OCR) anzulernen.

(mho)