KI-Forschungstool: Galactica von Meta erstellt (pseudo-)wissenschaftliche Texte

Galactica AI ist ein auf wissenschaftliche Literatur trainiertes, offenes KI-Tool. Kritiker warnen teils vor "Bullshit"-Output, und die Nutzung hat einen Haken.

In Pocket speichern vorlesen Druckansicht 32 Kommentare lesen

(Bild: 3Dsculptor / Shutterstock.com)

Update
Lesezeit: 8 Min.
Von
  • Silke Hahn
Inhaltsverzeichnis

Die KI-Abteilung des Facebook-Mutterkonzerns Meta hat ein neues großes Sprachmodell vorgestellt, das primär auf einem Corpus (natur-)wissenschaftlicher Forschungsliteratur wie Fachartikeln, Lecture Notes, Abstracts und Rezensionen trainiert wurde. Die primäre Zielgruppe sind der Modellkarte zufolge Wissenschaftler und Studierende. Galactica AI, wie sein Name lautet, gibt es in fünf Größen zwischen 120 Millionen und 120 Milliarden Parametern. Es ist offenbar Open Source (unter Vorbehalt: zu dieser Angabe bestehen einige Ungereimtheiten, dazu mehr weiter unten).

Auf GitHub ist es in einem Repository namens galai des Teams "Papers with Code" hinterlegt. Laut Website stammt das Modell von diesem Team und Meta stellt oder stellte die benötigten Hardwareressourcen. 48 Millionen Forschungsdokumente gingen in das Modell ein, aus denen 88 Milliarden Token erzeugt wurden. Insgesamt verwendete das neunköpfige Meta-AI-Team 106 Milliarden Token, die es aus öffentlich zugänglichen Textbüchern, Artikeln sowie Wissensdatenbanken erzeugt hatte und wofür es mit Galactica ein Interface in natürlicher Sprache bereitstellt. Weitere Angaben zu den Quellen lassen sich dem Forschungspaper des Teams entnehmen, in dem neben einer Kurzfassung auch ein annotiertes Verzeichnis zu finden ist.

Galactica-Corpus an Forschungsliteratur - eine ausführlich annotierte Version gibt es am Ende des Papers.

(Bild: Meta-AI-Team)

Laut seinen Herausgebern vermag Galactica, Zitate vorherzusagen, könne LaTeX erzeugen, logische Schlüsse ziehen (Reasoning), Dokumente erstellen, Moleküle generieren und Protein-Annotationen erzeugen. Auf GitHub ist jeweils ein kleines Beispiel hinterlegt, ausführlichere Beispiel-Demos finden sich auf der zugehörigen Projekt-Website galactica.org. Die Website führt mit dem Modell erzeugte Fachrezensionen (Literature Reviews), Wikipedia-Einträge, Vortragsmitschriften (Lecture Notes) und machinengenerierte Antworten auf Fachfragen als mögliche Einsatzzwecke vor.

Überblick über die Fähigkeiten des KI-Modells Galactica, das auf wissenschaflicher Literatur trainiert wurde.

(Bild: Galactica.org)

Das bis zu 120 Milliarden Parameter große Open-Source-Modell soll in Aufgaben in den MINT-Fächern (englisch "STEM", also Mathematik, Informatik, Naturwissenschaften und Technik-/ Ingenieurswissenschaften) besonders gut abschneiden, habe dafür im Training allerdings deutlich weniger Daten gebraucht als beispielsweise BLOOM von Huggingface und die Open Pre-Trained Transformer Models (OPT) von Meta.

Etwas unklar ist der Redaktion zurzeit noch, unter welcher Lizenz das Modell letztlich steht, da im Repository zwei augenscheinlich widersprüchliche Lizenzangaben hinterlegt sind. Wenn man auf den verlinkten Licence-Knopf drückt oder das Verzeichnis Licence öffnet, ist die genannte Lizenz zunächst Apache 2.0, womit das Modell Open Source und laut dort dargestellter Checklist frei verfügbar wäre "für den kommerziellen Einsatz, das Modifizieren, Teilen, den Einsatz im Patentbereich und private Nutzung". Drei Einschränkungen unterliege es: Es lassen sich keine Trademark-Rechte daraus ableiten, die Haftung (Liability) sei beschränkt und die Urheber des Modells gewähren keinerlei Garantie.

Erste der beiden angegebenen Lizenzen im Repository zu Galactica AI räumt auch kommerzielle Nutzung ein - was die ebenfalls hinterlegte Lizenz "Creative Commons Attribution - NonCommercial 4.0" wiederum ausschließt. Ob daher der Einsatz im patentrechtlichen Bereich gesichert ist, wagt die Redaktion zu bezweifeln.

(Bild: Papers with Code)

Diese Angaben stehen teils im Widerspruch zu einer weiteren im Repository hinterlegten Datei Licence-Model.md oder werden durch sie zumindest teilweise eingeschränkt: Die Creative Commons Attribution NonCommercial-4.0-Lizenz schließt eine kommerzielle Nutzung explizit aus. Laut dem Herausgeber "Papers with Code" wiederum handelt es sich um ein offenes Modell und Open Source:

Infotext zu Open Models 1.0, aus dem Repository von "Papers with Code" auf Github zum großen KI-Sprachmodell Galactica AI von Meta

Die Sache mit Open Source ist ein zweischneidiges Schwert, wie man spätestens bei Durchsicht der Terms of Use auf der Galactica-Website erfährt, die sich im Kleingedruckten befinden. Nutzer des KI-gestützten Forschungstools von "Papers with Code" und Meta gewähren dem Konzern möglicherweise die Rechte, sämtlichen User Content zu sichten, prüfen und gegebenfalls zu verwerten (die Bereiche sind nicht ganz klar abgegrenzt). Auch in den Nutzungsbedingungen gehen die Begriffe kommerziell und nicht kommerziell etwas durcheinander. Während die Website nur für nicht-kommerzielle Nutzung und zur Information diene, fallen die dort präsentierten Galactica-Materialien unter die Lizenz "Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)", was auch für die Materialien gelte, die für kommerzielle Nutzung gedacht seien ("including for commercial purposes").

Offenbar ist es ratsam, zunächst einen Fachjuristen zu konsultieren, um die eigenen Verwendungszwecke abzuklären, bevor man die API nutzt oder munter mit dem Forken beginnt. Wer die Website nutzt, hat sich automatisch einverstanden erklärt mit den dort verankerten Bedingungen, die im Detail hier nachzulesen sind. Mit der Nutzung wird unter anderem auch der eigene Arbeitgeber gegenüber Meta haftbar bei missbräuchlicher Verwendung, und einige Gruppen sind von der Nutzung ausgeschlossen. So ist Volljährigkeit eine Voraussetzung, und vorangegangene Straffälligkeit (die nicht näher ausgeführt wird) könnte vom Nutzen des Tools ausschließen.

Für Text, Fotos, Code, Videos und sonstigen Input, den Nutzer auf der Plattform eingeben, tragen sie laut Vereinbarung selbst die Verantwortung, so auch dafür, dass sie durch den Content nicht persönlich identifizierbar werden. Das dürfte insofern relevant sein, als Meta und das PoC-Team sich möglicherweise die weitere Nutzung des Inputs zum Training ihres Modells offenhalten. Ganz klar geht das aus den Angaben der Website aber nicht hervor, da Meta zugleich angibt, die Ownership und das Urheberrecht (am erzeugten Output) liege bei den Usern. Unklar bleibt dabei, wie User zugleich ihr Urheberrecht wahren können, ohne aber personenbezogene Daten preiszugeben, zumal offenbar auch eine Anmeldung auf der Website für deren Nutzung erforderlich ist. Die Website spezifiziert auch unerwünschtes, verbotenes Verhalten beim Nutzen des Tools, unter anderem das Verletzen der Copyrights anderer. Details hierzu stehen in den Terms of Use unter "Prohibited Use".

Unter den Beispielen, die auf der Website bereitstehen und bevor man zum Generieren eigener Texte übergeht, steht ein Warnhinweis, dass der gelieferte Output möglicherweise unzuverlässig sei und dass das Modell zu Halluzinationen neige ("WARNING: Outputs may be unreliable! Language Models are prone to hallucinate text"), die Trainingsdaten spiegeln einen Stand bis Juli 2022. Ein Überprüfen der KI-generierten Texte auf Plausibilität, Stichhaltigkeit, Wahrheitsgehalt und Genauigkeit liegt also weiterhin in der Verantwortung der menschlichen Anwender.

Allerdings dürfte es für unbedarfte oder fachfremde Leserinnen und Leser wohl teilweise schwierig sein, hier Wahres von Falschem zu unterscheiden, da die Erzeugnisse formal die Ansprüche wissenschaftlicher Textprodukte erfüllen und von Stil und Sprache her nach Autorität klingen. Insbesondere die Funktion, wissenschaftlich klingende Wikipedia-Artikel, teils garniert mit mathematischen Formeln, auf Knopfdruck zu erstellen, könnte Desinformationskampagnen die Tür öffnen.

Scharfe Kritik übten bereits der Yann-LeCun-Kritiker Gary Marcus und Forscher aus seinem Umfeld in einem Substack-Beitrag unter dem Titel "A Few Words About Bullshit". Bei dem Output des Tools handele es sich um eine krude Mischung aus soliden, guten Ideen und Verrücktheiten. Der New Yorker Neurowissenschaftler Marcus findet die Mischung aus konfabulierter Mathematik und Wissenschaft dabei besonders bedenklich, wenn nicht gar gefährlich, und warnt vor fabriziertem Unfug. Einige Beispiele hat sein Kollege David Chapman in einem Twitter-Thread zusammengetragen.

Wer sich genauer für die Grundlagen des Modells und seine Einsatzmöglichkeiten interessiert, kann das wissenschaftliche Paper zu Galactica lesen, in dem das neunköpfige Forschungsteam von Meta AI beschreibt, welche Daten und Materialien eingeflossen sind und mit welchen Methoden das Modell trainiert wurde. Die Modellkarte und weiterführende Ressourcen sind auf GitHub hinterlegt, das Modell wurde binnen 22 Stunden bereits dreißig Mal geforkt.

Update: Am 17.11.2022 hat Meta die Demo von der Website genommen. Hinweise auf potenziell gefährlichen Output, unter anderem vom Direktor des Max-Planck-Instituts für Intelligente Systeme (MPI_IS), hatten sich bereits in den ersten Stunden nach dem Release gehäuft – offenbar hatte das Team sich etwas zu früh zum Veröffentlichen entschieden.

Update

Hinweis ergänzt: Meta hat mittlerweile die frei zugängliche Demo von der Website genommen.

(sih)