Aufgedeckt: So intransparent sind große KI-Modelle

KI-Forscher haben zehn Foundation Models hinsichtlich ihrer Transparenz bewertet. Das Ergebnis zeigt, dass durch die Bank Nachholbedarf besteht.

In Pocket speichern vorlesen Druckansicht 16 Kommentare lesen
KI-Gestalt auf schwarzem Hintergrund, der aussieht wie ein Weltraum

(Bild: metamorworks/Shutterstock.com)

Lesezeit: 3 Min.

Ein Team aus KI-Forschern der Universitäten Stanford, MIT und Princeton hat einen Transparenzindex für Foundation Models erstellt, also für große KI-Modelle. Anhand von 100 Faktoren bewertet es zehn bekannte Modelle wie GPT-4, Stable Diffusion 2 und PaLM 2. Volle Transparenz wäre bei einem Score von 100 Prozent erreicht.

Das Ergebnis wirkt ernüchternd: Die Spitzenreiter erreichen einen Score, der nur knapp über 50 Prozent liegt, die rote Laterne trägt Amazons Titan Text mit einem Score von gerade einmal 12 Prozent.

Die Motivation hinter dem Foundation Model Transparency Index (FMTI) liegt laut dem Team darin, dass es den großen KI-Modellen zunehmend an Transparenz mangele. Unternehmen könnten daher schwer einschätzen, ob sie die Foundation Models problemlos in ihre Anwendungen integrieren können. Ebenso benötige sowohl die Forschung als auch Endanwender Informationen zur Transparenz beim Einsatz von KI.

Das FMTI-Team hat zehn verbreitete Modelle untersucht und bewertet. An der Spitze steht Metas Large Language Model (LLM) LLaMA 2 mit einem Score von 54 Prozent. Dicht dahinter folgt BLOOMZ von Hugging Face mit 53 Prozent, und GPT-4 von OpenAI nimmt mit 48 Prozent den dritten Platz ein.

Das Team hat zehn Foundation Models in unterschiedlichen Bereichen auf Transparenz untersucht, um einen Score zu ermitteln.

(Bild: Stanford University)

Für die Bewertung hat das Team 100 Indikatoren zusammengestellt, die in die Bereiche Upstream, Modell und Downstream unterteilt sind. Die vorgelagerten (Upstream) Faktoren beschreiben den Prozess zum Erstellen des Modells, darunter die Datenquellen, geografische Verbreitung und Rechenressourcen für das Training der Foundation Models. Zu den Modellindikatoren gehören unter anderem die Architektur, die Fähigkeiten und die Limitierungen des Modells. Schließlich finden sich in den nachgelagerten Faktoren der Release- und Update-Prozess, die Lizenz sowie die Auswirkung des Modells auf User und Märkte.

Die drei Hauptbereiche hat das Team in dreizehn Unterbereiche unterteilt, darunter Daten, Methoden und Risiken.

(Bild: Stanford University)

Nachdem das Team die Scores erstellt hatte, gab es den Verantwortlichen für die Modelle die Gelegenheit zur Stellungnahme und passte die Werte bei berechtigten Einwänden an. Die Bewertung zeichnet kein positives Bild bezüglich der Transparenz, mit einem Sieger, der knapp über 50 Prozent liegt, und einem Durchschnitts-Score von 37 Prozent.

Auffällig und wenig überraschend ist, dass die drei offenen Modelle LLaMA 2, BLOOMZ und Stable Diffusion 2 in den ersten vier Plätzen zu finden sind. Dass OpenAIs Modell auf dem dritten Platz landet, ist dagegen durchaus eine kleine Überraschung, da sich das Unternehmen seinem Namen zum Trotz bei den Details zu seinen Modellen bedeckt hält.

Die offenen Modelle können vor allem in den vorgelagerten Faktoren beim Training des Modells (grüner Anteil der Balken) punkten.

(Bild: Stanford University)

Die Wurzeln des FMTI-Teams, das weitgehend aus Studenten, Doktoranden und einer Doktorandin sowie Forschungsleitern und einem Professor besteht, liegen im 2019 gegründeten Stanford Institute for Human-Centered Artificial Intelligence. Das Team sieht bei allen getesteten Foundation Models "erhebliches Verbesserungspotenzial", das es in künftigen Versionen des Index verfolgen möchte.

Weitere Details lassen sich der FMTI-Website und dem zugehörigen GitHub-Repository entnehmen. Die vollständige Abhandlung findet sich auf arXiv.

(rme)