Aufgedeckt: So intransparent sind große KI-Modelle
KI-Forscher haben zehn Foundation Models hinsichtlich ihrer Transparenz bewertet. Das Ergebnis zeigt, dass durch die Bank Nachholbedarf besteht.
![KI-Gestalt auf schwarzem Hintergrund, der aussieht wie ein Weltraum](https://heise.cloudimg.io/width/610/q85.png-lossy-85.webp-lossy-85.foil1/_www-heise-de_/imgs/18/4/3/2/4/9/2/1/shutterstock_767827225-efbd8bfb498d84d0.jpeg)
(Bild: metamorworks/Shutterstock.com)
Ein Team aus KI-Forschern der Universitäten Stanford, MIT und Princeton hat einen Transparenzindex für Foundation Models erstellt, also für große KI-Modelle. Anhand von 100 Faktoren bewertet es zehn bekannte Modelle wie GPT-4, Stable Diffusion 2 und PaLM 2. Volle Transparenz wäre bei einem Score von 100 Prozent erreicht.
Das Ergebnis wirkt ernüchternd: Die Spitzenreiter erreichen einen Score, der nur knapp über 50 Prozent liegt, die rote Laterne trägt Amazons Titan Text mit einem Score von gerade einmal 12 Prozent.
Transparenz vom Erstellen bis zum Einsatz
Die Motivation hinter dem Foundation Model Transparency Index (FMTI) liegt laut dem Team darin, dass es den großen KI-Modellen zunehmend an Transparenz mangele. Unternehmen könnten daher schwer einschätzen, ob sie die Foundation Models problemlos in ihre Anwendungen integrieren können. Ebenso benötige sowohl die Forschung als auch Endanwender Informationen zur Transparenz beim Einsatz von KI.
Das FMTI-Team hat zehn verbreitete Modelle untersucht und bewertet. An der Spitze steht Metas Large Language Model (LLM) LLaMA 2 mit einem Score von 54 Prozent. Dicht dahinter folgt BLOOMZ von Hugging Face mit 53 Prozent, und GPT-4 von OpenAI nimmt mit 48 Prozent den dritten Platz ein.
(Bild: Stanford University)
100 Indikatoren aus drei Modellstufen
Für die Bewertung hat das Team 100 Indikatoren zusammengestellt, die in die Bereiche Upstream, Modell und Downstream unterteilt sind. Die vorgelagerten (Upstream) Faktoren beschreiben den Prozess zum Erstellen des Modells, darunter die Datenquellen, geografische Verbreitung und Rechenressourcen für das Training der Foundation Models. Zu den Modellindikatoren gehören unter anderem die Architektur, die Fähigkeiten und die Limitierungen des Modells. Schließlich finden sich in den nachgelagerten Faktoren der Release- und Update-Prozess, die Lizenz sowie die Auswirkung des Modells auf User und Märkte.
(Bild: Stanford University)
Nachdem das Team die Scores erstellt hatte, gab es den Verantwortlichen für die Modelle die Gelegenheit zur Stellungnahme und passte die Werte bei berechtigten Einwänden an. Die Bewertung zeichnet kein positives Bild bezüglich der Transparenz, mit einem Sieger, der knapp über 50 Prozent liegt, und einem Durchschnitts-Score von 37 Prozent.
Auffällig und wenig überraschend ist, dass die drei offenen Modelle LLaMA 2, BLOOMZ und Stable Diffusion 2 in den ersten vier Plätzen zu finden sind. Dass OpenAIs Modell auf dem dritten Platz landet, ist dagegen durchaus eine kleine Überraschung, da sich das Unternehmen seinem Namen zum Trotz bei den Details zu seinen Modellen bedeckt hält.
(Bild: Stanford University)
Die Wurzeln des FMTI-Teams, das weitgehend aus Studenten, Doktoranden und einer Doktorandin sowie Forschungsleitern und einem Professor besteht, liegen im 2019 gegründeten Stanford Institute for Human-Centered Artificial Intelligence. Das Team sieht bei allen getesteten Foundation Models "erhebliches Verbesserungspotenzial", das es in künftigen Versionen des Index verfolgen möchte.
Weitere Details lassen sich der FMTI-Website und dem zugehörigen GitHub-Repository entnehmen. Die vollständige Abhandlung findet sich auf arXiv.
(rme)