So will Google Deepmind KI-Systemen in den "Kopf" schauen

Google Deepmind arbeitet an Methoden, um die komplexen Abläufe in KI-Systemen besser zu verstehen und steuern zu können. Das "Gemma Scope" soll dabei helfen.

In Pocket speichern vorlesen Druckansicht 3 Kommentare lesen
Gehirn mit den Buchstaben AI

(Bild: incrediblephoto / Shutterstock.com)

Lesezeit: 13 Min.
Von
  • Scott J. Mulligan
Inhaltsverzeichnis

Die Künstliche Intelligenz hat zu Durchbrüchen in zahlreichen Bereichen geführt, von der Arzneimittelforschung bis zur Robotik. Sie ist außerdem dabei, die Art und Weise, wie wir mit Rechnern und dem Internet interagieren, zu revolutionieren. Wäre da nicht ein wichtiges Problem: Wir wissen weiterhin nicht genau, wie große Sprachmodelle wirklich funktionieren – oder warum sie so gut funktionieren. Wir haben eine ungefähre Vorstellung, aber die Details innerhalb der KI-Systeme sind zu komplex, um sie zu entschlüsseln. Das ist ein Problem: Es könnte dazu führen, dass wir Künstliche Intelligenz in einem hochsensiblen Bereich wie der Medizin einsetzen, ohne zu verstehen, dass sie in ihrer Funktionsweise kritische Schwachstellen haben könnte.

Ein Team bei Google Deepmind, das sich mit der sogenannten mechanistischen Interpretierbarkeit (Mechanistic Interpretability) beschäftigt, hat an neuen Methoden gearbeitet, die es uns ermöglichen sollen, unter die Haube der KI zu blicken. Ende Juli veröffentlichte die Firma Gemma Scope, ein Tool, das Forschenden helfen soll, zu verstehen, was passiert, wenn generative Systeme eine Ausgabe erzeugen. Die Hoffnung ist, dass wir, wenn wir besser verstehen, was im Inneren eines KI-Modells vor sich geht, in der Lage sein werden, dessen Ergebnisse effektiver zu kontrollieren, was in Zukunft zu grundlegend besseren KI-Systemen führen wird.

"Ich möchte in der Lage sein, in ein Modell hineinzuschauen und zu sehen, ob es trügerisch agiert", sagt Neel Nanda, der das Team für mechanistische Interpretierbarkeit bei Google Deepmind leitet. "Es sollte möglich sein, quasi die Gedanken eines Modells zu lesen." Mechanistische Interpretierbarkeit, auch bekannt als "Mech Interp", ist ein neues Forschungsgebiet, das darauf abzielt, zu verstehen, wie neuronale Netzwerke tatsächlich funktionieren. Gegenwärtig ist es so, dass wir einem Modell eine Menge Daten geben und am Ende des Trainings eine Reihe von Modellgewichten erhalten. Das sind die Parameter, die bestimmen, wie ein Modell Entscheidungen trifft. Wir haben eine Vorstellung davon, was zwischen dem Input und den Modellgewichten passiert: Im Wesentlichen sucht die KI nach Mustern in den Daten und zieht Schlussfolgerungen aus diesen Mustern. Aber diese Muster können unglaublich komplex sein und sind für Menschen oft schwierig zu interpretieren.

Es ist ungefähr wie bei einem Lehrer, der die Antworten auf eine komplexe Matheaufgabe in einem Test überprüft. Der Schüler – in diesem Fall die KI – hat die richtige Antwort aufgeschrieben, aber der Weg dahin sieht aus wie ein Haufen verschnörkelter Linien. Und in diesem Beispiel wird davon ausgegangen, dass die KI immer die richtige Antwort kennt, aber das ist nicht immer der Fall; der KI-Schüler hat vielleicht ein irrelevantes Muster gefunden, das er dennoch für gültig hält. Einige aktuelle KI-Systeme liefern etwa das Ergebnis, dass 9,11 größer als 9,8 (in US-Form ausgeschrieben: 9.11 oder 9.8) ist. Verschiedene Methoden, die auf dem Gebiet der mechanistischen Interpretierbarkeit entwickelt wurden, beginnen nun, ein wenig Licht in die Sache zu bringen, indem sie besagten verschnörkelten Linien einen Sinn geben.

"Ein Hauptziel der mechanistischen Interpretierbarkeit ist der Versuch, die Algorithmen innerhalb dieser Systeme praktisch zurückzuentwickeln", sagt Nanda. "Wir geben dem Modell eine Aufforderung – zum Beispiel 'Schreibe ein Gedicht' – und dann schreibt es ein paar gereimte Zeilen. Was ist der Algorithmus, mit dem es das gemacht hat? Das würden wir gerne verstehen."

Um Merkmale – oder Datenkategorien, die ein größeres Konzept darstellen – in Googles KI-Modell Gemma zu finden, hat Deepmind ein Tool namens "Sparse Autoencoder" auf jede seiner zahlreichen Schichten angewendet. Man kann sich einen Sparse-Autoencoder wie ein Mikroskop vorstellen, das diese Schichten vergrößert und einen Blick auf ihre Details ermöglicht. Wenn man Gemma zum Beispiel nach einem Chihuahua fragt, wird die Funktion "Hunde" ausgelöst, die beleuchtet, was das Modell über "Hunde" weiß. Der Grund dafür, dass der Autoencoder als "sparse" bezeichnet wird, ist, dass er die Anzahl der verwendeten digitalen Neuronen begrenzt und im Grunde eine effizientere und allgemeinere Darstellung der Daten anstrebt.

Der knifflige Teil von Autoencodern besteht darin, zu entscheiden, wie granular sie sein sollen. Noch einmal an das Mikroskop gedacht: Man kann etwas bis zu einem extremen Grad vergrößern, aber dann kann das, was man sieht, für Menschen unmöglich zu interpretieren sein. Zoomt man aber zu weit heraus, schränkt man möglicherweise die interessanten Dinge ein, die sich zu entdecken lohnen.

Die Lösung von Deepmind bestand darin, Sparse-Autoencoder unterschiedlicher Größe laufen zu lassen und so die Anzahl der Merkmale zu variieren, die der Autoencoder finden soll. Das Ziel war nicht, dass nur die Deepmind-Forschenden selbst die Ergebnisse gründlich analysieren. Gemma und die Autoencoder sind quelloffen, sodass dieses Projekt eher darauf abzielt, weitere interessierte Forschende dazu anzuregen, sich anzusehen, was die Software gefunden hat – und hoffentlich neue Erkenntnisse über die interne Logik des Modells zu gewinnen. Da DeepMind seine Autoencoder auf jeder Ebene des Modells einsetzte, könnte ein Forscher die Schritte von der Eingabe bis zur Ausgabe in einem Maße abbilden, wie wir es bisher noch nicht gesehen haben.