"Gedankenlesen": Input für Stable Diffusion direkt aus dem Gehirn

Ein japanisches Forscherteam hat aus Daten von Hirnscans die Bilder rekonstruiert, die Versuchsteilnehmer gesehen haben – mit Hilfe von Stable Diffusion.

In Pocket speichern vorlesen Druckansicht 28 Kommentare lesen
Ai(artificial,Intelligence),Concept.,3d,Rendering.

(Bild: metamorworks / Shutterstock.com)

Lesezeit: 3 Min.

Mithilfe von KI lässt sich der Rechenaufwand zur Deutung von Gehirnscans erheblich reduzieren. Ganz neu ist die Idee nicht: Weltweit haben bereits viele Forschungsgruppen KI und maschinelles Lernen eingesetzt, um aus Gehirnscans auf den gedanklichen Inhalt zurückzuschreiben. Zum Teil konnten Forschende dabei verblüffende Erfolge vorweisen, wie etwa Tom Mitchell und Marcel Just von der Carnegie Mellon University, die 2008 gedachte Wörter aus Hirnscans auslasen. Bei näherem Hinsehen funktioniert die Methode aber nur innerhalb sehr eingeschränkter Versuchsbedingungen.

Die Entwicklung von Deep Learning schien der Forschung neuen Schwung zu verleihen. Allerdings mussten diese Modelle zunächst auf großen Datensätzen trainiert werden. Und auch dann "ähneln" die rekonstruierten Bilder den betrachteten Bildern bestenfalls, wie beispielsweise Guohua Shen vom ATR Lab in Tokio in einem Paper von 2019 schreibt – die zugehörige Abbildung zeigt bestenfalls verschwommene Schemen.

Yu Tagaki von der Osaka University und Shinji Nishimoto vom National Institute of Information and Communications Technology Japan nutzen nun Stable Diffusion, um den Rechenaufwand für solch eine Bildrekonstruktion zu reduzieren und die Qualität des Outputs drastisch zu erhöhen. Dabei erzeugten sie aus Bildern funktioneller Magnetresonanztomografie (fMRI) – die Methode misst die Hirnaktivität anhand des Sauerstoffverbrauchs – Inputs für Stable Diffusion. Anschließend nutzten sie die Möglichkeiten der generativen KI, den Output mit Image-to-Image und einer Textbeschreibung zu steuern.

Wenn Menschen ein Foto betrachten, registrieren die Schläfenlappen vor allem Informationen über den Inhalt des Bildes (Menschen, Objekte oder Landschaften), während der Okzipitallappen vor allem Informationen über das Layout und die Perspektive registriert, wie etwa den Maßstab und die Position des Inhalts.

Um den Text- und Bildinput für Stable Diffusion aus den fMRI-Bildern zu gewinnen, trainierten die Forschenden lineare Modelle auf Bildern aus einem Datensatz der University of Minnesota. Das Natural Scenes Dataset (NSD) enthält Hirnscans von acht Teilnehmern, die jeweils 10.000 Landschafts-Fotos betrachteten, zugeordnet zu den jeweils betrachteten Bildern. Aus den Daten der Okzipitallappen erzeugten die Forschenden eine von ihrem KI-Modell modifizierte, komprimierte Bilddatei. Aus den Daten der Schläfenlappen erzeugten sie Text – wobei sie beim Training auch Informationen aus den Bildbeschreibungen nutzten. Bild und Text nutzten sie dann als Input für das Standardmodell von Stable Diffusion.

Um zu testen, wie gut die Software funktioniert, verwendeten die Forschenden einen Teil des Datensatzes, den sie nicht zum Training verwendet hatten, darunter das Bild eines Teddybären, eines Flugzeugs, einer Uhr und eines Zuges. Zwar betonen Tagaki und sein Kollege, dies sei "kein Gedankenlesen". Die Resultate sind allerdings verblüffend gut. Die Konturen der Objekte auf den erzeugten Bildern sind gut zu erkennen und weisen somit große Ähnlichkeiten zu den Originalbildern auf (siehe Abbildung unten).

In der oberen Reihe sind die den Testpersonen präsentierten Originalbilder zu sehen. In der unteren Reihe sind die auf Basis der Hirnaktivität von Stable Diffusion erzeugten Bilder dargestellt.

(Bild: Nishimoto und Takagi, 2023. )

Nishimoto hofft, dass die Technologie mit weiteren Verfeinerungen dazu verwendet werden könnte, Träume abzufangen, oder es Wissenschaftlern ermöglichen könnte zu verstehen, wie Tiere die Realität wahrnehmen. Allerdings wurde das KI-System nur an den Hirnscans der vier Personen getestet, die auch die Trainings-Hirnscans geliefert hatten. Eine Ausweitung auf andere Personen würde ein erneutes Training des Systems an deren Hirnscans erfordern.

Siehe auch:

(wst)