Künstliche Intelligenz: Wie multimodale KIs Bild und Text kombinieren

Text- und Bildgeneratoren sind nicht neu, doch nun veröffentlichen OpenAI und Co. ihre multimodalen Modelle, die beide Welten vereinen. Wir geben Einblick.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht

(Bild: KI Midjourney | Collage c‘t)

Lesezeit: 22 Min.
Von
  • René Peinl
Inhaltsverzeichnis

Sprach-KIs wie ChatGPT sind nicht nur wahre Formulierungskünstler. Immer wieder überraschen sie mit ihrem Wissen und fast intellektuell wirkenden Fähigkeiten. Doch ihr Weltwissen gewannen sie lange Zeit nur aus Texten, also dem geschriebenen Wort. Fragen und Anweisungen nahmen sie lediglich in Schriftform entgegen und Antworten gaben sie ebenfalls nur als Text. Ganz anders der Mensch: Er sieht, hört, fühlt, schmeckt, spricht und interagiert mit seiner Umwelt auf vielfältige Weise. Sein Wissen über Natur, Kunst und Technik hat er sich nicht nur angelesen, sondern vieles auch mit seinen Sinnen erfahren.

Die heiße Herdplatte, auf die man versehentlich mit der Hand gefasst hat, oder das sprichwörtliche Begreifen von Bällen beim Jonglieren bleiben einem nicht nur lange im Gedächtnis. Sie sind auch der beste anschauliche Unterricht in Physik, den man sich vorstellen kann. Der Mensch verarbeitet also Signale aus diversen Quellen und kann das Ergebnis auf unterschiedliche Arten ausgeben. Die Wissenschaft bezeichnet das als Multimodalität (PDF) – und genau diese Fähigkeit gilt als wichtige Weiterentwicklung der Chatbots von OpenAI, Google, Meta und Co. auf dem Weg zu einer generellen künstlichen Intelligenz.

KI-Kompendium: Der Weg zu moderner KI
KI-Kompendium: KI praktisch nutzen

GPT-4V und das darauf aufsetzende ChatGPT können mittlerweile schon Bilder interpretieren. Google wiederum kontert mit seinem von Grund auf multimodal trainierten Gemini. Es stammt aus der im Jahr 2014 übernommenen britischen KI-Schmiede DeepMind. Deren bahnbrechende Entwicklungen wie AlphaGo, AlphaZero und AlphaFold, kombiniert mit den Sprach- und Bild-KI-Meilensteinen aus Googles eigenen Laboren (BERT, FLAN, PaLM, MoE et cetera), sicherten dem Konzern lange Zeit die technologische Spitzenposition in der KI-Forschung. Das änderte sich, als OpenAI seinen ChatGPT-Coup landete und die etablierten Player wie Google und Meta unter Zugzwang setzte: so stark, dass Google sich genötigt sah, die Gemini-Ergebnisse werbewirksam mit einem Video in Szene zu setzen.

Das war die Leseprobe unseres heise-Plus-Artikels "Künstliche Intelligenz: Wie multimodale KIs Bild und Text kombinieren". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.