Apple-KI: Welche Vorteile das Sprachmodell MM1 bietet

Bislang hat Apple bei künstlicher Intelligenz keine großen Schlagzeilen gemacht. Das könnte sich mit neuen Einblicken in die hauseigene Forschung nun ändern.

4

(Bild: Generiert mit Midjourney durch Mac & i)

28.03.2024, 08:00 Uhr

Lesezeit: 4 Min.

MIT Technology Review

Von

Eike Kühl

Über Apples Pläne in Sachen künstlicher Intelligenz (KI) gab es zuletzt ebenso viele Gerüchte wie offene Fragen. Bei öffentlichen Auftritten wie der hauseigenen Entwicklerkonferenz WWDC bevorzugte Apple-Chef Tim Cook etwa den technischen Begriff "maschinelles Lernen" – statt KI. Doch nun wird es konkreter: In der vergangenen Woche gab es Berichte, dass Apple daran interessiert sein könnte, Googles großes Sprachmodell Gemini für eigene Anwendungen zu lizenzieren. Außerdem stellte Apple in einem Forschungspapier eine eigens entwickelte Sprachmodell-Familie vor, die künftig in iPhones und in Anwendungen wie Siri zum Einsatz kommen könnte.

Das Modell mit dem Namen MM1 ist deshalb so interessant, weil es nicht nur zeigt, dass Apple aktiv KI-Forschung betreibt, sondern auch aufgrund seiner vergleichsweise kleinen Größe und seines Aufbaus. Bei MM1 handelt es sich um ein sogenanntes multimodales Modell, das sowohl Textanfragen als auch visuelle Prompts versteht.

"Wettbewerbsfähige Leistung" trotz kleiner Größe

Das Paper zu MM1 beschäftigt sich größtenteils mit den Erkenntnissen, die die Forschenden bei der Entwicklung des Modells gewannen. Zum Beispiel, dass die Auflösung der für das Pre-Training verwendeten Bilder den größten Einfluss auf die spätere Performance hat. Oder dass es auf die richtige Zusammensetzung der Trainingsdaten ankommt. Für MM1 experimentiere Apple mit verschiedenen Mischungen aus Bild-Text-Paaren, gemischten Bild-Text-Daten (interleaved) und reinen Texten. Am Ende skalierte das Team das Modell auf drei, sieben und 30 Milliarden Parameter. Das 30B-Modell erziele "wettbewerbsfähige Leistungen in allen Kategorien" im Vergleich mit ähnlichen multimodalen Modellen, heißt es.

Mit einer Modellgröße 30 Milliarden Parametern wäre MM1 kleiner als die großen Sprachmodelle anderer führender Firmen: Metas LLaMA-2 kommt auf 70 Milliarden, das Luminous-Modell des deutschen Unternehmens Aleph Alpha soll auf 300 Milliarden erweitert werden, bei GPT4 geht man sogar schon von mehr als einer Billion Parameter aus. Trotzdem sehen unabhängige Beobachter in der kleinen Modellgröße von MM1 keinen Nachteil, im Gegenteil.

Bekommt Siri bald ein großes KI-Update?

Die Informatikerin Kate Saenko von der Boston University sagte im Gespräch mit dem Magazin Wired, dass die kleine Modellgröße den Ingenieuren von Apple erlaube, mit verschiedenen Trainingsmethoden und Verfeinerungen zu experimentieren, bevor sie das Modell schrittweise vergrößern. Es könne ein erster Schritt in Richtung eines multimodalen Assistenten sein, "der Fotos, Dokumente oder Diagramme beschreiben und Fragen dazu beantworten kann", sagt Saenko.

Im Hinblick auf Apples wichtigstes Produkt – das iPhone – kommt als ein solcher multimodaler Assistent natürlich das bestehende Siri infrage, das derzeit etwas überholt wirkt in Sachen Leistungsumfang. Auch andere Hersteller wie Google und Amazon planen, KI in Form von Sprachmodellen mit ihren virtuellen Assistenten zu kombinieren. Dass diese mittelfristig auch multimodal arbeiten, also auch Bilder direkt von der Smartphone-Kamera verarbeiten sollen, ist selbsterklärend.

Während die wirklich großen Sprachmodelle wie ChatGPT oder Bildgeneratoren wie Dall-E aufgrund ihrer Rechenleistung derzeit einen Zugriff auf die Cloud benötigen, könnten kleinere Sprachmodelle wie MM1 theoretisch auch direkt auf Geräten wie eben dem iPhone laufen. Für Apple hätte das zwei Vorteile: Zum einen könnte Apple dadurch einige Datenschutzfragen umgehen und sich weiterhin dem eigenen Anspruch widmen, möglichst viele Daten ausschließlich "on device" zu verarbeiten, sodass sie vor den Zugriffen Dritter geschützt sind. Zum anderen könnte Apple die Technologie vergleichsweise einfach den Hunderten Millionen seiner Nutzerinnen und Nutzer schmackhaft machen.

In der öffentlichen Debatte um die immer größer werdenden Sprachmodelle wird schnell vergessen, dass auch die "kleine" KI ein extrem wichtiges Feld ist und die Entwicklung effizienter Modelle immer wichtiger wird – was Apple womöglich erkannt hat. Zwar ist noch unklar, ob und wie das Unternehmen die Forschung von MM1 in seine Produkte bringen wird. Doch zumindest eine Frage lässt sich inzwischen etwas besser beantworten: Apple hat die künstliche Intelligenz nicht verschlafen. Und vielleicht nimmt Tim Cook in einigen Wochen auf der hauseigenen Entwicklerkonferenz WWDC ja tatsächlich die zwei Buchstaben in den Mund.