KI-Papier von Apple: So könnte Siri endlich Kontext verstehen
Ein neues Forschungspapier von Apple macht Hoffnung für Siri. Mit einer KI-gestützten Kontexterkennung könnte Apple einen Kritikpunkt aus der Welt schaffen.
Apple-Interessierte und die Fachwelt warten gespannt darauf, wie und in welchem Umfang Tim Cook sein großes KI-Versprechen auf der Entwicklerkonferenz WWDC Anfang Juni einlöst. Ein neues Papier aus der Forschungsabteilung Apples gibt jetzt weitere Hinweise darauf, in welche Richtung die Bemühungen des iPhone-Herstellers gehen. Unter dem Titel "ReALM: Reference Resolution As Language Modeling" haben die Apple-Mitarbeiter eine KI entwickelt, die Nutzereingaben verstehen soll, die sich auf die aktuelle Bildschirmanzeige beziehen, aber etwa auch auf laufende Unterhaltungen.
In einem der dargelegten Beispielszenarien wird das Gerät per Sprachassistent aufgefordert, eine Liste von Apotheken aufzuzeigen. Im nächsten Schritt kann der Nutzer per Spracheingabe unter Andeutung der Position auf dem Bildschirm dann einfach einen Anruf tätigen, indem er "Rufe die in der XY-Straße an" sagt, sich auf die unterste auf dem Bildschirm bezieht oder einfach nur sagt "Rufe diese Nummer an", wenn nur eine auf dem Bildschirm angezeigt wird. Je nach Komplexität der angezeigten Informationen habe das mit einer nahezu vollständigen Genauigkeit funktioniert.
Apple setzt offenbar auf On-Device-KI
Fehlende Referenzauflösung ist seit Jahren ein großer Kritikpunkt an heutigen Sprachassistenten. Nutzer müssen bei jeder Eingabe sehr genau sagen, was sie sich vom Computer wünschen oder vorher schon Gesagtes wiederholen. Wenn der Assistent hingegen Referenzen verstehen könnte, wäre eine natürlichere Ansprache möglich, wie sie auch in der Kommunikation zwischen zwei Menschen üblich ist.
Die Tests von ReALM im Vergleich zu GPT-3.5 und GPT-4 seien zum Ergebnis gekommen, dass Apples Ansatz im Vergleich zu GPT-3.5 deutlich akkurater war bzw. gemessen an GPT-4 weniger Rechenleistung erforderte. Die größeren Modelle mit mehr Parametern hätten sogar GPT-4 deutlich übertroffen. In dem 15-seitigen Papier wird überdies angedeutet, dass Apples Ansatz auf ein kleineres, auf eine bestimmte Aufgabe fokussiertes Large-Language-Model abzielt, das direkt auf dem Smartphone betrieben werden kann. Dies könne aus Gründen des Datenschutzes und der Effizienz geschehen, heißt es, ohne explizit das iPhone anzusprechen. Der Verzicht auf Kommunikation mit der Cloud würde zudem die Latenzzeiten reduzieren.
Bei komplexeren Aufgaben überfordert
Die bisherige Erforschung habe allerdings auch die Grenzen aufgezeigt. So sei für komplexe Benutzeranfragen ein noch nuancierteres Positionsverständnis notwendig. "Wir sind der Meinung, dass die Erforschung komplexerer Ansätze, wie die Aufteilung des Bildschirms in ein Raster und die Kodierung dieser relativen räumlichen Positionen in Text, zwar eine Herausforderung darstellt, aber ein vielversprechender Weg für zukünftige Untersuchungen ist", heißt es in dem Papier.
Wie intensiv Apple an KI-Projekten arbeitet, zeigte sich in den vergangenen Monaten an diversen Veröffentlichungen. So wurde etwa bekannt, dass ein Modell namens MM1 entwickelt wurde. Zuvor gab es ein Papier über das bei Apple entwickelte KI-gestützte Animationswerkzeug Keyframer. In einem ersten Schritt plane Apple aber angeblich, auf die KI Gemini von Google zurückzugreifen. Dies könnte bei iOS 18 der Fall sein, das voraussichtlich im Juni auf der WWDC vorgestellt wird.
(mki)