Wie gut ist die lokale KI auf Samsung S24 und Pixel 8 Pro?

KI in der Cloud ist ein alter Hut, doch nun laufen LLMs lokal auf Smartphones. Wir haben die KI-Funktionen von Samsung S24 Ultra und Google Pixel 8 ausprobiert.

9

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

YouTube-Video immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

07.06.2024, 17:50 Uhr

Lesezeit: 11 Min.

c't Magazin

Von

Jan-Keno Janssen

Google Pixel 8 Pro und Samsung S24 Ultra werden intensiv mit dem Schlagwort "KI" vermarktet. Ist das nur Buzzword-Bingo oder stecken da wirklich sinnvolle KI-Funktionen drin? c't 3003 hat's getestet.

Transkript des Videos

(Hinweis: Dieses Transkript ist für Menschen gedacht, die das Video oben nicht schauen können oder wollen. Der Text gibt nicht alle Informationen der Bildspur wieder.)

Guckt mal hier, das sind zwei waschechte KI-Phones. Also zumindest sagen das die Hersteller. Google und Samsung machen richtig Werbung damit, dass ihre aktuellen Top-Smartphones viele KI-Features haben.

Ich kann zum Beispiel hier einfach eine Person aus dem Foto ausschneiden oder hier eine Sprachmemo automatisch transkribieren und zusammenfassen lassen. Oder das Smartphone als Dolmetscher verwenden. Klar, vieles davon geht auch in einem Chatbot wie ChatGPT. Aber hier laufen etliche Funktionen lokal auf dem Smartphone! Und zwar bei beiden Geräten mit Googles-Kleinst-LLM Gemini Nano.

Also ich kann hier komplett ausstellen, dass die Daten ins Internet gesendet werden sollen. Das macht das Ganze nicht nur schneller, sondern ist natürlich auch Datenschutz-technisch nice. In diesem Video probier das jetzt mal auf den aktuellen Top-Modellen aus. Ob die KI-Features wirklich sinnvoll oder nur ein Werbegag sind: Bleibt dran!

Liebe Hackerinnen, liebe Internetsurfer, herzlich willkommen hier bei…

Also, wenn man sich einen Eindruck von KI auf aktuellen Smartphones machen möchte, dann würde man sich sehr wahrscheinlich diese zwei Geräte anschauen – und genau das haben wir gemacht: Das Google Pixel 8 Pro und das Samsung Galaxy S24 Ultra. Beide bieten beide sehr ähnliche KI-Funktionen an. Allerdings zeigt Samsung die alle ordentlich in einem extra Menü-Punkt. Während das Pixel gar keine Einträge zur KI im Menü hat. Da sind die KI-Tools quasi einfach so in die Software integriert und können nur da eingestellt werden. Ist bei Samsung ein bisschen besser gelöst und die haben auch 2-3 Funktionen mehr.

Und nochmal zu der Offline-Fähigkeit: Bei Samsung gibt es bei den KI-Funktionen extra einen Schalter, den man auf “Ohne Internet verwenden” stellen kann. Dann hat man zwar etwas weniger Features, aber man kann dann einfach den Flugzeugmodus einstellen. Bei Google ist das nicht ganz so transparent, da muss dann ausprobieren, welche Funktionen noch gehen, wenn man dem Smartphone das Internet wegnimmt. Also sowas wie Transkribieren und Zusammenfassen geht dank auf dem Gerät installierten Gemini Nano ohne Internet. Übrigens, für die LLM-Connaisseure unter euch: Gemini Nano ist NICHT das von Google als Open-Source-veröffentlichte kleine Sprachmodell Gemma. Nano gibt es leider nicht Open Source. [Hinweis: Das Pixel 8 Pro kann seit dem 6. Juni 2024 auch Gemini statt Google Assistant als Sprachassistenten verwenden; leider passierte das nach Redaktionsschluss für das Video.]

[Update, 8. Juni 2024, 9:57 Uhr]

Übrigens: Die erwähnten KI-Funktionen des Samsung S24 sind seit dem OneUI-6.1-Update auch nutzbar auf:

Serie Galaxy S23, also Galaxy S23, Galaxy S23+, Galaxy S23 Ultra
Galaxy S23 FE
Serie Galaxy S22
Galaxy Z Fold 5 und Galaxy Z Flip 5
Galaxy Z Fold 4 und Galaxy Z Flip 4
Serie Galaxy Tab S9 und Tab S8

Auf anderen Samsung-Geräten mit OneUI 6.1 sind die KI-Funktionen entweder nicht so umfangreich wie bei den oben genannten Geräten oder gar nicht vorhanden.

KI-Feature Nummer 1: Circle to Search

Die Möglichkeit auf dem Bildschirm einfach etwas einzukreisen und danach zu suchen ist die logische Weiterentwicklung der umgekehrten Google-Bilder-Suche. Da hab ich einfach ein Foto hochgeladen und dann sucht Google danach. Und jetzt kann ich eben hier lange die Home-Taste drücken und dann einen Bereich einkreisen. Dabei ist egal, ob ihr einen Gegenstand oder einen Text einkreist. Nur bei Personen weigert sich Google danach zu suchen. Und das ist auch gut so. Stellt euch mal vor, ihr könntet einfach durch ‘ne Fußgängerzone gehen, das Smartphone auf Personen halten und Google zeigt euch dann die Instagram-Profile an. Ziemlich gruselig. Circle to Search gibts auf dem S24 und auf Pixeln ab dem Pixel 6.

Bei anderen Telefonen (also andere Android und auch iPhones) da gibt es überall dieses Circle to Search noch nicht, also auch nicht in der Google-App. Aber wenn man die installiert hat, kann man da halt ganz normal Bilder hochladen und dann entweder nach dem ganzen Bildinhalt suchen oder ein Viereck auswählen. Die Ergebnisse sind fast identisch mit Circle to Search – ist halt ein bisschen weniger Flexibel, wenn man nur auf dem ganzen Bild suchen oder Kästen aufziehen kann.

KI-Feature Nummer 2: Sprachmemos

Das Pixel und das Galaxy können Sprachmemos nicht nur transkribieren, das geht ja schon seit einigen Jahren, sondern auch zusammenfassen. Und das halt alles offline, direkt auf dem Smartphone – also nachdem ihr die Sprachpakete heruntergeladen habt. Und die Transkription hat sogar eine Erkennung für mehrere Sprecher, also wenn ich ein Meeting oder Interview aufzeichne, superpraktisch, das kann die Quasi-Standard-Anwendung Whisper von OpenAI noch nicht.

Ja, und hier in der Zusammenfassung krieg ich nicht nur Stichpunkte angezeigt, sondern auch noch Schlagwörter also Hashtags. Damit kann man ältere Sprachmemos mit ähnlichen Inhalten schnell wieder finden. Das Pixel zeigt sogar die Transkription live an.

KI-Feature Nummer 3: Übersetzung mit KI

Klar, so reine Text-Übersetzer gibt es schon seit vielen, vielen Jahren. Google Translate zum Beispiel. Mit dem Aufkommen von KI sind die aber ein gutes Stück besser geworden. Also DeepL zum Beispiel übersetzt Texte ja wirklich richtig gut. Aber: War halt immer alles cloud-basiert.

Mit den direkt auf Smartphones laufenden LLMs kommt die Übersetzungsfunktion wirklich nativ im Betriebssystem an. Also ich kann hier bei Samsung einstellen, dass Telefonanrufe in den unterschiedlichen Sprachen per Knopfdruck in meine Sprache übersetzt werden. Sogar so, dass ich die Originalstimme gar mehr höre, sondern nur die Computerstimme mit der Übersetzung. Hier hört mal.

Klar, es gibt leichte Verzögerungen, vor allem, wenn ich die Originalstimme meiner Gesprächspartner stummschalte, aber das ist trotzdem schon recht beeindruckend. Und ich bin mir ziemlich sicher, dass das in den nächsten Jahren noch schneller wird. Und irgendwann dann wirklich simultan funktioniert. Also: Ich spreche und das Telefon überträgt gleichzeitig schon die Übersetzung. Dann baut man sich noch ne künstliche Version seiner Stimme (das können Smartphones ja heute schon rudimentär, siehe iPhone) und dann kann man in seiner Stimme alle Sprachen sprechen.

Achso: Klar, das funktioniert natürlich nicht nur beim Telefonieren, sondern auch über diese Oberfläche. Da kann man beim Sprechen einfach einen Knopf gedrückt halten und das Gegenüber bekommt nach kurzer Zeit eine Übersetzung vorgelesen. Das ist zum Beispiel im Urlaub super praktisch. Ich habe vor einigen Jahren in China viel mit Google Translate gemacht, aber da musste Audio und Text halt immer in die Cloud geschickt werden, was super viel Zeit gekostet hat – und halt in Umgebungen ohne Internet dann gar nicht mehr funktioniert. Deshalb: Super sinnvoll, dass das on-device zu machen.

KI-Feature Numme 4: Bilder und Videos

Das Smartphone als Kamera zu verwenden, ist ja eine absolute Grundfunktion. Aber die Kamera eines Smartphones ist halt prinzipbedingt meistens schlechter als auf einer richtigen Kamera, weil da ein kleinerer Sensor verbaut ist. Das früher halt mal so. Mittlerweile schafft es die KI in den Smartphones Bilder und Videos so zu optimieren, dass sie verdammt ähnlich zu einem professionellen Gerät aussehen. Ich mein, klar, die Kamera-Hardware ist auch besser geworden, aber durch KI bzw. früher hat man dazu einfach Algorithmen gesagt, ist die Qualität in den letzten Jahren schon deutlich besser geworden. Zum Beispiel Videos, die durch Video Boost in der Cloud optimiert werden. Hier einmal ein Video ohne und mit aktiviertem Video-Boost. Und auch beim Ton macht KI die Videos besser. Hintergrundgeräusche können automatisch entfernt werden. Also zum Beispiel Wind.

Smartphones können aber auch mit generativer KI ziemlich viel mit Bildern machen. Also zum Beispiel hier auf dem Galaxy einfach das Bild gerade drehen und die neuen Bereiche mit KI generieren. Oder hier auf dem Google Pixel Objekte verschieben, die Farben des Himmels ändern, Wolken hinzufügen. Magic Editor heißt das bei Google. Übrigens gibt es "Magic Eraser", also wo man kontextsensitiv Sachen wegradieren kann auch auf anderen Android-Geräten, aber der Magic Editor ist Pixel-exklusiv. Und generell geht sowas natürlich auch alles mit Photoshop. Aber hier super schnell direkt auf dem Handy funktionieren.

Die Funktion, die mir schon bei der Präsentation vom Pixel 8 Pro am meisten gefallen hat, ist Best Take. Damit kann man aus mehreren Gruppenfotos eines machen, auf dem dann alle in die Kamera schauen und lächeln. Klar, da stellt sich die Frage “Was ist eigentlich ein Foto”. Aber ganz ehrlich, ich hab lieber ein etwas mit KI bearbeitetes Bild, als ein authentisches, auf dem die Hälfte nicht in die Kamera schaut. Ist ja vor allem mit Kindern oder älteren Menschen schwer, da alle gleichzeitig gut aufs Bild zu bekommen.

Man kann hier jetzt eine Grundsatzdiskussion führen, was ein Foto ist und was nicht – aber ich finde: Solange das alles optional und transparent erkennbar ist, wo jetzt generative KI drinsteckt und wo nicht, ist das ok. Oder wie seht ihr das? Gerne in die Kommentare schreiben.

Mein Fazit

Einige von den KI-Funktionen sind im Alltag wirklich sehr sinnvoll. Also Sprachmemos zum Beispiel, weil ich die nicht nochmal anhören muss, sondern direkt ‘ne Zusammenfassung bekomme. Und es fühlt sich auch gut an, dass ich das ganze Zeug nicht in die Cloud schicke, sondern das offline auf meinem Gerät passiert. Ich benutze zurzeit ein iPhone – und ich muss sagen, dass ich die Funktion sehr gerne hier auch hätte.

Am beeindruckendsten finde ich die KI-Funktionen im Foto und Video-Bereich. Das sind Dinge, gerade was die Nachbearbeitung von Fotos und Videos angeht, für die man früher einen leistungsstarken PC und viel Zeit gebraucht hat. Jetzt geht das alles entweder automatisch oder mit wenigen Knopfdrücken direkt auf dem Smartphone. Wie ist das bei euch? Habt ihr ein Android-Handy, auf dem lokal KI läuft und benutzt ihr das? Oder benutzt ihr ein iPhone und freut euch schon auf das nächste KI-Update. Schreibts gerne in die Kommentare und klar auch gerne abonnieren. Tschüss!

c't 3003 ist der YouTube-Channel von c't. Die Videos auf c’t 3003 sind eigenständige Inhalte und unabhängig von den Artikeln im c’t Magazin. Die Redakteure Jan-Keno Janssen und Lukas Rumpler sowie die Video-Producer Şahin Erengil und Pascal Schewe veröffentlichen jede Woche ein Video.