Große KI-Modelle auf mobilen Geräten ausführen mit ExecuTorch
ExecuTorch führt lokale Inferenz mit KI-Modellen auf mobilen Endgeräten und Edge-Devices aus. Über Tools und Bibliotheken nutzt es spezielle Gerätefunktionen.
- Jürgen Schuck
Lokale Inferenz auf mobilen Endgeräten und Edge-Devices mit guter Ergebnisqualität und akzeptablen Antwortzeiten erfordert die performante Ausführung großer Modelle auf dem Gerät. Der erste Teil des Tutorials stellte das Design und die Architektur von ExecuTorch vor. Praktische Beispiele zeigten darin lokale Inferenz unter Linux (oder macOS) sowie auf Smartphones unter Android und iOS.
Der zweite Teil des Tutorials erklärt, wie man ein gängiges Modell zur Ausführung auf einem Smartphone vorbereitet und dabei die Modellgröße komprimiert, ohne die Qualität merklich zu reduzieren. Er zeigt außerdem beispielhaft den Gebrauch der Entwicklungswerkzeuge von ExecuTorch zum Profiling und Debugging. Am Ende steht eine App, die einen interaktiven Dialog mit einem bekannten Modell auf einem iPhone ermöglicht und dazu Apples spezifische APIs und Frameworks zur effektiven Gerätenutzung einbindet.
- Quantisierung reduziert die Speicher- und Rechenanforderungen von Modellen ohne signifikante Qualitätseinbußen für mobile Endgeräte mit geringen Ressourcen.
- Backends integrieren gerätespezifische Frameworks für die optimale Verwendung der Hardware mobiler Endgeräte und gewährleisten dadurch, dass die Modelle effizient ausgeführt werden.
- Ein Profilingtool gibt Einblick in das Laufzeitverhalten und unterstützt das Debugging von Modellen.
- Das Beispiel einer Chatanwendung unter iOS zeigt, wie man ExecuTorch anwendet.
Reale Anwendungsfälle benötigen trainierte Modelle, wie es sie beispielsweise auf Hugging Face gibt. Das Portal bietet viele namhafte Open-Source- und proprietäre Modelle zum Download. Zu den bekannten Modellen gehört Llama von Meta, das es in unterschiedlichen Größen gibt. Llama ist ein Large Language Model. Es gehört zur Kategorie der generativen künstlichen Intelligenz und kann Texte erstellen, fortschreiben oder zusammenfassen. Llama verwendet eine Architekturvariante, die auch dem Modell GPT von OpenAI zugrunde liegt. Die konzeptionelle Basis für diese Transformer veröffentlichte Google 2017 unter dem Titel "Attention is all You Need".
Das war die Leseprobe unseres heise-Plus-Artikels "Große KI-Modelle auf mobilen Geräten ausführen mit ExecuTorch". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.