Microsoft stellt mit Windows Copilot Runtime die Weichen für KI-PCs und -Apps

Microsoft läutet die Ära der KI-PCs ein – mit der Windows Copilot Runtime, lokalen ML-Modellen und neuen APIs für Developer.

3

(Bild: Bild erstellt mit KI in Bing Designer durch heise online / dmk)

24.05.2024, 15:57 Uhr

Lesezeit: 4 Min.

Developer

Von

Matthias Parbel

Mit dem Eintritt in "die Zeit der KI-Transformation" stehe Microsoft erneut an einem grundlegenden Wendepunkt, wie CEO Satya Nadella zum Auftakt der Entwicklerkonferenz Build 2024 unterstrich. Um eine neue Generation von KI-Anwendungen aber auch für jedermann überall verfügbar machen zu können, brauche es nicht nur neue Plattformen wie die angekündigten KI-PCs, sondern Entwicklerinnen und Entwicklern müssten auch geeignete Werkzeuge und Hilfsmittel zur Verfügung stehen, um solche Applikationen zu bauen. Die Voraussetzungen dafür will Microsoft nun auf Basis der Windows Copilot Runtime unter anderem mit der Windows Copilot Library sowie neuen Small Language Models (SLMs) aus der Phi-Serie schaffen – darunter Phi Silica.

Windows Copilot Runtime als Plattform für offene KI-Entwicklung

Die neue Windows Copilot Runtime soll das Fundament bilden, auf dem sich Windows als die "offenste Plattform für KI-Entwicklung" etabliert, wie Microsoft in seinem Developer-Blog ganz unbescheiden ankündigt. Dazu setzt die Copilot Runtime einerseits auf neuer Hardware für die Copilot+-PCs mit Neural Processing Units (NPUs) auf, darunter beispielsweise Qualcomms Snapdragon-X-Serie mit ARM-Architektur. Passend dazu gibt es etwa das Snapdragon Dev Kit for Windows. Über die integrierte Windows Copilot Library stehen Entwicklerinnen und Entwicklern eine Reihe von APIs offen. Sie sollen den Zugriff auf die mit Windows ausgelieferten KI-Modelle – Microsoft spricht von mehr als 40 Modellen – ermöglichen, die sich unmittelbar lokal auf dem Rechner nutzen lassen.

Die über das Windows App SDK zugänglichen APIs decken derzeit Funktionsbereiche wie die neuen Studio Effects, Live-Übersetzungen, Texterkennung sowie die Suchfunktion Recall ab. Weitere APIs für Vector Embeddings, Retrieval Augmented Generation (RAG) und Textzusammenfassungen sollen zu einem späteren Zeitpunkt folgen. Ab Juni soll aber das neue SLM Phi Silica bereitstehen, wenn voraussichtlich die ersten Copilot+-PCs damit in den Verkauf gehen. Das 3,3-Milliarden-Parameter-SLM aus der Phi-3-Serie ist speziell auf die NPUs in den KI-PCs ausgelegt. Phi Silica soll die Ausführung des KI-Algorithmus komplett lokal auf die NPU verlagern und sowohl CPU als auch GPU der neuen Systeme entlasten. Microsoft spricht von einer anfänglichen Token-Latenz von 650 Token pro Sekunde – bei einem Leistungsbedarf von nur rund 1,5 Watt.

Lesen Sie auch

Satya Nadella präsentiert zahlreiche Neuheiten.

Microsoft Build 2024: Es ist Zeit für die KI-Transformation

Microsoft veröffentlicht KI-Erweiterung AI Toolkit für Visual Studio Code

Windows für Entwickler: Git und mehr jetzt im Datei-Explorer überwachen

DirectML für mehr KI-Vielfalt unter Windows

Über die genannten KI-Modelle von Microsoft hinaus, erhalten Entwicklerinnen und Entwickler aber auch neue Möglichkeiten, auf Basis der einheitlichen Windows-API DirectML bestehende sowie eigene Modelle in KI-Applikationen einzubringen. Als Abstraktionsschicht erlaubt DirectML den Einsatz von KI-Modellen auf unterschiedlichen GPUs und NPUs (CPUs sollen folgen) und lässt sich mit gängigen ML-Frameworks wie PyTorch, ONNX Runtime und WebNN nutzen. Für PyTorch hat Microsoft nun sogar nativen Support unter Windows bekannt gegeben – zumindest auf GPUs. Für NPUs will das Unternehmen ihn baldmöglichst nachliefern. Die zahlreichen auf Hugging Face zugänglichen KI-Modelle lassen sich damit aber schon heute auch unter Windows verwenden.

Schematischer Aufbau der Low-Level-API DirectML.

(Bild: Microsoft)

Im Hinblick auf den KI-Einsatz in Web-Applikationen können Entwicklerinnen und Entwickler ab sofort auf eine Developer-Preview von WebNN zurückgreifen. Das World Wide Web Consortium (W3C) kümmert sich derzeit um die Spezifizierung der Web Neural Network API (WebNN). In Verbindung mit DirectML und der ONNX Runtime Web soll sie das Ausführen von ML-Modellen im Browser beschleunigen. Dafür lassen sich derzeit bereits GPUs nutzen, Support für NPUs will Microsoft aber nachreichen.

(map)

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}