Formel M1: Warum der Apple-Chip so schnell ist

Vor allem eine clevere Cache-Hierarchie verhilft Apples ARM-Chips zu einer Leistung, die AMD und Intel bei kompakten Geräten bisher nicht erreichen.

In Pocket speichern vorlesen Druckansicht 55 Kommentare lesen

(Bild: Quality Stock Arts, stock.adobe.com; Apple; Bearbeitung: Mac & i)

Lesezeit: 16 Min.
Von
  • Nico Ernst
Inhaltsverzeichnis

Seit November 2020 werden MacBook Air, MacBook Pro und Mac mini mit Apples selbst entwickeltem M1-Chip ausgeliefert. Aber warum fällt die Performance so viel höher aus als bei den jeweiligen Vorgängern mit Intel-Prozessoren? Die bei Apple übliche Antwort lautet natürlich: Durch die perfekte Abstimmung von Hard- und Software. Erstmals hat das Unternehmen bis auf ein paar Schnittstellenbausteine das komplette System in eigener Hand. Aber damit ein optimiertes macOS auch fix arbeiten kann, muss die Hardware, auf der es läuft, ebenfalls entsprechend leistungsfähig sein.

Die besteht im Falle des M1 aus einem System-on-Chip (SoC), also einem nahezu vollständigen Computer auf nur einem Baustein. Möglich wurde das, weil Apple seit 30 Jahren konsequent darauf hingearbeitet hat: Tatsächlich war das Unternehmen 1990 einer der ersten Investoren bei Advanced RISC Machines Ltd, und setzte deren ARM-Architektur – auf welcher der M1 basiert – später bei Newton, iPod und allen weiteren Handhelds ein.

Die ARM-Revolution – jetzt auch auf dem Desktop und im Server

Zum großen Erfolg entwickelte sich ARM für Apple erst mit dem iPhone 2007. 2012 vollzog man den logisch nächsten Schritt: Als eines der wenigen Unternehmen erwarb Apple eine Architekturlizenz und darf seitdem auch Änderungen an den Rechenwerken und der Gesamtstruktur der Prozessoren vornehmen. Vor allem Letzteres ist nun mit dem M1 passiert, denn das Cache-System geht über das hinaus, was andere mobile ARM-Chips bieten.

kurz & knapp
  • Das Zusammenspiel von Performance- und Efficiency-Kernen sorgt für hohe Leistung und geringen Energieverbrauch.
  • Das Cache-System des M1 geht über andere Apple-SoC und x86-Prozessoren weit hinaus.
  • Fabric-Verbund und System Level Cache harmonieren mit Unified Memory in Speicherchips auf dem Prozessorträger und Flash-Bausteinen ohne PCIe.

Schon von außen ist der M1 anders als die meisten aktuellen SoCs für Notebooks, es handelt sich um ein System-in-Package (SiP). Der Chip selbst sitzt auf einem Substrat, und auf diesem befinden sich zwei herkömmliche Speicherchips in ihrem eigenen Package. Das ist sehr kompakt, aber absolut nicht erweiterbar und auch etwas aufwendiger zu kühlen als bei externem RAM. SiPs sind seit über 20 Jahren unter anderem bei Grafikkarten immer mal wieder in Mode, Apple traut sich nun aber, auch bei seinen Geräten die Erweiterbarkeit für Vorteile bei der Leistung durch kurze Leiterbahnen und kompakte Bauformen zu opfern.

Die sieht übrigens so aus, als gäbe es nur einen halben Heatspreader; die Lösung erweist sich aber als durchdacht: Das M1-Die sitzt links auf dem Package und ist vollständig vom Heatspreader bedeckt. Die beiden weniger heiß werdenden RAM-Chips von Hynix sind direkt mit dem Kühlkörper verbunden. Ein vollflächiger Heatspreader, der auch das RAM bedeckt, hätte für dieses eine weitere Schicht erfordert, was die Kühlung verschlechtern würde.

Wie schon bei den letzten SoCs der A-Reihe gibt es auch im M1 zwei Klassen von ARM-Kernen: Die besonders schnellen namens Firestorm mit bis zu 3,2 GHz Taktfrequenz und besonders sparsame namens Icestorm mit bis zu 2,1 GHz. Intern nennt Apple das auch P- und E-Cores für Performance und Efficiency. Gegenüber dem A14 Bionic aus dem iPhone 12 sind das doppelt so viele Firestorms (4 statt 2) und ein leicht von 3 GHz aus gesteigerter Takt. Über die genaue Ausgestaltung der Rechenwerke schweigt sich Apple aus.

Weil iOS-Apps binärkompatibel sind, lässt sich vermuten, dass der volle 64-Bit-Befehlssatz von ARMv8-A aktiv ist. Alle Cores können gemeinsam arbeiten, beim M1 handelt es sich also um einen mobilen 8-Kern-Prozessor. Mit einer gesamten Leistungsaufnahme der Rechenkerne von rund 20 Watt gibt es das in der x86-Welt bisher nur beim AMD Ryzen 7 4000U. Welcher Kern welche Aufgaben übernimmt, entscheidet übrigens macOS. Bisherige Experimente von Entwicklern zeigen, dass die Lastverteilung von Hand wohl gar nicht oder nur sehr umständlich möglich ist.

Der M1 ist ein System-in-Package, bei dem das fast quadratische Die des SoC nur links von einem Heatspreader bedeckt wird. Rechts die beiden LPDDR4-Speicherchips.

Recht groß sind die schnellsten Zwischenspeicher, die dedizierten L1-Caches pro Core. Firestorm kommt auf 192 KByte für Befehle und 128 KByte für Daten, Icestorm noch auf 128 und 64 KByte. Die L2-Caches dagegen fallen für ein Mobil-SoC geradezu riesig aus: 12 MByte besitzen die Firestorms, 4 die Icestorms. Dazu kommt noch ein System Level Cache (SLC) von offenbar 16 MByte, auf den wir gleich noch näher eingehen. Wenn man ihn als L3-Cache betrachtet, gibt es für die Kerne im M1 zusammen mit den L2-Speichern ganze 32 MByte Cache. Intel kann da nur bei Serverprozessoren mithalten, lediglich AMD baut in die Desktop-Prozessoren Ryzen 5000 mit 64 MByte noch mehr Cache ein.

Bei all dem fallen die Laufzeiten hervorragend aus: Bei leichter Last läuft das MacBook Air über 21 Stunden und beim Videoabspielen bringt es das MacBook Pro auf 13 Stunden. Der Pro-Vorgänger mit Intel-CPU schafft hier nur 7,5 Stunden bei gleich hell eingestelltem Display. Dahinter steckt kein Geheimnis, sondern schlicht die Grundeigenschaft von ARM-CPUs- und Handheld-GPUs: Sie brauchen beim Nichtstun nahezu keinerlei Energie. Seitenblick aufs iPhone: Wenn es nicht genutzt wird und keine sich selbst updatenden Apps laufen, kann es tagelang durchhalten. Ein Intel-Notebook schafft das mit einem vergleichsweise dicken Akku nicht einmal im Energiesparmodus (ACPI S3), aus dem es erst einige Sekunden aufwachen muss.

Wenn, um im Beispiel zu bleiben, auch nur 50 mal pro Sekunde ein Bild dekodiert und in den Framebuffer transportiert werden muss, können sich die Cores milliardenfach schlafen legen. Den Großteil der Arbeit erledigen dabei die Videoeinheiten des SoC, bei deren Betrieb die acht Cores sich weitgehend abschalten können. Hier hat Apple durch iPhone und iPad große Erfahrung.

Zudem kann macOS bei solch einfachen Aufgaben darauf achten, nur die sparsamen Icestorm-Kerne zu verwenden. Das klappt bei Intel zwar auch mit dem Core i5-L16G7 alias Lakefield, hier gibt es aber nur einen schnellen Sunny-Cove-Kern und vier einzeln sehr langsame Atom-Cores, nicht 4+4 Cores wie beim M1. Zudem ist dieser Chip erst seit Mitte 2020 lieferbar, da war Apples M1 längst fertig. Intel hätte diese Idee schon Jahre früher energisch verfolgen und zudem seine 10-Nanometer-Fertigung in den Griff bekommen müssen – darauf basieren die Lakefields – um Apple zum Bleiben zu überzeugen.