Computex

Mehr Power für die Smartphone-Generation 2020: ARM Cortex-A77 und Mali-G77

ARM verspricht mit Cortex-A77 bis zu 20 Prozent mehr CPU-Leistung pro Takt, die Mali-G77-GPU rechnet 40 Prozent schneller und ist dennoch sparsamer.

In Pocket speichern vorlesen Druckansicht 18 Kommentare lesen
Mehr Power für die Smartphone-Generation 2020: ARM Cortex-A77 und Mali-G77

(Bild: ARM)

Lesezeit: 6 Min.
Inhaltsverzeichnis

Pünktlich zur Computex 2019 hat ARM neue Chip-Designs für Smartphones und sparsame Notebooks vorgestellt. Der neue CPU-Kern Cortex-A77 löst nach bereits einem Jahr den Vorgänger als Speerspitze ab und soll nochmal 20 Prozent mehr Befehle pro Takt (IPC) abarbeiten können, trotz nur weniger Architekturunterschiede. Im Grafikbereich soll die neue Mali-G77-Lösung dank frischem Valhall-Design sogar 40 Prozent zulegen und das bei einem Drittel geringerem Energiebedarf.

Wie der Vorgänger ARM Cortex-A76 ist auch der Cortex-A77 als schneller Performance-Kern im big.LITTLE-Konzept vorgesehen. Er soll ausschließlich im 7-nm-Verfahren produziert werden, erst der Nachfolger (Codename Hercules) könnte auch im 5-nm-Verfahren gefertigt werden. ARM erwartet daher weiterhin Taktraten von rund 3 GHz bei den Partnerchips fürs Smartphone, wobei selbst die wohl erfahrungsgemäß nur kurzzeitig erreicht werden. In Notebooks und Tablets wären theoretisch sogar bis zu 3,3 GHz drin.

(Bild: ARM)

Da Gewinne aus Strukturverkleinerung und Taktsteigerung ausfallen und die Cache-Größen pro Kern ebenfalls identisch bleiben, muss sich die Leistungssteigerung aus anderen Faktoren speisen: So erhält die Sprungvorhersage doppelt so viele Daten pro Takt wie beim Vorgänger (64 Bytes), verfügt über einen größeren Puffer und soll zudem präziser geworden sein. Letzteres verhindert zeitintensive und damit Performance-fressende Fehlzugriffe auf den Cache, die nun mehr im Idealfall immerhin nur noch 10 Taktzyklen vergeuden sollen.

Ein Macro-op-Cache (Mop-Cache) als L0-Befehlspuffer soll weitere Leistung bringen und es dem Kern zudem ermöglichen, dynamisch Codeänderungen vorzunehmen um etwa die Befehlsreihenfolge zu optimieren. Der Cache enthält bereits verarbeitete und verkettete Befehle (Macro-Ops), die bei einem erneuten Auftreten schneller zur Verfügung stehen. Bis zu 1500 Einträge soll der Mop-Speicher im Cortex-A77 fassen. AMD und Intel etwa nutzen solche Puffer schon seit geraumer Zeit in ihren CPUs.

(Bild: ARM)

So wie schon Apple, Samsung und Qualcomm bei ihren angepassten Designs, setzt auch ARM selbst immer stärker auf parallele Verarbeitung von Befehlen. So schafft die Decoder-Stufe nun sechs statt vier Befehle gleichzeitig und der Re-Order-Buffer wächst von 128 auf 160 Einträge. Zusätzliche Ausführungseinheiten sollen die Bandbreite weiter erhöhen.

Die Fläche des Kerns hat bei allen Zusätzen um etwa 17 Prozent zugelegt. Das klingt nach viel, doch vom fertigen SoC nehmen die CPU-Kernen ohnehin nur einen geringen Teil ein. Zur Leistungsaufnahme nennt ARM keine Details, die Effizienz soll sich aber wohl auf dem Niveau des Vorgängers befinden. Was wohl auch bedeutet, dass für die maximale Performance etwas mehr Strom benötigt wird. So wird vermutlich der Trend weitergehen, dass nur ein oder zwei von meist vier Performance-Kernen mit dem höchsten Takt laufen dürfen.

Erste SoCs auf Basis von Cortex-A77 könnten noch dieses Jahr von Huawei vorgestellt werden und spätestens Anfang 2020 in den ersten Smartphones stecken. Allerdings bleibt abzuwarten, wie sehr die aktuellen Handelsbeschränkungen und der Abbruch der Beziehungen zwischen Huawei und ARM einen möglichen frischen Kirin behindern.

(Bild: ARM)

Im Gegensatz zum Vorjahr hängt ARM das Thema Notebook weit weniger hoch. Nachdem die Always-On-PCs weder bei den Verkaufszahlen noch der Performance recht überzeugen konnten, scheint das Thema Windows auf ARM nur noch auf Sparflamme zu köcheln. Stattdessen betont ARM lieber, dass es mit der neusten Generation überlegene Laptop-Performance in allen Größen anbietet, vom Smartphone bis hin zu Rechnern mit großen Bildschirmen.

Auch die brandneue Mali-G77-GPU von ARM wird wohl erstmals bei Huawei zu sehen sein. Hier hat ARM deutlich mehr verändert und eine komplett neue Architektur aufgelegt – statt Bifrost bildet nun Valhall die Grundlage. Die soll schon bei Grafikberechnungen bis zu 40 Prozent schneller als der Vorgänger Mali-G76 sein, bei Machine-Learning-Anwendungen sogar 60 Prozent.

(Bild: ARM)

Die Effizienz will ARM um ein Drittel gesteigert haben, ebenso die Performance pro Quadratmillimeter. Das ist insofern bemerkenswert, weil auch der Vorgänger schon für eine Fertigung im 7-nm-Verfahren ausgelegt ist, die Verbesserungen also alleine der neuen Architektur zu verdanken sind.

Jeder Grafikkern soll nun pro Takt 50 Prozent mehr Berechnungen ausführen können. Die Textur-Einheit hat ihren Durchsatz verdoppelt, kann damit doppelt so schnell anisotropisch filtern und schneller FP16- und FP32-Operation durchführen. Bis zu vier Texel pro Takt schafft ein neuer Kern. Bis zu 16 Shader-Kerne sieht ARM für die GPU vor, minimal sind es 7.

Durch Verkürzen der Pipeline im überarbeiteten Load-Store-Cache, bei gleichzeitig doppelt so breiter Anbindung zur TMU, wird die Latenz für bestimmte Berechnungen erheblich gesenkt. Gerade bei ML-Aufgaben soll das besonders viel Performance-Zugewinn bringen.

Spezielle NPU sind für KI-Berechnungen deutlich besser geeignet als breiter aufgestellte Prozessoren.

(Bild: ARM)

Die tauchen auch bei Smartphones immer häufiger auf und werden daher als Teil der Smartphone-SoCs immer wichtiger. Besonders bei der Fotonachbearbeitung und -optimierung sind solche Fähigkeiten gefragt. Dazu kommen AR- und VR-Anwendungen, Biometrie oder präzisere Stimmerkennung, die alle im Idealfall direkt auf dem Mobilgerät erledigt werden sollen.

Um CPU und GPU davon zu entlasten, hat ARM auch eine verbesserte NPU (Neural Processing Unit) vorgestellt. Der ML-Prozessor soll deutlich effizienter geworden sein und bis zu 5 Teraops (TOP) pro Watt und 32 Teraops pro Sekunde schaffen. Was dann auch bei Videos Echtzeit-Effekte wie eine künstliche Tiefenunschärfe erlauben soll. Selbst die aktuellen ARM-CPUs und -GPUs im Smartphone bewegen sich typischerweise unter beziehungsweise knapp über einem TOP/s und sind dafür zu lahm. (asp)