Arm Cortex-A77 - genau was du wissen musst

Autor: Randy Alexander
Erstelldatum: 2 April 2021
Aktualisierungsdatum: 1 Juli 2024
Anonim
Arm Cortex-A77 - genau was du wissen musst - Technologien
Arm Cortex-A77 - genau was du wissen musst - Technologien

Inhalt


Zusammen mit dem neuen Grafikprozessor Mali-G77 und dem Display-Prozessor Mali-D77 hat Arm das neueste Hochleistungs-CPU-Design vorgestellt, den Cortex-A77. Wie der letztjährige Cortex-A76 ist der Cortex-A77 für Premium-Tier-Anwendungen konzipiert, die den für Arm typischen niedrigen Stromverbrauch erfordern. Alles von Smartphones bis hin zu Laptops und höchstwahrscheinlich darüber hinaus.

Mit dem Cortex-A77 hat Arm die maximale Steigerung der IPC-Leistung (IPC = Instruction Per Cycle / Clock) im Vergleich zum Cortex-A76 zum Ziel. Taktfrequenzen, Stromverbrauch und Fläche sind alle so ausgelegt, dass sie ungefähr im selben Ballpark bleiben, aber der neue Kern kann durch mehr Anweisungen auf einmal zermahlen. Zu diesem Zweck hat Arm einen noch breiteren Kern als im letzten Jahr entwickelt und eine Reihe von Verbesserungen vorgenommen, um den CPU-Kern mit den zu erledigenden Aufgaben zu versorgen. Aber bevor wir uns damit befassen, wollen wir uns mit der allgemeinen Übersicht und den Leistungszahlen befassen.


Leistungsziele erreichen

Bereits im August 2018 teilte Arm auf ungewöhnliche Weise eine CPU-Roadmap bis 2020 mit. Vom Cortex-A73 2016 bis zum Hercules-Design 2020 verspricht das Unternehmen eine 2,5-fache Steigerung der Rechenleistung. Ein gutes Stück dieser riesigen Projektion wurde mit der großen Verschiebung der Mikroarchitektur mit der Cortex-A76, höheren modernen Taktraten und dem Wechsel von 16 auf 10 und jetzt 7-nm-Fertigung mit 5-nm-Folge erzielt. Etwa das 1,8-fache der Zuwächse der Roadmap wurde bereits im letzten Jahr erzielt, und der Cortex-A77 bietet einen weiteren IPC-Schub von rund 20 Prozent. Damit sind wir auf dem besten Weg zum 2,5-fachen Ziel von Arm, obwohl mobile Geräte mit begrenztem Strom- und Wärmebudget nicht mit all diesen Gewinnen rechnen.

Zum Vergleich: Der Cortex-A76 erzielte im vergangenen Jahr eine Steigerung von 30 bis 35 Prozent gegenüber dem Cortex-A75. In diesem Jahr erwarten wir einen gedämpften, aber immer noch signifikanten IPC-Gewinn von 20 Prozent zwischen dem A77 und dem A76. Dies ist eine gute Nachricht, da es mehr Leistung bedeutet, während ähnliche thermische und Leistungsbeschränkungen wie zuvor eingehalten werden. Der Nachteil ist, dass der A77 etwa 17 Prozent größer als der A76 ist und daher etwas mehr Siliziumfläche kostet. Wenn Sie einen Vergleich mit den führenden Desktop-Anbietern anstellen möchten, hat AMD einen IPC-Boost von 15 Prozent zwischen Zen2 und Zen + erzielt, während der IPC von Intel jahrelang praktisch statisch geblieben ist.Natürlich sprechen wir hier über verschiedene Marktsegmente, aber dies zeigt, wie das CPU-Designteam von Arm in den letzten Generationen beeindruckende Zuwächse erzielt hat.


Für Cortex-A77-basierte SoCs der nächsten Generation wird eine Leistungssteigerung von 20% geboten

Das Wichtigste dabei ist, dass der A76 eine bedeutende Verschiebung der Mikroarchitektur mit enormen Leistungssteigerungen darstellt, während wir mit dem A77 wieder Verbesserungen auf dem Optimierungsniveau erzielen. Machen Sie sich mit den Neuerungen des Arm Cortex-A77 vertraut.

Cortex-A77 baut auf der A76-Mikroarchitektur auf

Der Schlüssel zum Verständnis des Unterschieds zwischen Cortex-A77 und A76 besteht darin, zu verstehen, was unter einem „breiteren“ Kerndesign zu verstehen ist. Im Wesentlichen geht es um die Fähigkeit, mehr Befehle für jeden Taktzyklus auszuführen, wodurch der Durchsatz des Kerns erhöht wird. Um dies in Ordnung zu bringen, sind zwei wichtige Punkte zu beachten: Die Anzahl der Ausführungseinheiten für die Verarbeitung zu erhöhen und sicherzustellen, dass diese Einheiten stets mit Daten versorgt werden. Beginnen wir mit dem letzten Teil und konzentrieren uns auf die Bereiche Dispatch, Cache und Branch Predictor des SoC.

Beim Cortex-A77 wird die Versandbreite um 50 Prozent gesteigert, beim A76 um bis zu sechs Befehle pro Zyklus. Dies bedeutet, dass für jeden Taktzyklus mehr Anweisungen zum Ausführungskern geleitet werden, um das Leistungspotenzial zu erhöhen. Infolgedessen ist auch das Ausführungsfenster außerhalb der Reihenfolge größer und erhöht sich auf 160 Einträge, um mehr Parallelität zu erzielen. Es gibt einen vertrauten 64-KByte-Befehls-Cache, während der Verzweigungszielpuffer (Branch Target Buffer, BTB), der Adressen für die Verzweigungsvorhersage enthält, 33 Prozent größer ist als zuvor, um das Wachstum bei parallelen Befehlen zu bewältigen. Hier ist nichts Ungewöhnliches, es handelt sich im Wesentlichen um eine umfassendere Version des letztjährigen Designs.

Die faszinierendere Neuerung im Front-End ist der brandneue 1,5-KByte-MOP-Cache, in dem von der Decodiereinheit zurückgesendete Makro-Ops (MOPs) gespeichert werden. Die CPU-Architektur von Arm dekodiert Anweisungen aus einer Benutzeranwendung in kleinere Makrooperationen und dann weiter in Mikrooperationen, die der Ausführungskern versteht. Sie können dies in der obigen Abbildung im Dekodierungsabschnitt sehen. Der MOP-Cache wird verwendet, um die Kosten für verpasste Verzweigungen und Löschvorgänge zu reduzieren, da Sie die Makrooperationen behalten, anstatt sie erneut zu decodieren, und um den Gesamtdurchsatz des Kerns zu erhöhen. Abrufe von der MOP anstelle des i-Cache umgehen die Dekodierungsstufe und sparen einen Zyklus. Laut Arm kann der MOP-Cache eine Trefferquote von 85 Prozent oder mehr für eine Reihe von Workloads erreichen, was ihn zu einer sehr nützlichen Ergänzung des Standard-i-Cache macht.

Beachten Sie beim Übergang zum Ausführungskern der CPU das Hinzufügen einer vierten ALU und einer zweiten Verzweigungseinheit. Diese vierte ALU erhöht die allgemeine Bandbreite des Prozessors um 50 Prozent. Diese zusätzliche ALU ist in der Lage, grundlegende Ein-Zyklus-Befehle (wie ADD und SUB) plus Ganzzahloperationen mit zwei Zyklen, wie eine Multiplikation, auszuführen. Zwei der anderen ALUs können nur grundlegende Ein-Zyklus-Befehle verarbeiten, während die letzte Einheit mit fortgeschritteneren mathematischen Operationen wie Division, Multiplizieren-Akkumulieren usw. beladen ist. Die zweite Verzweigungseinheit innerhalb des Ausführungskerns verdoppelt die Anzahl der gleichzeitigen Verzweigungssprünge core kann umgehen, was in Fällen nützlich ist, in denen zwei der sechs gesendeten Anweisungen Verzweigungssprünge sind. Das klingt etwas seltsam, aber interne Tests bei Arm haben ergeben, dass die Verwendung dieses zweiten Geräts die Leistung verbessert.

Der Cortex-A77 bietet eine verbesserte Parallelität und eine neue Sicht auf Pre-Fetch-Caches

Zu den weiteren Verbesserungen am CPU-Kern gehört die Hinzufügung einer zweiten AES-Verschlüsselungs-Pipeline. Die Datenspeicher-Pipelines verfügen jetzt über dedizierte Ausgabeports, um die Speicherausgabebandbreite zu verdoppeln. Diese Ports wurden zuvor mit den ALUs geteilt, was manchmal zu einem Engpass werden konnte. Es gibt auch einen Datenverbesserer der nächsten Generation, um die Energieeffizienz zu verbessern und gleichzeitig die Bandbreite für den System-DRAM zu erhöhen.

Ein Teil dieses Systems im Cortex-A77 verfügt auch über ein brandneues "systemorientiertes" Prefetch-System. Dies verbessert die Speicherleistung basierend auf dem breiten Spektrum an CPU-Kernzahlen, Cache-Kapazitäten und -Latenzen sowie Speichersubsystemkonfigurationen in Endgeräten. Die dedizierte Hardware für die Kommunikation mit der Dynamic Scheduling Unit (DSU) als Teil eines DynamIQ-CPU-Clusters, der die Verwendung des gemeinsam genutzten L3-Caches überwacht. Der Core bietet dynamische Distanz und Aggressivität, um die Cache-Auslastung in Situationen zu reduzieren, in denen die L3-Bandbreite durch andere CPU-Cores begrenzt ist. Kerne mit höherer Leistung wie der Cortex-A77 können den DSU-Zugriff auf den Speicher mit größerer Wahrscheinlichkeit auslasten, Kerne mit geringerer Leistung wie der A55 dagegen eher nicht.

Alles zusammenpassen

Es gibt viele kleine Änderungen am Cortex-A77, die zu erheblichen Unterschieden zum Vorgänger führen. Kurz gesagt, der neue MOP-Cache des A77 in Kombination mit einem breiteren und längeren Anweisungsfenster hilft, die optimierten ALU-, Branch- und Speichereinheiten mit den zu erledigenden Aufgaben zu beschäftigen. Das leistungsstarke Cortex-A76-Design wurde erweitert, um den Durchsatz beim A77 weiter zu verbessern, ohne auf höhere Taktraten angewiesen zu sein.

Die größten Leistungssteigerungen für den Cortex-A77 kommen in Form einer Ganzzahl- und Gleitkomma-Mathematik an. Dies wird durch die internen Benchmarks von Arm bestätigt, die eine Leistungssteigerung von 20 bis 35 Prozent bei SPEC Integer- und Floating Point-Benchmarks aufweisen. Die Speicherbandbreitenverbesserungen liegen zwischen 15 und 20 Prozent. Dies unterstreicht erneut, dass die größten Zuwächse in der Zahlenverarbeitung liegen. Insgesamt bedeutet dies eine Steigerung des A77 um durchschnittlich 20 Prozent gegenüber der Vorgängergeneration. Weitere, geringfügigere Zuwächse sind möglicherweise auf weiter fortgeschrittene 7-nm-Fertigungsprozesse im Laufe dieses Jahres oder Anfang 2020 zurückzuführen.

In Bezug auf Smartphones sind SoCs mit Cortex-A77-Technologie für leistungsstarke Flaggschiffprodukte bestimmt. Arm erwartet voll und ganz, dass das Design des Kraftpakets 4 + 4 Bit verwendet. KLEINE Kernanordnungen. Angesichts des höheren Durchsatzes und der geringen Beeinträchtigung der Flächengröße des A77 werden die SoC-Designer wahrscheinlich den 1 + 3 + 4- oder 2 + 2 + 4-Trend fortsetzen. Mit ein oder zwei leistungsstarken großen Kernen mit größeren Caches und höheren Taktraten, die durch zwei oder drei A77-Kerne mit kleineren Cachegrößen und niedrigeren Taktraten unterstützt werden, um Energie und Platz zu sparen. Letztendlich ist der Cortex-A77 eine gute Wahl für Smartphonechips und der wachsende Markt für immer vernetzte Laptops auf Arm-Basis. Halten Sie Ausschau nach Siliziumankündigungen im Laufe dieses Jahres.

Da Huawei P30 und da P30 Pro werden am 26. März offiziell enthüllt, aber wir haben bereit im Vorfeld der Verantaltung eine Flut von Leck geehen. Da neuete Leck kommt jetzt über eine Auf...

Aktualiierung, 13. März 2019 (00:15 Uhr): Huawei hat eine Erklärung abgegeben, nachdem bekannt wurde, da e in einem P30-Werbematerial tock Photo verwendet. Der Firma it inzwichen bekannt, da...

Frische Artikel