Arm Mali-G77 GPU - das komplette In und Out

Autor: Randy Alexander
Erstelldatum: 3 April 2021
Aktualisierungsdatum: 1 Juli 2024
Anonim
Arm Mali-G77 GPU - das komplette In und Out - Technologien
Arm Mali-G77 GPU - das komplette In und Out - Technologien

Inhalt


Neben dem neuen Cortex-A77-CPU-Kern hat Arm eine GPU der nächsten Generation für Smartphone-SoCs der nächsten Generation vorgestellt. Der Mali-G77, nicht zu verwechseln mit dem neuen Mali-D77-Displayprozessor, markiert die Abkehr von Arm's Bifrost-Architektur und den Umzug nach Valhall.

Wir werden gleich auf die Details der neuen Architektur eingehen. Erstens werden wir gleich darauf eingehen, was Benutzer in Bezug auf Leistungssteigerungen erwarten sollten.

Mali-G77 Leistungsübersicht

Gegenüber den heutigen Mali-G76-Modellen bietet Arm mit Mali-G77-Geräten der nächsten Generation eine Grafikleistungssteigerung von bis zu 40 Prozent. Diese Zahl berücksichtigt sowohl Prozess- als auch Architekturverbesserungen. Der Mali-G77 kann von 7 bis 16 Shader-Kernen konfiguriert werden, und jeder Kern hat fast genau die gleiche Größe wie der G76-Kern. Dies bedeutet, dass High-End-Smartphones wahrscheinlich mit ähnlichen GPU-Kernzahlen wie heute ausgeliefert werden - irgendwo im unteren Teenageralter. Auf diese Weise können wir einige spekulative Leistungsbewertungen für vorhandene Chipsätze vornehmen.


Betrachtet man den beliebten Manhattan GFXBench-Benchmark, eröffnet ein Leistungszuwachs von 40 Prozent einen beachtlichen Vorsprung gegenüber der aktuellen Hardware-Generation. Der Adreno-Chip der nächsten Generation von Qualcomm benötigt eine deutliche Leistungssteigerung, um auf dem gleichen Niveau zu bleiben. Der Spieß scheint sich zu Gunsten von Arm zu drehen.

In Bezug auf die Architektur erhöht sich die Spieleleistung um 20 bis 40%, während das maschinelle Lernen eine Steigerung von 60% erzielt

Basierend auf diesem eher groben Ballparking versucht ein 10-Kern-Mali-G77 (eine Konfiguration, die wir oft von Huawei sehen), die mobile Grafikhardware der neuesten Generation zu übertreffen. Eine 12-Core-Konfiguration, wie sie normalerweise in Exynos von Samsung zu finden ist, bietet einen großen Vorsprung für die neueste GPU von Arm. Echte Benchmarks hängen natürlich von anderen Faktoren ab, darunter Prozessknoten, GPU-Cache-Speicher, LPDDR-Speicherkonfiguration und die Art der Anwendung, die Sie testen. Nehmen Sie also die obige Grafik mit einer kräftigen Dosis Salz.


Allein in Bezug auf die neue Architektur gibt Arm an, dass der Mali-G77 eine durchschnittliche Verbesserung der Energieeffizienz und der Leistungsdichte um 30 Prozent bietet. Dank der Produktunterstützung für INT8-Dot-Geräte wird der Umsatz für maschinelles Lernen um 60 Prozent gesteigert. Die Erwartungen an die Spieleleistung liegen je nach Titel und Art der angebotenen Grafik-Workloads zwischen 20 und 40 Prozent.

Um genau zu verstehen, wie Arm diese Leistungssteigerung erzielt hat, werfen wir einen tieferen Blick auf die Architektur.

Lernen Sie Valhall, den Nachfolger von Bifrost, kennen

Vahall ist die skalare GPU-Architektur der zweiten Generation von Arm. Es handelt sich um eine 16-Wide-Warp-Ausführungs-Engine, was im Wesentlichen bedeutet, dass die GPU 16 Befehle pro Zyklus, pro Prozessoreinheit und pro Kern parallel ausführt. Das ist bis zu 4 und 8 in Bifrost.

Zu den weiteren neuen Architekturmerkmalen gehören eine dynamische Befehlsplanung, die vollständig in Hardware verwaltet wird, und ein brandneuer Befehlssatz, der die betriebliche Entsprechung zu Bifrost beibehält. Andere unterstützen das AFBC1.3-Komprimierungsformat von Arm, FP16-Renderziele, Layer-Rendering und Vertex-Shader-Ausgaben.

Der Mali-G77 rechnet 33% mehr parallel als der G76.

Die Schlüssel zum Verständnis der wichtigsten architektonischen Änderungen finden Sie bei der Untersuchung der Ausführungseinheit im Inneren des Kerns. Dieser Teil der GPU ist für das Knacken von Zahlen verantwortlich.

Innerhalb der Ausführungsmaschine

In Bifrost enthielt jeder GPU-Kern drei Ausführungs-Engines oder zwei im Fall einiger Mali-G52-Designs der unteren Preisklasse. Jede Engine enthält einen i-Cache, eine Registerdatei und eine Warp-Steuereinheit. Im Mali-G72 verarbeitet jeder Motor 4 Anweisungen pro Zyklus, die im Mali-G76 des letzten Jahres auf 8 erhöht wurden. Die Verteilung auf diese drei Kerne ermöglicht 12- und 24-Bit-FMA-Befehle (FP32 = Fused Multiply-Accumulate) pro Zyklus.

Mit Valhall und dem Mali-G77 gibt es in jedem GPU-Kern nur eine einzige Ausführungs-Engine. Wie bisher enthält diese Engine die Warp-Steuereinheit, das Register und den ICACHE, die jetzt von zwei Verarbeitungseinheiten gemeinsam genutzt werden. Jede Verarbeitungseinheit verarbeitet 16 Warp-Befehle pro Zyklus, was einen Gesamtdurchsatz von 32 FP32-FMA-Befehlen pro Kern ergibt. Dies ist eine Steigerung des Befehlsdurchsatzes um 33 Prozent gegenüber dem Mali-G76.

Arm ist von drei auf nur eine Ausführungseinheit pro GPU-Kern übergegangen, aber es gibt jetzt zwei Verarbeitungseinheiten innerhalb eines G77-Kerns.

Zusätzlich enthält jede dieser Verarbeitungseinheiten zwei neue mathematische Funktionsblöcke. Die neue Konvertierungseinheit (CVT) verarbeitet grundlegende Anweisungen für Ganzzahlen, Logik, Verzweigungen und Konvertierungen. Die SFU (Special Function Unit) beschleunigt die Multiplikation von Ganzzahlen, Divisionen, Quadratwurzeln, Logarithmen und andere komplexe Ganzzahlfunktionen.

Die Standard-FMA-Einheit hat einige Verbesserungen erfahren, die 16 FP32-Anweisungen pro Zyklus, 32 FP16- oder 64 INT8-Punkt-Produktanweisungen unterstützen. Diese Optimierungen führen zu einer Leistungssteigerung von 60 Prozent bei Anwendungen für maschinelles Lernen.

Der Quad-Textur-Mapper

Die andere wichtige Änderung im Mali-G77 ist die Einführung eines Quad-Textur-Mapper gegenüber einem Dual-Textur-Mapper der vorherigen Generation. Der Textur-Mapper ist dafür verantwortlich, die 3D-Polygone in einer Szene in die auf einem Bildschirm angezeigte 2D-Darstellung abzubilden. Es ist für das Abtasten, Interpolieren und Filtern verantwortlich, um abgewinkelte und sich bewegende Inhalte auszugleichen und scharfe Kanten mit geringer Qualität zu vermeiden.

Das kostengünstige Anti-Aliasing ist weiterhin vorhanden, um die Bildqualität zu verbessern. Die Verdoppelung der Texturleistung ist hier jedoch der Hauptvorteil. Die Textureinheit verarbeitet jetzt 4 bilineare Texel pro Takt (vorher 2), 2 trilineare Texel pro Takt, und ermöglicht eine schnellere FP16- und FP32-Filterung.

Der Quad-Texture-Mapper ist in zwei Pfade aufgeteilt und bietet eine kürzere Pipeline für Threads, die auf Inhalte im Cache treffen. Der Miss-Pfad, der die Formatkonvertierung und Texturdekomprimierung übernimmt, bietet eine breitere Schnittstelle zum L2-Cache. Dies ist auch hilfreich für maschinelles Lernen, bei dem häufig neue Daten aus dem Speicher abgerufen werden müssen.

Bringen Sie im Mali-G77 alles zusammen

Arm hat eine Reihe weiterer Verbesserungen am Mali-G77 vorgenommen, um mit den wesentlichen Änderungen in der Valhall-Architektur übereinzustimmen. Der Steuerblock wird dank des Entwurfs einer einzelnen Ausführungseinheit vereinfacht, während der interne dynamische Scheduler tatsächlich eine flexiblere Befehlsausgabe innerhalb jedes Kerns ermöglicht. Mit einem höheren Durchsatz in jedem Kern ist der Datenpfad auch kürzer und weist eine geringere Latenz auf, und zwar auf nur 4 von zuvor 8 Zyklen.

Das neue Design ist auch besser auf die Vulkan-API abgestimmt, wodurch Treiberbeschreibungen vereinfacht werden, um den Treiber-Overhead zu verringern und die Leistung auf den Punkt zu bringen.

Zusammenfassend nehmen der Mali-G72 und Valhall wichtige Änderungen gegenüber Bifrost vor, die signifikante Leistungssteigerungen für Spiele- und maschinelle Lernanwendungen versprechen. Wichtig ist, dass das Design in die gleichen Leistungs- und Flächenbudgets passt wie Bifrost und gewährleistet, dass mobile Geräte mehr Spitzenleistung bieten können, ohne sich Gedanken über die Kosten für Wärme, Strom und Silizium machen zu müssen. Basierend auf den Leistungsprojektionen sollte der Mali-G77 in der Lage sein, dem Adreno der nächsten Generation von Qualcomm eine gute Chance zu geben.

Im Moment cheint e einen Trend zum Aufräumen zu geben. In ihrem gleichnamigen Netflix-Hit behauptet Marie Kondo, da ie durch die Beibehaltung eine aufgeräumten Lebenraum die Produktivitä...

Fotografen behaupten, die bete Kamera ei die, die ie bei ich haben, und in den meiten Fällen wäre die Ihr handliche martphone. Während Mobiltelefone nicht immer zu einem großartige...

Populäre Artikel