Der ARM Prozessor Fujitsu A64FX für energie-effizientes Supercomputing

Hintergrund-Informationen zu Fujitsu Supercomputing und dem gemeinsamen Projekt mit RIKEN.

Mittlerweile ist Fujitsu seit mehr als 40 Jahren in der Entwicklung von Supercomputern aktiv. Im Jahr 1977 entwickelten wir den ersten Supercomputer Japans. Dem damaligen FACOM 230-75APU folgten dann ab dem Jahr 1982 die Fujitsu Vektorrechner VP100 und VP200. Diese wurden ab 1984 in Europa auch durch den OEM-Partner Siemens AG vertrieben. Eine Übersicht aller Meilensteine im Bereich Supercomputing haben wir auf dieser Seite für Sie zusammengestellt.

2011 gab es wieder einen Grund zum Feiern: Wir konnten im japanischen Forschungszentrum RIKEN mit dem K Computer den zu dieser Zeit schnellsten Supercomputer der Welt installieren. Der K Computer war das Ergebnis einer langjährigen Entwicklungs-Zusammenarbeit zwischen Fujitsu und RIKEN und erreichte sowohl im Juni als auch im November 2011 Platz Nummer 1 der TOP500-Liste. Diese Liste wird seit 1993 zweimal pro Jahr veröffentlicht und listet die 500 schnellsten Supercomputer der Welt. Das Kriterium hierfür ist die gemessene Rechenleistung nach den Regeln des LINPACK-Benchmarks von Dr. Jack Dongarra, University of Tennessee, USA.

Ein Nachfolgesystem für den K Computer

Der A64FX CPU Chip

Der A64FX CPU Chip

In den folgenden Jahren begann in Japan bereits die Planung für ein Nachfolgesystem, das für ausgewählte strategische Anwendungen eine Beschleunigung um etwa den Faktor 100 ermöglichen sollte. Eine weitere Randbedingung für dieses Nachfolgesystem war, dass der Stromverbrauch aus Gründen der Rechenzentrums-Infrastruktur 40 MW nicht überschreiten dürfe. So wurde in Abstimmung zwischen RIKEN und Fujitsu entschieden, dass der Nachfolge-Supercomputer mit dem Projektnamen „Post-K” mit einer von Fujitsu entwickelten CPU auf Basis der ARM-Architektur plus speziellen Erweiterungen für Supercomputing ausgestattet werden sollte. Fujitsu ist Hardware-Partner von ARM für die Entwicklung ARM-basierter CPUs. In dieser Zusammenarbeit haben wir bereits Erweiterungen um Vektorbefehle für das Armv8-A Instruction Set entwickelt und auch der ARM Community zur Verfügung gestellt. Der A64FX Prozessor ist nun die erste ARM-basierte CPU mit Vektorbefehlen auf dem Markt.

Im November 2019 wurden die ersten beiden Racks für den mittlerweile auf den Namen „Fugaku“ getauften Supercomputer fertiggestellt. Sie wurden im Fujitsu-Werk in Numazu hinsichtlich Performance und Stromverbrauch vermessen und schließlich an RIKEN ausgeliefert. In 2020 wird er schrittweise aufgerüstet. 2021 soll schließlich die produktive Nutzung des kompletten Systems mit dann mehr als 150.000 CPUs aufgenommen werden. „Fugaku“ ist ein weiterer (japanischer) Name für den Fuji, Japans höchsten Berg. Er wurde ausgewählt, um einerseits die hohe Leistung des neuen Supercomputers zu symbolisieren. Andererseits zeigt er auch den weiten Horizont auf, den das System seinen Nutzern bieten wird.

Was ist das Besondere am Fujitsu A64FX Prozessor?

Der A64FX Prozessor wurde mit speziellem Fokus auf Supercomputing entwickelt. Neben dem Einsatz für technisch-wissenschaftliche Simulationen ist es ebenfalls geplant, den Prozessor für Anwendungen in der Künstlichen Intelligenz (KI) zu nutzen. Die A64FX CPU verwendet die ARM-Architektur, die bereits in vielen Geräten bis hin zu Smartphones im Einsatz ist. Für die von technisch-wissenschaftlichen Simulations-Anwendungen benötigten hohen Rechenleistungen setzt die CPU auf Single Instruction Multiple Data(SIMD)-Instruktionen mit einer Weite von 512Bit. Basis ist das um Vektorbefehle (Scalable Vector Extension SVE) erweiterte und in der CPU A64FX implementierte Armv8-A Instruction Set.

Neben den 48 CPU-Kernen für die mathematischen Operationen gibt es in der A64FX CPU noch 4 weitere Assistenz-Kerne, auf denen das Betriebssystem und I/O-Befehle ausgeführt werden. Ein weiteres Hochleistungs-Merkmal ist das in der CPU integrierte High Bandwidth Memory (HBM2), das für eine außerordentlich hohe Übertragungsgeschwindigkeit von aggregiert 1.024 GB/s zwischen dem Hauptspeicher und den CPU-Kernen sorgt. Ebenfalls integriert sind die Schnittstellen zum Hochgeschwindigkeitsnetzwerk. Der A64FX Chip beinhaltet ca. 9 Milliarden Transistoren und wird in einem 7nm-Prozess gefertigt. Die theoretische arithmetische Spitzenleistung einer A64FX CPU beträgt bei 64bit-Genauigkeit max. 3,3792 TFLOPS (Tera Floating-Point Operations per Second). Weitere technische Details finden Sie in unserem Whitepaper: „FUJITSU Supercomputer PRIMEHPC FX1000 – An HPC System Opening Up an AI and Exascale Era“.

Die PRIMEHPC FX1000 CPU Memory Unit

Die PRIMEHPC FX1000 CPU Memory Unit

Die A64FX CPU, die zunächst für den Supercomputer „Fugaku“ entwickelt wurde, wird von Fujitsu nun auch in den kommerziell angebotenen Supercomputern PRIMEHPC FX1000 und PRIMEHPC FX700 eingesetzt. Außerdem freuen wir uns sehr auf die Partnerschaft mit dem Supercomputer-Anbieter CRAY, die wir im November ankündigen durften. CRAY plant die A64FX CPU im Supercomputer-System CS500 einzusetzen.

Energieeffizienz – Nummer 1 in der GREEN500-Liste

Das Thema Energieeffizienz wird gerade für Höchstleistungs-Rechenzentren im Hinblick auf Leistungsdichte und Nachhaltigkeit immer bedeutender. Für die GREEN500-Liste werden die in der TOP500-Liste vertretenen Supercomputer hinsichtlich der Energieeffizienz analysiert. Kriterium für die Liste ist das Verhältnis aus gemessener Rechenleistung und Stromverbrauch. Neben der Leistungsfähigkeit berücksichtigt sie auch die Energieeffizienz von Supercomputern.

Für diese Liste wurde ein erstes Prototypen-System bestehend aus zwei Racks und insgesamt 768 A64FX CPUs des geplanten Supercomputers „Fugaku“ im Fujitsu-Labor in Numazu nach den Regeln der GREEN500-Liste vermessen. Im Ergebnis erzielte das System eine gemessene Rechenleistung von 1.999,5 TFLOPS bei einem Stromverbrauch in Höhe von 118 kW. Die daraus abgeleitete Energieeffizienz in Höhe von 16,876 GFLOPS/Watt brachte das System auf Platz 1 der jüngsten GREEN500-Liste.

MFLOPS, GFLOPS, TFLOPS, PFLOPS

Die Rechenleistung von Supercomputern wird seit Jahrzehnten in der Einheit Gleitpunktoperationen pro Sekunde ausgedrückt. Als Pendant zur früheren Mainframe-Leistungseinheit MIPS (Million Instructions Per Second) wurde die Supercomputereinheit MFLOPS (Million Floating-Point Operations Per Second) verwendet, auch „Megaflops“ genannt. Beispiel: die CRAY-1 hatte Ende der 70er Jahre eine Spitzenleistung von ca. 100 MFLOPS. Der Supercomputer „Fugaku“ soll im Endausbau eine Spitzenleistung von etwa 400 PFLOPS, d.h. 4 * 10 hoch 17 Rechenoperationen pro Sekunde erreichen.

Über den Autor
Eric Schnepf studierte Mathematik an der Universität Karlsruhe. In der Forschungsgruppe für numerische Strömungsmechanik entwickelte er Software auf Vektorrechnern. Seit 1985 war er in verschiedenen Funktionen im HPC-Business für Siemens, Siemens Nixdorf und Fujitsu Siemens Computers tätig. Eric Schnepf ist Fujitsu Distinguished Engineer und als Lead Solution Architect bei Fujitsu Technology Solutions in München tätig. Er beschäftigt sich schwerpunktmäßig mit IT-Infrastruktur-Lösungen für innovative, rechenintensive Anwendungsgebiete wie technisch-wissenschaftliche Simulationen und Deep Learning für KI.