close

Der ARM Prozessor Fujitsu A64FX für energie-effizientes Supercomputing

Der ARM Prozessor Fujitsu A64FX für energie-effizientes Supercomputing
Geschätzte Lesezeit: 4 Minuten

Hin­ter­grund-Infor­ma­tio­nen zu Fujit­su Super­com­put­ing und dem gemein­samen Pro­jekt mit RIKEN.

Mit­tler­weile ist Fujit­su seit mehr als 40 Jahren in der Entwick­lung von Super­com­put­ern aktiv. Im Jahr 1977 entwick­el­ten wir den ersten Super­com­put­er Japans. Dem dama­li­gen FACOM 230–75APU fol­gten dann ab dem Jahr 1982 die Fujit­su Vek­tor­rech­n­er VP100 und VP200. Diese wur­den ab 1984 in Europa auch durch den OEM-Part­ner Siemens AG ver­trieben. Eine Über­sicht aller Meilen­steine im Bere­ich Super­com­put­ing haben wir auf dieser Seite für Sie zusam­mengestellt.

2011 gab es wieder einen Grund zum Feiern: Wir kon­nten im japanis­chen Forschungszen­trum RIKEN mit dem K Com­put­er den zu dieser Zeit schnell­sten Super­com­put­er der Welt instal­lieren. Der K Com­put­er war das Ergeb­nis ein­er langjähri­gen Entwick­lungs-Zusam­me­nar­beit zwis­chen Fujit­su und RIKEN und erre­ichte sowohl im Juni als auch im Novem­ber 2011 Platz Num­mer 1 der TOP500-Liste. Diese Liste wird seit 1993 zweimal pro Jahr veröf­fentlicht und lis­tet die 500 schnell­sten Super­com­put­er der Welt. Das Kri­teri­um hier­für ist die gemessene Rechen­leis­tung nach den Regeln des LIN­PACK-Bench­marks von Dr. Jack Don­gar­ra, Uni­ver­si­ty of Ten­nessee, USA.

Ein Nachfolgesystem für den K Computer

Der A64FX CPU Chip
Der A64FX CPU Chip

In den fol­gen­den Jahren begann in Japan bere­its die Pla­nung für ein Nach­folgesys­tem, das für aus­gewählte strate­gis­che Anwen­dun­gen eine Beschle­u­ni­gung um etwa den Fak­tor 100 ermöglichen sollte. Eine weit­ere Randbe­din­gung für dieses Nach­folgesys­tem war, dass der Stromver­brauch aus Grün­den der Rechen­zen­trums-Infra­struk­tur 40 MW nicht über­schre­it­en dürfe. So wurde in Abstim­mung zwis­chen RIKEN und Fujit­su entsch­ieden, dass der Nach­folge-Super­com­put­er mit dem Pro­jek­t­na­men „Post‑K” mit ein­er von Fujit­su entwick­el­ten CPU auf Basis der ARM-Architek­tur plus speziellen Erweiterun­gen für Super­com­put­ing aus­ges­tat­tet wer­den sollte. Fujit­su ist Hard­ware-Part­ner von ARM für die Entwick­lung ARM-basiert­er CPUs. In dieser Zusam­me­nar­beit haben wir bere­its Erweiterun­gen um Vek­tor­be­fehle für das Armv8‑A Instruc­tion Set entwick­elt und auch der ARM Com­mu­ni­ty zur Ver­fü­gung gestellt. Der A64FX Prozes­sor ist nun die erste ARM-basierte CPU mit Vek­tor­be­fehlen auf dem Markt.

Im Novem­ber 2019 wur­den die ersten bei­den Racks für den mit­tler­weile auf den Namen „Fugaku“ getauften Super­com­put­er fer­tiggestellt. Sie wur­den im Fujit­su-Werk in Numazu hin­sichtlich Per­for­mance und Stromver­brauch ver­messen und schließlich an RIKEN aus­geliefert. In 2020 wird er schrit­tweise aufgerüstet. 2021 soll schließlich die pro­duk­tive Nutzung des kom­plet­ten Sys­tems mit dann mehr als 150.000 CPUs aufgenom­men wer­den. „Fugaku“ ist ein weit­er­er (japanis­ch­er) Name für den Fuji, Japans höch­sten Berg. Er wurde aus­gewählt, um ein­er­seits die hohe Leis­tung des neuen Super­com­put­ers zu sym­bol­isieren. Ander­er­seits zeigt er auch den weit­en Hor­i­zont auf, den das Sys­tem seinen Nutzern bieten wird.

Was ist das Besondere am Fujitsu A64FX Prozessor?

Der A64FX Prozes­sor wurde mit speziellem Fokus auf Super­com­put­ing entwick­elt. Neben dem Ein­satz für tech­nisch-wis­senschaftliche Sim­u­la­tio­nen ist es eben­falls geplant, den Prozes­sor für Anwen­dun­gen in der Kün­stlichen Intel­li­genz (KI) zu nutzen. Die A64FX CPU ver­wen­det die ARM-Architek­tur, die bere­its in vie­len Geräten bis hin zu Smart­phones im Ein­satz ist. Für die von tech­nisch-wis­senschaftlichen Sim­u­la­tions-Anwen­dun­gen benötigten hohen Rechen­leis­tun­gen set­zt die CPU auf Sin­gle Instruc­tion Mul­ti­ple Data(SIMD)-Instruktionen mit ein­er Weite von 512Bit. Basis ist das um Vek­tor­be­fehle (Scal­able Vec­tor Exten­sion SVE) erweit­erte und in der CPU A64FX imple­men­tierte Armv8‑A Instruc­tion Set.

Neben den 48 CPU-Ker­nen für die math­e­ma­tis­chen Oper­a­tio­nen gibt es in der A64FX CPU noch 4 weit­ere Assis­tenz-Kerne, auf denen das Betrieb­ssys­tem und I/O‑Befehle aus­ge­führt wer­den. Ein weit­eres Hochleis­tungs-Merk­mal ist das in der CPU inte­gri­erte High Band­width Mem­o­ry (HBM2), das für eine außeror­dentlich hohe Über­tra­gungs­geschwindigkeit von aggregiert 1.024 GB/s zwis­chen dem Haupt­spe­ich­er und den CPU-Ker­nen sorgt. Eben­falls inte­gri­ert sind die Schnittstellen zum Hochgeschwindigkeit­snet­zw­erk. Der A64FX Chip bein­hal­tet ca. 9 Mil­liar­den Tran­si­s­toren und wird in einem 7nm-Prozess gefer­tigt. Die the­o­retis­che arith­metis­che Spitzen­leis­tung ein­er A64FX CPU beträgt bei 64bit-Genauigkeit max. 3,3792 TFLOPS (Tera Float­ing-Point Oper­a­tions per Second). Weit­ere tech­nis­che Details find­en Sie in unserem Whitepa­per: „FUJITSU Super­com­put­er PRIMEHPC FX1000 — An HPC Sys­tem Open­ing Up an AI and Exas­cale Era“.

Die PRIMEHPC FX1000 CPU Memory Unit
Die PRIMEHPC FX1000 CPU Mem­o­ry Unit

Die A64FX CPU, die zunächst für den Super­com­put­er „Fugaku“ entwick­elt wurde, wird von Fujit­su nun auch in den kom­merziell ange­bote­nen Super­com­put­ern PRIMEHPC FX1000 und PRIMEHPC FX700 einge­set­zt. Außer­dem freuen wir uns sehr auf die Part­ner­schaft mit dem Super­com­put­er-Anbi­eter CRAY, die wir im Novem­ber ankündi­gen durften. CRAY plant die A64FX CPU im Super­com­put­er-Sys­tem CS500 einzuset­zen.

Energieeffizienz — Nummer 1 in der GREEN500-Liste

Das The­ma Energieef­fizienz wird ger­ade für Höch­stleis­tungs-Rechen­zen­tren im Hin­blick auf Leis­tungs­dichte und Nach­haltigkeit immer bedeu­ten­der. Für die GREEN500-Liste wer­den die in der TOP500-Liste vertrete­nen Super­com­put­er hin­sichtlich der Energieef­fizienz analysiert. Kri­teri­um für die Liste ist das Ver­hält­nis aus gemessen­er Rechen­leis­tung und Stromver­brauch. Neben der Leis­tungs­fähigkeit berück­sichtigt sie auch die Energieef­fizienz von Super­com­put­ern.

Für diese Liste wurde ein erstes Pro­to­typen-Sys­tem beste­hend aus zwei Racks und ins­ge­samt 768 A64FX CPUs des geplanten Super­com­put­ers „Fugaku“ im Fujit­su-Labor in Numazu nach den Regeln der GREEN500-Liste ver­messen. Im Ergeb­nis erzielte das Sys­tem eine gemessene Rechen­leis­tung von 1.999,5 TFLOPS bei einem Stromver­brauch in Höhe von 118 kW. Die daraus abgeleit­ete Energieef­fizienz in Höhe von 16,876 GFLOPS/Watt brachte das Sys­tem auf Platz 1 der jüng­sten GREEN500-Liste.

MFLOPS, GFLOPS, TFLOPS, PFLOPS

Die Rechen­leis­tung von Super­com­put­ern wird seit Jahrzehn­ten in der Ein­heit Gleit­punk­t­op­er­a­tio­nen pro Sekunde aus­ge­drückt. Als Pen­dant zur früheren Main­frame-Leis­tung­sein­heit MIPS (Million Instruc­tions Per Second) wurde die Super­com­put­ere­in­heit MFLOPS (Million Float­ing-Point Oper­a­tions Per Second) ver­wen­det, auch „Megaflops“ genan­nt. Beispiel: die CRAY‑1 hat­te Ende der 70er Jahre eine Spitzen­leis­tung von ca. 100 MFLOPS. Der Super­com­put­er „Fugaku“ soll im Endaus­bau eine Spitzen­leis­tung von etwa 400 PFLOPS, d.h. 4 * 10 hoch 17 Rechen­op­er­a­tio­nen pro Sekunde erre­ichen.

Über den Autor
Eric Schnepf studierte Math­e­matik an der Uni­ver­sität Karl­sruhe. In der Forschungs­gruppe für numerische Strö­mungsmechanik entwick­elte er Soft­ware auf Vek­tor­rech­n­ern. Seit 1985 war er in ver­schiede­nen Funk­tio­nen im HPC-Busi­ness für Siemens, Siemens Nix­dorf und Fujit­su Siemens Com­put­ers tätig. Eric Schnepf ist Fujit­su Dis­tin­guished Engi­neer und als Lead Solu­tion Archi­tect bei Fujit­su Tech­nol­o­gy Solu­tions in München tätig. Er beschäftigt sich schw­er­punk­t­mäßig mit IT-Infra­struk­tur-Lösun­gen für inno­v­a­tive, rechen­in­ten­sive Anwen­dungs­ge­bi­ete wie tech­nisch-wis­senschaftliche Sim­u­la­tio­nen und Deep Learn­ing für KI.

Schlagwörter: , , , ,

Story Page