close

Fugaku – der aktuell weltweit leistungsstärkste Supercomputer

Fugaku: der aktuell weltweit leistungsstärkste Supercomputer, gemeinsam entwickelt von Riken und Fujitsu
Geschätzte Lesezeit: 4 Minuten

Gemeinsam entwickelt von RIKEN und Fujitsu.

Im Rah­men der ISC High Per­for­mance, die in die­sem Jahr digi­tal statt­fand, wur­de am 22. Juni bekannt gege­ben, dass Fug­aku den ers­ten Platz in der 55. TOP500-Lis­te der welt­weit leis­tungs­stärks­ten Super­com­pu­ter belegt. Zudem ist es auch das ers­te Mal über­haupt, dass ein Super­com­pu­ter gleich­zei­tig den ers­ten Platz in der Top500 und in drei wei­te­ren Bench­marks belegt:

  • HPCG – High Per­for­mance Con­ju­ga­te Gra­di­ent: ein Maß­stab für die Rechen­leis­tung in rea­len Anwendungen
  • HPL-AI – High Per­for­mance LINPACK Arti­fi­cial Intel­li­gence: ein Maß­stab für KI-Anwendungen
  • Graph500: ein Maß­stab für die Geschwin­dig­keit bei der Infor­ma­ti­ons­su­che in Graphen

Die Entwicklung von Fugaku

Bereits 2010 began­nen beim japa­ni­schen For­schungs­in­sti­tut RIKEN die Pla­nun­gen für das „Post‑K” Super­com­pu­ter-Pro­jekt, d.h. für die Nach­fol­ge des „K Com­pu­ters”, der im Jahr 2011 die TOP500-Lis­te anführ­te. Nach einer Mach­bar­keits­stu­die begann 2014 das Pro­jekt Post‑K, das für aus­ge­wähl­te stra­te­gi­sche Anwen­dun­gen eine Beschleu­ni­gung um etwa den Fak­tor 100 im Ver­gleich zum „K Com­pu­ter” ermög­li­chen sollte.

Eine wei­te­re Bedin­gung für die­ses Nach­fol­ge­sys­tem war, dass der Strom­ver­brauch 40 MW nicht über­schrei­ten dür­fe. So wur­de in Abstim­mung zwi­schen RIKEN und Fuji­tsu ent­schie­den, dass der Nach­fol­ge-Super­com­pu­ter mit einer von Fuji­tsu ent­wi­ckel­ten CPU auf Basis der ARM-Archi­tek­tur plus spe­zi­el­len Erwei­te­run­gen für Super­com­pu­ting aus­ge­stat­tet wer­den soll­te. Fuji­tsu ist Hard­ware-Part­ner von ARM für die Ent­wick­lung ARM-basier­ter CPUs.

Die A64FX CPU wur­de somit mit spe­zi­el­lem Fokus auf Super­com­pu­ting ent­wi­ckelt. Jede CPU beinhal­tet 48 CPU-Ker­ne für Berech­nun­gen und bis zu 4 wei­te­re CPU-Ker­ne für unter­stüt­zen­de Auf­ga­ben wie Input/Output. Ein beson­de­res Merk­mal die­ser CPU ist die Inte­gra­ti­on von High Band­width Memo­ry (HBM2) mit einer Band­brei­te von 1 TByte/sec. Wei­te­re Infor­ma­tio­nen zur Fuji­tsu A64FX CPU fin­den sich in die­sem Blog-Arti­kel.

Im Mai 2019 wur­de „Post‑K” dann auf den Namen „Fug­aku” getauft. „Fug­aku” ist ein wei­te­rer (japa­ni­scher) Name für Mount Fuji, Japans höchs­ten Berg. Er wur­de einer­seits aus­ge­wählt, um die hohe Leis­tung des neu­en Super­com­pu­ters zu sym­bo­li­sie­ren. Ande­rer­seits zeigt er auch den wei­ten Hori­zont auf, den das Sys­tem sei­nen Nut­zern bie­ten wird.

Im Novem­ber 2019 wur­den die ers­ten bei­den Racks für Fug­aku fer­tig­ge­stellt, im Fuji­tsu Werk in Numa­zu hin­sicht­lich Per­for­mance und Strom­ver­brauch ver­mes­sen und schließ­lich im Dezem­ber an RIKEN ausgeliefert.

Bis zum Mai 2020 wur­de Fug­aku schritt­wei­se auf­ge­rüs­tet und hat nun sei­ne kom­plet­te geplan­te Kon­fi­gu­ra­ti­on erreicht:

  • Gesamt­an­zahl Ser­ver-Nodes: 158.976
    • 396 Racks mit je 384 Nodes = 152.064 Nodes
    • 36 Racks mit je 192 Nodes = 6.912 Nodes
    • Zum Ver­gleich: K Com­pu­ter bestand aus 88.128 Nodes
  • Gesamt­an­zahl CPU-Cores für Berech­nun­gen (48 pro Node): 7.630.848 Cores
  • Theo­re­ti­sche Peak Per­for­mance (bei CPU Boost-Fre­quenz 2,2 GHz) 
    • 64 bit Dou­ble Pre­cisi­on FP: 537 PetaFLOPS
    • 32 bit Sin­gle Pre­cisi­on FP: 1,07 ExaFLOPS
    • 16 bit Half Pre­cisi­on FP: 2,15 ExaFLOPS
    • 8 bit Inte­ger (AI Infe­rence): 4,3 ExaOPS
    • Zum Ver­gleich: K Com­pu­ter Peak Per­for­mance FP64 = 11.28 PetaFLOPS

Damit ist Fug­aku in der theo­re­ti­schen Peak Per­for­mance in FP64 etwa um den Fak­tor 48 schnel­ler als der K Com­pu­ter. Ent­schei­dend ist jedoch die Leis­tungs­fä­hig­keit für rea­le Anwen­dun­gen. Für bereits zwei wich­ti­ge Anwen­dun­gen von RIKEN wur­den Per­for­mance-Stei­ge­run­gen etwa um den Fak­tor 100 gemessen.

Laut RIKEN wird Fug­aku schon vor dem kom­plet­ten Pro­duk­tiv­be­trieb für wich­ti­ge Anwen­dun­gen genutzt, u.a. auch um die For­schung im Kampf gegen COVID-19 zu unter­stüt­zen und in 2021 soll schließ­lich die pro­duk­ti­ve Nut­zung des kom­plet­ten Sys­tems auf­ge­nom­men werden.

Zu den Benchmark-Ergebnissen

TOP500

Die TOP500-Lis­te wird seit 1993 zwei­mal im Jahr ver­öf­fent­licht und zeigt die 500 leis­tungs­stärks­ten Super­com­pu­ter der Welt. Das Kri­te­ri­um hier­für ist der LIN­PACK-Bench­mark, der von Dr. Jack Don­gar­ra (Uni­ver­si­ty of Ten­nes­see) ent­wi­ckelt wur­de. LINPACK misst die Rechen­leis­tung bei der Lösung eines mög­lichst gro­ßen linea­ren Glei­chungs­sys­tems in 64bit-Genau­ig­keit. Der­ar­ti­ge Rechen­ope­ra­tio­nen kom­men in vie­len tech­nisch-wis­sen­schaft­li­chen Anwen­dun­gen vor.

Der LIN­PACK-Bench­mark wur­de auf 152.064 Nodes von Fug­aku aus­ge­führt und erreich­te eine gemes­se­ne Per­for­mance von 415,53 PFLOPS mit einer Effi­zi­enz von 80,9% (im Ver­gleich zur theo­re­ti­schen Peak Per­for­mance). Fug­aku führt mit gro­ßem Abstand zum zweit­plat­zier­ten Super­com­pu­ter-Sys­tem, das 148,6 PFLOPS aufweist.

Zum Ver­gleich: Der K Com­pu­ter führ­te in der TOP500-Lis­te im Juni 2011 mit 8,2 Peta­FLOPS und nach einem Upgrade im Novem­ber 2011 mit 10,5 PFLOPS.

HPCG – High Performance Conjugate Gradient

Der HPCG-Bench­mark löst eben­falls ein linea­res Glei­chungs­sys­tem, aller­dings mit einer dünn-besetz­ten Koef­fi­zi­en­ten­ma­trix mit­tels der Con­ju­ga­te Gra­di­ent Metho­de. Die­ser Bench­mark gibt eine bes­se­re Indi­ka­ti­on für die Leis­tung bei rea­len tech­nisch-wis­sen­schaft­li­chen Anwen­dun­gen, wäh­rend LINPACK eher mit der theo­re­ti­schen Spit­zen­leis­tung korreliert.

Für die­sen Bench­mark wur­den 138.240 Nodes von Fug­aku genutzt und es wur­de ein Best­wert von 13.366 TFLOPS erzielt. Auch hier führt Fug­aku mit deut­li­chem Abstand vor dem zweit­plat­zier­ten System.

HPL-AI – High Performance LINPACK Artificial Intelligence

Der neue Bench­mark HPL-AI wur­de im Novem­ber 2019 als ein Maß­stab für die Rechen­leis­tung unter Berück­sich­ti­gung von Sin­gle-Pre­cisi­on (FP32) und Half-Pre­cisi­on (FP16) eta­bliert – wie es bei Anwen­dun­gen in der künst­li­chen Intel­li­genz häu­fig der Fall ist. In die­ser Metho­de darf LINPACK mit gerin­ge­rer Rechen­ge­nau­ig­keit wäh­rend der Lösung des Glei­chungs­sys­tems rech­nen. Das Ergeb­nis muss aber die glei­che Genau­ig­keit auf­wei­sen, als wenn mit FP64-Genau­gig­keit gerech­net wor­den wäre. Die Lösung wird daher in einem ite­ra­ti­ven Pro­zess verfeinert.

Für die Mes­sung von HPL-AI wur­den 126.720 Nodes von Fug­aku genutzt und erreich­ten einen Best­wert von 1,421 EFLOPS. Dies ist ein his­to­ri­scher Rekord, in dem Fug­aku welt­weit zum ers­ten Mal in einem der HPL-Bench­marks eine Leis­tung von über 1 Exa­FLOPS erzielt hat, d.h. 10 hoch 18 Rechen­ope­ra­tio­nen pro Sekunde.

GRAPH500

In die­sem Bench­mark für die Infor­ma­ti­ons­su­che in Gra­phen wur­den 92.160 Nodes von Fug­aku für eine „bre­adth-first search” genutzt. Bei die­ser Suche in einem sehr gro­ßen Gra­phen mit 1,1 Bil­li­on Kno­ten und 17,6 Bil­lio­nen Kan­ten in etwa 0,25 Sekun­den erreich­te Fug­aku einen Best­wert von 70.980 gigaTEPS. Hier führt Fug­aku etwa mit dem Fak­tor 3 gegen­über dem zweit­plat­zier­ten Super­com­pu­ter Benchmark.

Die­ser her­vor­ra­gen­de Bench­mark-Wert war das Ergeb­nis einer Zusam­men­ar­beit von RIKEN, Kyus­hu Uni­ver­si­ty, Fix­stars Cor­po­ra­ti­on und Fuji­tsu Limited.

Von MegaFLOPS bis ExaFLOPS

Die Rechen­leis­tung von Super­com­pu­tern wird seit Jahr­zehn­ten in der Ein­heit Gleit­punkt­ope­ra­tio­nen pro Sekun­de aus­ge­drückt. Als Pen­dant zur frü­he­ren Main­frame-Leis­tungs­ein­heit MIPS (Milli­on Inst­ruc­tions Per Second) wur­de die Super­com­pu­ter­ein­heit MFLOPS (Milli­on Floating-Point Opera­ti­ons Per Second) ver­wen­det, auch „Mega­FLOPS” genannt. Bei­spiel: die CRAY‑1 hat­te Ende der 70er Jah­re eine Spit­zen­leis­tung von ca. 100 MFLOPS. Der Super­com­pu­ter „Fug­aku” hat in der aktu­el­len Kon­fi­gu­ra­ti­on eine Spit­zen­leis­tung von 537 Peta­FLOPS (PFLOPS), d.h. 537 * 10 hoch 15 Rechen­ope­ra­tio­nen pro Sekun­de. Mit der Ein­heit Exa­FLOPS (EFLOPS)erreicht man dann 10 hoch 18 Rechen­ope­ra­tio­nen pro Sekunde.


Über den Autor
Eric Schnepf stu­dier­te Mathe­ma­tik an der Uni­ver­si­tät Karls­ru­he. In der For­schungs­grup­pe für nume­ri­sche Strö­mungs­me­cha­nik ent­wi­ckel­te er Soft­ware auf Vek­tor­rech­nern und führ­te Bench­mark-Mes­sun­gen u.a. auf dem ers­ten in Euro­pa ver­füg­ba­ren Fuji­tsu VP-200 durch, der von Sie­mens im Raum Mün­chen instal­liert wurde. 

Seit 1985 war er in ver­schie­de­nen Funk­tio­nen im HPC-Busi­ness für Sie­mens, Sie­mens Nix­dorf und Fuji­tsu Sie­mens Com­pu­ters tätig. Eric Schnepf ist Fuji­tsu Dis­tin­guis­hed Engi­neer und als Lead Solu­ti­on Archi­tect bei Fuji­tsu Tech­no­lo­gy Solu­ti­ons in Mün­chen tätig. Er beschäf­tigt sich schwer­punkt­mä­ßig mit IT-Infra­struk­tur-Lösun­gen für inno­va­ti­ve, rechen­in­ten­si­ve Anwen­dungs­ge­bie­te wie tech­nisch-wis­sen­schaft­li­che Simu­la­tio­nen und Deep Lear­ning für KI.

Schlagwörter: , , , , , , , ,

Story Page