Fugaku: der aktuell weltweit leistungsstärkste Supercomputer, gemeinsam entwickelt von Riken und Fujitsu

Gemeinsam entwickelt von RIKEN und Fujitsu.

Im Rahmen der ISC High Performance, die in diesem Jahr digital stattfand, wurde am 22. Juni bekannt gegeben, dass Fugaku den ersten Platz in der 55. TOP500-Liste der weltweit leistungsstärksten Supercomputer belegt. Zudem ist es auch das erste Mal überhaupt, dass ein Supercomputer gleichzeitig den ersten Platz in der Top500 und in drei weiteren Benchmarks belegt:

  • HPCG – High Performance Conjugate Gradient: ein Maßstab für die Rechenleistung in realen Anwendungen
  • HPL-AI – High Performance LINPACK Artificial Intelligence: ein Maßstab für KI-Anwendungen
  • Graph500: ein Maßstab für die Geschwindigkeit bei der Informationssuche in Graphen

Die Entwicklung von Fugaku

Bereits 2010 begannen beim japanischen Forschungsinstitut RIKEN die Planungen für das „Post-K“ Supercomputer-Projekt, d.h. für die Nachfolge des „K Computers“, der im Jahr 2011 die TOP500-Liste anführte. Nach einer Machbarkeitsstudie begann 2014 das Projekt Post-K, das für ausgewählte strategische Anwendungen eine Beschleunigung um etwa den Faktor 100 im Vergleich zum „K Computer“ ermöglichen sollte.

Eine weitere Bedingung für dieses Nachfolgesystem war, dass der Stromverbrauch 40 MW nicht überschreiten dürfe. So wurde in Abstimmung zwischen RIKEN und Fujitsu entschieden, dass der Nachfolge-Supercomputer mit einer von Fujitsu entwickelten CPU auf Basis der ARM-Architektur plus speziellen Erweiterungen für Supercomputing ausgestattet werden sollte. Fujitsu ist Hardware-Partner von ARM für die Entwicklung ARM-basierter CPUs.

Die A64FX CPU wurde somit mit speziellem Fokus auf Supercomputing entwickelt. Jede CPU beinhaltet 48 CPU-Kerne für Berechnungen und bis zu 4 weitere CPU-Kerne für unterstützende Aufgaben wie Input/Output. Ein besonderes Merkmal dieser CPU ist die Integration von High Bandwidth Memory (HBM2) mit einer Bandbreite von 1 TByte/sec. Weitere Informationen zur Fujitsu A64FX CPU finden sich in diesem Blog-Artikel.

Im Mai 2019 wurde „Post-K“ dann auf den Namen „Fugaku“ getauft. „Fugaku“ ist ein weiterer (japanischer) Name für Mount Fuji, Japans höchsten Berg. Er wurde einerseits ausgewählt, um die hohe Leistung des neuen Supercomputers zu symbolisieren. Andererseits zeigt er auch den weiten Horizont auf, den das System seinen Nutzern bieten wird.

Im November 2019 wurden die ersten beiden Racks für Fugaku fertiggestellt, im Fujitsu Werk in Numazu hinsichtlich Performance und Stromverbrauch vermessen und schließlich im Dezember an RIKEN ausgeliefert.

Bis zum Mai 2020 wurde Fugaku schrittweise aufgerüstet und hat nun seine komplette geplante Konfiguration erreicht:

  • Gesamtanzahl Server-Nodes: 158.976
    • 396 Racks mit je 384 Nodes = 152.064 Nodes
    • 36 Racks mit je 192 Nodes = 6.912 Nodes
    • Zum Vergleich: K Computer bestand aus 88.128 Nodes
  • Gesamtanzahl CPU-Cores für Berechnungen (48 pro Node): 7.630.848 Cores
  • Theoretische Peak Performance (bei CPU Boost-Frequenz 2,2 GHz)
    • 64 bit Double Precision FP: 537 PetaFLOPS
    • 32 bit Single Precision FP: 1,07 ExaFLOPS
    • 16 bit Half Precision FP: 2,15 ExaFLOPS
    • 8 bit Integer (AI Inference): 4,3 ExaOPS
    • Zum Vergleich: K Computer Peak Performance FP64 = 11.28 PetaFLOPS

Damit ist Fugaku in der theoretischen Peak Performance in FP64 etwa um den Faktor 48 schneller als der K Computer. Entscheidend ist jedoch die Leistungsfähigkeit für reale Anwendungen. Für bereits zwei wichtige Anwendungen von RIKEN wurden Performance-Steigerungen etwa um den Faktor 100 gemessen.

Laut RIKEN wird Fugaku schon vor dem kompletten Produktivbetrieb für wichtige Anwendungen genutzt, u.a. auch um die Forschung im Kampf gegen COVID-19 zu unterstützen und in 2021 soll schließlich die produktive Nutzung des kompletten Systems aufgenommen werden.

Zu den Benchmark-Ergebnissen

TOP500

Die TOP500-Liste wird seit 1993 zweimal im Jahr veröffentlicht und zeigt die 500 leistungsstärksten Supercomputer der Welt. Das Kriterium hierfür ist der LINPACK-Benchmark, der von Dr. Jack Dongarra (University of Tennessee) entwickelt wurde. LINPACK misst die Rechenleistung bei der Lösung eines möglichst großen linearen Gleichungssystems in 64bit-Genauigkeit. Derartige Rechenoperationen kommen in vielen technisch-wissenschaftlichen Anwendungen vor.

Der LINPACK-Benchmark wurde auf 152.064 Nodes von Fugaku ausgeführt und erreichte eine gemessene Performance von 415,53 PFLOPS mit einer Effizienz von 80,9% (im Vergleich zur theoretischen Peak Performance). Fugaku führt mit großem Abstand zum zweitplatzierten Supercomputer-System, das 148,6 PFLOPS aufweist.

Zum Vergleich: Der K Computer führte in der TOP500-Liste im Juni 2011 mit 8,2 PetaFLOPS und nach einem Upgrade im November 2011 mit 10,5 PFLOPS.

HPCG – High Performance Conjugate Gradient

Der HPCG-Benchmark löst ebenfalls ein lineares Gleichungssystem, allerdings mit einer dünn-besetzten Koeffizientenmatrix mittels der Conjugate Gradient Methode. Dieser Benchmark gibt eine bessere Indikation für die Leistung bei realen technisch-wissenschaftlichen Anwendungen, während LINPACK eher mit der theoretischen Spitzenleistung korreliert.

Für diesen Benchmark wurden 138.240 Nodes von Fugaku genutzt und es wurde ein Bestwert von 13.366 TFLOPS erzielt. Auch hier führt Fugaku mit deutlichem Abstand vor dem zweitplatzierten System.

HPL-AI – High Performance LINPACK Artificial Intelligence

Der neue Benchmark HPL-AI wurde im November 2019 als ein Maßstab für die Rechenleistung unter Berücksichtigung von Single-Precision (FP32) und Half-Precision (FP16) etabliert – wie es bei Anwendungen in der künstlichen Intelligenz häufig der Fall ist. In dieser Methode darf LINPACK mit geringerer Rechengenauigkeit während der Lösung des Gleichungssystems rechnen. Das Ergebnis muss aber die gleiche Genauigkeit aufweisen, als wenn mit FP64-Genaugigkeit gerechnet worden wäre. Die Lösung wird daher in einem iterativen Prozess verfeinert.

Für die Messung von HPL-AI wurden 126.720 Nodes von Fugaku genutzt und erreichten einen Bestwert von 1,421 EFLOPS. Dies ist ein historischer Rekord, in dem Fugaku weltweit zum ersten Mal in einem der HPL-Benchmarks eine Leistung von über 1 ExaFLOPS erzielt hat, d.h. 10 hoch 18 Rechenoperationen pro Sekunde.

GRAPH500

In diesem Benchmark für die Informationssuche in Graphen wurden 92.160 Nodes von Fugaku für eine „breadth-first search“ genutzt. Bei dieser Suche in einem sehr großen Graphen mit 1,1 Billion Knoten und 17,6 Billionen Kanten in etwa 0,25 Sekunden erreichte Fugaku einen Bestwert von 70.980 gigaTEPS. Hier führt Fugaku etwa mit dem Faktor 3 gegenüber dem zweitplatzierten Supercomputer Benchmark.

Dieser hervorragende Benchmark-Wert war das Ergebnis einer Zusammenarbeit von RIKEN, Kyushu University, Fixstars Corporation und Fujitsu Limited.

Von MegaFLOPS bis ExaFLOPS

Die Rechenleistung von Supercomputern wird seit Jahrzehnten in der Einheit Gleitpunktoperationen pro Sekunde ausgedrückt. Als Pendant zur früheren Mainframe-Leistungseinheit MIPS (Million Instructions Per Second) wurde die Supercomputereinheit MFLOPS (Million Floating-Point Operations Per Second) verwendet, auch „MegaFLOPS“ genannt. Beispiel: die CRAY‑1 hatte Ende der 70er Jahre eine Spitzenleistung von ca. 100 MFLOPS. Der Supercomputer „Fugaku“ hat in der aktuellen Konfiguration eine Spitzenleistung von 537 PetaFLOPS (PFLOPS), d.h. 537 * 10 hoch 15 Rechenoperationen pro Sekunde. Mit der Einheit ExaFLOPS (EFLOPS)erreicht man dann 10 hoch 18 Rechenoperationen pro Sekunde.


Über den Autor
Eric Schnepf studierte Mathematik an der Universität Karlsruhe. In der Forschungsgruppe für numerische Strömungsmechanik entwickelte er Software auf Vektorrechnern und führte Benchmark-Messungen u.a. auf dem ersten in Europa verfügbaren Fujitsu VP-200 durch, der von Siemens im Raum München installiert wurde.

Seit 1985 war er in verschiedenen Funktionen im HPC-Business für Siemens, Siemens Nixdorf und Fujitsu Siemens Computers tätig. Eric Schnepf ist Fujitsu Distinguished Engineer und als Lead Solution Architect bei Fujitsu Technology Solutions in München tätig. Er beschäftigt sich schwerpunktmäßig mit IT-Infrastruktur-Lösungen für innovative, rechenintensive Anwendungsgebiete wie technisch-wissenschaftliche Simulationen und Deep Learning für KI.