Kategorien
Seiten
-

IT Center Blog

Established in 1994 – 25 Jahre RWTH Compute Cluster

23. Dezember 2019 | von

Anfang Oktober haben wir den „Cluster Aix-la-Chapelle“ (CLAIX) – den schnellsten universitären Rechner in Deutschland – bei einem Festakt im IT Center offiziell eingeweiht. Der Grundstein für diesen wurde aber bereits im April vor 25 Jahren gelegt – als der „Workstation-Verbund“ online ging. Dieser ist quasi der Nukleus des RWTH Compute Clusters und somit der Vor-Vorgänger von CLAIX.

Zum Ende des Jahres und anlässlich des 25. Jubiläums begeben wir uns auf eine Reise durch die Zeit und wollen auf den Spuren des RWTH Compute Clusters wandern.

Die Geburt des Clusters

1994 – IBM 3090
Quelle: Eigene Darstellung

Im Jahre 1994 standen im Rechen- und Kommunikationszentrum (RZ, heute IT Center) hauptsächlich zwei Großrechner für den allgemeinen Rechenbetrieb zur Verfügung:

  • eine Fujitsu VP200 EX, welche später zu einer VP2600 ausgebaut wurde, fungierte als „Landesvektorrechner“
  • eine IBM 3090 diente als „Hochschulrechner“

Dieses System wurde im April 1994 – der Modernität des Unix folgend – um einen Verbund aus sechs IBM-Workstations ergänzt. Diese Workstations waren der Ursprung des heutigen Clusters.
 Der Cluster wurde in den darauffolgenden Jahren erheblich ausgebaut und durch Hardware der Hersteller IBM, SGI, HP, Sun und Fujitsu ergänzt.

Der Reifeprozess

1996 tauschte man die Hardware des Landesvektorrechners aus. Ergänzend zu dem eigentlichen Landesrechner, einer 8-Prozessor-Machine, wurde auch die Einprozessor-Variante „VX“ installiert. Diese wurde ebenfalls in den Cluster integriert. So wurde den Nutzern der RWTH ein „richtiger“ Vektorrechner als Bestandteil des Hochschulrechnersystems zur Verfügung gestellt.

Im Jahre 2001 wurde die Vektorrechner durch ein Parallelsystem der Firma Sun Microsystems abgelöst und somit die verfügbare Rechenleistung aufgestockt. Insgesamt wurden 16 Sun Fire Systeme, jedes bestehend aus 24 Prozessoren und 24 GB Hauptspeicher, installiert.

Anfang 2002 ergänzte man diese Systeme um vier SunFire 15k mit jeweils 72 CPUs und 144 GB Speicher. Im September 2004 wurden die installierten Parallelsysteme durch den Tausch der Systemboards aufgerüstet und in den folgenden Jahren durch weitere Sun-Systeme modifiziert.

Im Januar 2008 wurde im RZ ein Cluster bestehend aus 270 Rechenknoten des Typs RX200 S4/X von der Firma Fujitsu Siemens installiert.

2011 wurde mit dem neuen Supercomputer der Herstellerfirma Bull eine neue Ära eingeläutet: Der Rechner verfügte über mehr als 28.000 Prozessorkerne mit einer Gesamtleistung von etwa 300 Tflop/s sowie drei Petabyte Plattenspeicher und verschaffte der Hochschule so einen immensen Vorteil bei der Berechnung lebensnaher Simulationen. Ein Teil des neuen Rechners wurde den Wissenschaftlerinnen und Wissenschaftlern in der Jülich Aachen Research Alliance, kurz JARA, zur ausschließlichen Nutzung zur Verfügung gestellt und bildete damit den Grundstein für die Etablierung einer so genannten JARA-HPC Partition.

Der Status Quo

2019 – CLAIX-2018
Quelle: Eigene Darstellung

Um den steigenden Rechenbedarf für wissenschaftliche Simulationen gerecht zu werden beantragte die RWTH 2015 die Förderung für einen neuen Hochleistungsrechner – dem CLAIX. Dieser wurde in zwei Stufen 2016 und 2018 installiert. Die erste Stufe – CLAIX-2016 – beheimatet etwas über 600 Knoten mit zwei Intel Broadwell Prozessoren. Für besondere Aufgaben wird das System durch spezialisierte Knotentypen mit bis zu 144 Rechenkernen an ein Terabyte Hauptspeicher oder integrierten GPGPUs oder NVRAM ergänzt. Das Gesamtsystem erreicht eine Rechenleistung von ca. 670 TeraFlop/s.

Der CLAIX-2018 wurde, nach einem Testlauf im November 2018, Anfang Februar 2019 in Betrieb genommen. Das System besteht aus 1032 Rechenknoten. Jeder dieser Knoten ist mit zwei Intel Xeon Platinum 8160 Prozessoren ausgestattet, welche jeweils 24 Kerne und 192 GB Arbeitsspeicher bieten. Zusätzlich gibt es 48 Rechenknoten identischer Architektur, die mit jeweils zwei NVIDIA Volta V100 GPUs als Beschleunigern ausgestattet sind und für besondere Anwendungszwecke wie bspw. das maschinelle Lernen zur Verfügung stehen. Alle Knoten sind mit einem Intel Omni-Path 100-Gigabit/s-Netzwerk verbunden. Mit CLAIX-2018 wird auch ein komplett neues paralleles HPC-Filesystem auf der Basis des hochperformanten Lustre-Dateisystems in Betrieb genommen. Konkret bedeutet dies, dass eine Kapazität von 10 Petabyte sowie eine Lese- und Schreibbandbreite von 150 Gigabyte pro Sekunde zur Verfügung steht. Im Vergleich zu CLAIX-2016 erhöht sich die durchschnittliche Pro-Core-Performance der Benchmarks des RWTH Job-Mix bei gleichbleibenden Datensätzen um 30%.

In Anbetracht des stetigen Fortschritts des Clusters in den letzten 25 Jahren, darf man gespannt sein, was die Zukunft bringt und wie sich der Supercomputer der RWTH im Laufe der Zeit entwickeln wird.

Verantwortlich für die Inhalte dieses Beitrags ist Sophia Nosthoff.

Kommentare sind geschlossen.