Neben der Theorie und dem Experiment werden rechnergestützte Simulationen als dritte Säule der Wissenschaft bezeichnet. Für technische Hochschulen wie die RWTH Aachen ist es somit von großer Bedeutung, die Kapazitäten im Bereich des Hochleistungsrechnens kontinuierlich auszubauen und die Fähigkeiten weiterzuentwickeln. Wir freuen uns daher sehr, dass die vollständige Installation des neuen Clusters Aix-la-Chapelle (CLAIX) abgeschlossen ist! Unter dem Label CLAIX-2023 bietet der neue Hochleistungsrechner nicht nur leistungsstarke Intel Xeon 8468 Sapphire Rapids CPUs mit insgesamt 96 Kernen pro Rechenknoten für eine signifikante Leistungssteigerung. Zusätzlich verfügt er über 52 spezielle Server für Anwendungen der Künstlichen Intelligenz und Machine Learning mit jeweils vier NVIDIA H100 GPUs, was eine beeindruckende Gesamtleistung von über 14 PFLOPS alleine im ML-Segment ermöglicht. (*)
Pilotphase und herausragende Merkmale im Überblick
Das moderne System wird Forschenden der RWTH und allen deutschen Hochschulen bundesweit zur Verfügung gestellt. Parallel zu den Abnahmetests der Firma NEC und Mitarbeitenden des IT Centers hat im Januar bereits die Pilotphase mit den ersten Nutzenden begonnen. So konnten die ersten Wissenschaftler*innen bereits Erfahrungen auf dem neuen Hochleistungsrechner sammeln und zu einem stabilen und nutzungsfreundlichen Systembetrieb beitragen. (**)
Die insgesamt 632 direktwassergekühlten Rechenknoten für das klassische High Performance Computing (HPC) zeichnen sich nicht nur durch eine deutliche Leistungssteigerung aus, sondern sind auch in puncto Nachhaltigkeit und Energieeffizienz auf dem neusten Stand der Technik. Die beiden Intel Xeon 8468 Sapphire Rapids CPUs haben in jedem Rechenknoten insgesamt 96 Kerne. Im Vergleich zum vorherigen System erhöht sich die Leistung bei vielen Anwendungen mit ähnlicher Konfiguration etwa um den Faktor zwei. Der unterschiedliche Speicherausbau der Knoten (256, 512 oder 1024 GB RAM) ermöglicht eine passgenaue Nutzung bei gleichzeitiger Kostenoptimierung. Die Peak-Performance dieses HPC-Segments beträgt ca. 4 PFLOPs und es werden jedes Jahr bis zu 530 Millionen Core-Stunden vergeben werden.
Innovative Infrastruktur für KI und ML
Um den aktuellen Entwicklungen im Bereich der Künstlichen Intelligenz und insbesondere des Maschinellen Lernens Rechnung zu tragen, wurden darüber hinaus 52 Server speziell für Anwendungen in diesen Bereichen beschafft. Diese Rechenknoten sind zusätzlich zu den beiden CPUs noch mit jeweils vier sehr leistungsstarken und eng gekoppelten NVIDIA H100 GPUs ausgestattet. Zusammen mit den 96 GB HBM2e Speicher pro GPU können somit auch sehr groß ML-basierte Modelle berechnet werden, da in diesem Segment auch das Hochgeschwindigkeitsnetzwerk noch stärker ausgelegt ist. Die Gesamtleistung des ML-Segments beträgt somit bezogen auf die GPUs über 14 PFLOPS.
Zur Simulation großer Modelle nutzen die hochskalierbaren Anwendungen in der Regel sehr viele Rechenknoten parallel. Damit die Kommunikation zwischen den Rechenknoten nicht zum Flaschenhals wird, wurde das gesamte System mit einem sehr schnellen NDR Infiniband RDMA (Remote Data Memory Access) Netzwerk ausgestattet. Abgerundet wird das System durch neue Login-Knoten und einer speziellen interaktiven Partition, die es den Nutzenden ermöglicht, über einen JupyterHub ohne große Wartezeiten interaktive Jobs zu starten. Diese moderne Zugangsmöglichkeit erleichtert den Einstieg in die Welt des Hochleistungsrechnens, insbesondere für die vielen Studierenden und neuen Mitarbeitenden der RWTH. Zur Speicherung und Verarbeitung der Forschungsdaten wird gleichzeitig ein neues leistungsstarkes paralleles Datei System (Lustre) mit einer Gesamtkapazität von 26 PiB zur Verfügung stehen.
Schulungen und Workshops
Da das in die Jahre gekommene Vorgängersystem CLAIX-2018 das Ende seiner Lebenszeit erreicht hat, wird der Betrieb dieser Maschine auch aus ökonomischen und ökologischen Gründen nur noch für eine kurze Übergangsphase fortgeführt. Um den vielen Nutzenden einen schnellen und unkomplizierten Wechsel zu ermöglichen, wurde der Software-Stack bereits so ausgelegt, dass gleichzeitig CLAIX-2018 und CLAIX-2023 unterstützt werden. Begleitet wird die Umstellung durch zahlreiche Veranstaltungsangebote. Die „Introduction to High-Performance Computing 2024“ vom 5. bis zum 6. Februar bot hier bereits die erste Gelegenheit, das System kennen zu lernen. In dem „Porting und Tuning Workshop 2024″ vom 26.02. bis zum 01.03.24 wird der Fokus auf die neue Rechenarchitektur noch mal verschärft und Nutzende haben die Gelegenheit zusammen mit Expert*innen des IT Centers an den Skripten und Anwendungen zu arbeiten. Darüber hinaus bieten auch die „PPCES 2024“ im März sowie die monatliche „HPC Sprechstunde“ reichlich Gelegenheit zu einem produktiven Austausch und runden somit die enge Betreuung der Nutzenden des IT Centers ab.
HPC-Landingpage
Um für alle aktuellen und potenziellen Nutzenden sowie interessierten Personen einen zentralen Einstiegspunkt für das Thema RWTH Hochleistungsrechnen zu schaffen, bündelt die HPC-Landingpage einen Überblick über aktuelle Forschungsprojekte, die angebotenen Services und Veranstaltungen sowie Informationen zur Nutzung der RWTH-Systeme. Auf der Landingpage erhaltet ihr weitere Informationen über CLAIX und dessen Nutzung und könnt euch intensiver mit dem Thema Hochleistungsrechnen an der RWTH auseinander setzen.***
Verantwortlich für die Inhalte dieses Beitrags ist Tim Cramer und Christian Terboven.
Schreibe einen Kommentar