
Quelle: Eigene Darstellung
Nachdem die aiXcelerate 2023 (einmalig) in den VI-HPS Porting & Tuning Workshop integriert wurde, gab es im vergangenen Jahr wieder die „traditionelle“ aiXcelerate. Wir schauen im folgenden Blogbeitrag auf die aiXcelerate 2024 zurück und werfen zusätzlich einen Blick auf die kommende PPCES 2025.
aiXcelerate 2024
aiXcelerate ist ein jährlicher Tuning-Workshop für HPC-Anwender*innen. Er umfasst Vorträge, die für jedermann zugänglich sind, und praktische Teile, in denen Teilnehmende die erlernten Konzepte auf ihre eigenen Codes anwenden.
Jedes Jahr konzentrieren wir uns auf ein anderes aktuelles Thema. Im letzten Jahr, vom 9. bis 11. Dezember 2024, befasste sich die aiXcelerate mit Machine-Learning (ML) auf NVIDIA GPUs (Grafikprozessoren). Dieses Mal fand ein Teil der aiXcelerate in hybrider Form statt; die Vorträge wurden am IT Center der RWTH Aachen University gehalten und die Teilnehmer*innen konnten sowohl in Person als auch über Zoom teilnehmen. Neben Vortragenden aus dem Kollegium des IT Centers kamen auch Beiträge von NVIDIA dazu. Der praktische Teil der aiXcelerate (aka „BYO Code“) wurde als reine vor-Ort-Veranstaltung durchgeführt.
Die aiXcelerate 2024 wurde als Teil von NHR4CES, HPC.NRW, EDIH Rheinland und WestAI durchgeführt. Wir bedanken uns ebenfalls bei NEC und NVIDIA für das Sponsoring der Verpflegung während der Veranstaltung.
Vorträge
Die Vorträge waren auf die drei Vormittage der drei Tage langen aiXcelerate aufgeteilt. Das Thema des ersten Tages war Performanceanalyse von Machine-Learning (ML)-Codes und umfasste die Nutzung des RWTH Performance Monitoring Systems, sowie die Nutzung von NVIDIAs Nsight Tool und wie man damit Bottlenecks findet.
Der zweite Tag konzentrierte sich auf die „Skalierung von ML-Codes über mehrere GPUs/Knoten hinweg“. Hier wurden Ansätze mit PyTorch (Distributed) und Tensorflow + Horovod vorgestellt, um ML-Codes durch die parallele Nutzung von mehr Hardware zu beschleunigen.
Am dritten Tag wurde sich mit dem „Umgang mit Datensätzen von ML-Codes“ beschäftigt. Es wurden die verschiedenen Optionen zur Speicherung und Verwendung von ML-Daten zur Laufzeit (auf CLAIX) vorgestellt. Außerdem wurde die Verwendung von Check-Pointing in ML-Codes vorgestellt, um den Zustand der Anwendung in bestimmten Intervallen zu speichern und so Fehlertoleranz zu gewährleisten. Durchschnittlich knapp 40 Teilnehmer*innen lernten so neue Inhalte zur Analyse und Optimierung ihrer ML-Codes.
Bring-Your-Own (BYO) Code
Auch der traditionelle „BYO-Code“-Teil war wieder ein fester Bestandteil der aiXcelerate. BYO-Code bedeutet, dass HPC-Nutzer*innen ihre eigenen Softwarecodes mitbringen und diese in den Tuning-Sessions optimieren können. Hierbei konnte u.a. das Gelernte aus den Vorträgen direkt angewandt werden und vor allem wurden die Nutzer*innen durch die vor Ort anwesenden HPC/ML- Expertinnen und Experten individuell angeleitet. Auch hier kam das Kollegium des IT Centers und ein Experte von NVIDIA zum Einsatz. Insgesamt wurden sieben Code-Teams betreut, die gute Fortschritte während des Workshops erzielten.
Daraufhin sagte eine Stimme aus der Veranstaltungsevaluation dazu: „This was extremely helpful. It was an amazing opportunity to get direct feedback and suggestions from experts, that are very familiar with the cluster.“
Unsere HPC-Veranstaltungen werden rechtzeitig über unsere Eventseiten angekündigt. Schaut doch beim nächsten Mal vorbei!
Der nächste Workshop im IT Center
Du bist neu auf unserem Cluster oder möchtest dein Wissen von Grund auf auffrischen?
Kein Problem! Im März findet bei uns wieder die Veranstaltung „Parallel Programming in Computational Engineering and Science“, kurz PPCES statt. Dieser Kurs richtet sich an Anwender, die noch keine oder nur geringe Erfahrungen im HPC-Bereich haben und sich mit der parallelen Programmierung im Allgemeinen vertraut machen möchten.
Das IT Center lädt hierzu vom 10. – 14. März ein. Wir halten euch auf unseren Social-Media-Kanälen auf dem Laufenden!
Die Agenda der diesjährigen PPCES umfasst die folgenden drei Schwerpunkte:
Montag und Dienstag: MPI
Mittwoch und Donnerstag: OpenMP
Freitag: Machine & Deep Learning

Quelle: PPCES
Verantwortlich für die Inhalte dieses Beitrags sind Masimba Koschke und Marc Weerts.
Schreibe einen Kommentar