{"id":4214,"date":"2018-12-07T14:00:12","date_gmt":"2018-12-07T13:00:12","guid":{"rendered":"https:\/\/blog.rwth-aachen.de\/itc\/?p=4214"},"modified":"2025-02-24T11:29:09","modified_gmt":"2025-02-24T10:29:09","slug":"performance-monitoring-der-hpc-systeme","status":"publish","type":"post","link":"https:\/\/blog.rwth-aachen.de\/itc\/2018\/12\/07\/performance-monitoring-der-hpc-systeme\/","title":{"rendered":"ProPE Performance Engineering: Performance Monitoring der HPC-Systeme"},"content":{"rendered":"<div class=\"twoclick_social_bookmarks_post_4214 social_share_privacy clearfix 1.6.4 locale-de_DE sprite-de_DE\"><\/div><div class=\"twoclick-js\"><script type=\"text\/javascript\">\/* <![CDATA[ *\/\njQuery(document).ready(function($){if($('.twoclick_social_bookmarks_post_4214')){$('.twoclick_social_bookmarks_post_4214').socialSharePrivacy({\"txt_help\":\"Wenn Sie diese Felder durch einen Klick aktivieren, werden Informationen an Facebook, Twitter, Flattr, Xing, t3n, LinkedIn, Pinterest oder Google eventuell ins Ausland \\u00fcbertragen und unter Umst\\u00e4nden auch dort gespeichert. N\\u00e4heres erfahren Sie durch einen Klick auf das <em>i<\\\/em>.\",\"settings_perma\":\"Dauerhaft aktivieren und Daten\\u00fcber-tragung zustimmen:\",\"info_link\":\"http:\\\/\\\/www.heise.de\\\/ct\\\/artikel\\\/2-Klicks-fuer-mehr-Datenschutz-1333879.html\",\"uri\":\"https:\\\/\\\/blog.rwth-aachen.de\\\/itc\\\/2018\\\/12\\\/07\\\/performance-monitoring-der-hpc-systeme\\\/\",\"post_id\":4214,\"post_title_referrer_track\":\"ProPE+Performance+Engineering%3A+Performance+Monitoring+der+HPC-Systeme\",\"display_infobox\":\"on\"});}});\n\/* ]]> *\/<\/script><\/div><p><div style=\"width: 383px\" class=\"wp-caption alignright\"><img loading=\"lazy\" decoding=\"async\" class=\"transparent\" src=\"https:\/\/blogs.fau.de\/prope\/files\/2016\/10\/ProPE-logo.png\" alt=\"ProPE\" width=\"373\" height=\"192\" \/><p class=\"wp-caption-text\">Quelle: ProPE<\/p><\/div><\/p>\n<p>Das Jahr neigt sich dem Ende und wir m\u00f6chten Sie mit einer Blog-Serie durch den Advent begleiten. Im Rahmen des <a href=\"https:\/\/gauss-allianz.de\/de\/project\/title\/ProPE\">Projektes ProPE<\/a>, gef\u00f6rdert durch die Deutsche Forschungsgesellschaft, m\u00f6chten wir Ihnen Einblicke in die Welt des Performance Engineerings gew\u00e4hren. Jeden Freitag bis Weihnachten stellen wir Ihnen spannende Beitr\u00e4ge aus den Bereichen Performance Monitoring, Shared Knowledgebase und der standort\u00fcbergreifenden Supportstruktur vor, die von dem ProPE-Projektteam der RWTH Aachen University zur Verf\u00fcgung gestellt werden.<\/p>\n<p><!--more--><\/p>\n<p><strong>Automatisches Sammeln Performance-relevanter Messdaten durch Monitoring der Rechenjobs auf dem Hochleistungsrechner CLAIX: Die neue Infrastruktur am IT Center, die im Rahmen des <a href=\"https:\/\/blogs.fau.de\/prope\/\">Projekts ProPE<\/a> entstanden ist, erm\u00f6glicht eine bessere Identifikation von Rechenjobs mit ineffizienter Performance und somit auch Optimierungspotenzial f\u00fcr Nutzerjobs.<\/strong><\/p>\n<p>F\u00fcr CLAIX-2016 und CLAIX-2018 setzt das IT Center auf eine dauerhafte Performance-\u00dcberwachung der Rechenknoten. Dabei entf\u00e4llt der sonst \u00fcbliche Aufwand f\u00fcr den Nutzer, entsprechende Tools manuell einzubinden und erleichtert die (nachtr\u00e4gliche) Analyse und den Vergleich von Batch-Jobs. Aktuell wird zudem eine automatische Datenauswertung evaluiert, um damit Performance-Probleme in den laufenden Applikationen zu detektieren.<\/p>\n<p>Aus Datenschutzgr\u00fcnden sind die Monitoring-Daten zurzeit noch nicht direkt f\u00fcr Nutzer des HPC-Clusters einsehbar. Es wird aber an einer entsprechenden L\u00f6sung gearbeitet, sodass Entwickler die Daten effektiv f\u00fcr die Verbesserung eigener HPC-Codes einsetzen k\u00f6nnen. Sollten Sie in der Zwischenzeit bereits Interesse an der Analyse haben, k\u00f6nnen Sie sich unter Angabe der Job-ID, der Hostnamen und des Zeitraums an den <a href=\"mailto:servicedesk@itc.rwth-aachen.de\">ServiceDesk<\/a> wenden.<\/p>\n<div id=\"attachment_4220\" style=\"width: 813px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/blog.rwth-aachen.de\/itc\/files\/2018\/12\/ProPe_1.png\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-4220\" class=\"wp-image-4220\" src=\"https:\/\/blog.rwth-aachen.de\/itc\/files\/2018\/12\/ProPe_1.png\" alt=\"\" width=\"803\" height=\"402\" srcset=\"https:\/\/blog.rwth-aachen.de\/itc\/files\/2018\/12\/ProPe_1.png 1776w, https:\/\/blog.rwth-aachen.de\/itc\/files\/2018\/12\/ProPe_1-300x150.png 300w, https:\/\/blog.rwth-aachen.de\/itc\/files\/2018\/12\/ProPe_1-768x384.png 768w, https:\/\/blog.rwth-aachen.de\/itc\/files\/2018\/12\/ProPe_1-1024x512.png 1024w\" sizes=\"auto, (max-width: 803px) 100vw, 803px\" \/><\/a><p id=\"caption-attachment-4220\" class=\"wp-caption-text\">Visualisierung des Performance Monitorings in Grafana. Zu sehen ist die Ausf\u00fchrung des High Performance Linpacks (HPL) auf 12 MPI-Knoten von CLAIX-2016. Dieser Benchmark bildet die Grundlage des Rankings in der Top500. <br \/>Quelle: ProPE<\/p><\/div>\n<p><strong>Technische Umsetzung<\/strong><\/p>\n<p>Zur Speicherung der Daten setzt das IT Center auf die Time Series Database (TSDB) <a href=\"https:\/\/www.influxdata.com\/time-series-platform\/influxdb\/\">InfluxDB<\/a>. Zur eigentlichen \u00dcberwachung l\u00e4uft auf jedem Knoten der Monitoring-Daemon <a href=\"https:\/\/www.influxdata.com\/time-series-platform\/telegraf\/\">Telegraf<\/a>. Dieser wurde dahingehend erweitert, dass HPC-relevante Metriken wie die Auslastung des OmniPath-Netzwerkes und des parallelen Dateisystems Lustre erfasst wird. Au\u00dferdem nutzt der Daemon das Tool <a href=\"https:\/\/github.com\/RRZE-HPC\/likwid\">likwid<\/a> zum Auslesen von Performance-Countern, um unter anderem Informationen \u00fcber die Taktfrequenz, die ausgef\u00fchrten Floating Point Operations per Second (FLOP\/s) und die genutzte Speicherbandbreite zu erhalten.<\/p>\n<p>Bei der Umsetzung wurde darauf geachtet, den Overhead sehr klein zu halten, der durch eine dauerhafte Messung entstehen kann. Aus diesem Grund werden die Daten (nur) einmal in der Minute gemessen, wobei in keiner der getesteten Anwendungen eine signifikante Auswirkung sichtbar war. Diese Frequenz stellt damit einen Kompromiss zwischen dem Overhead und der anfallenden Datenmenge auf der einen sowie der dennoch ausreichenden Aufl\u00f6sung auf der anderen Seite dar. Seiteneffekte des dauerhaften Monitorings k\u00f6nnen entstehen, wenn andere Analyse-Tools gleiche Hardware-Register verwenden. Um eine gegenseitige St\u00f6rung und falsche Ergebnisse zu verhindern, k\u00f6nnen Nutzer entsprechende Parameter im Job-Skript setzen (bitten beachten Sie die entsprechende Dokumentation auf <a href=\"https:\/\/help.itc.rwth-aachen.de\/service\/rhr4fjjutttf\/\">IT Center Help<\/a>, insbesondere zu Intel VTune und <a href=\"https:\/\/help.itc.rwth-aachen.de\/service\/rhr4fjjutttf\/article\/5f8ca5106aa34e0181d585d65bca669b\/\">likwid<\/a>).<\/p>\n<p>Das <a href=\"https:\/\/blogs.fau.de\/prope\/\">Projekt ProPE<\/a> wird von der Deutschen Forschungsgemeinschaft (DFG) f\u00fcr drei Jahre gef\u00f6rdert (2\/2017 \u2013 1\/2020). Das Ziel des Projekts ist die Entwicklung eines Konzepts f\u00fcr eine nachhaltige, strukturierte und prozessorientierte Service-Infrastruktur, die das Performance Engineering (PE) von Simulationsanwendungen an deutschen Hochleistungszentren im Bereich Tier-2 und Tier-3 f\u00f6rdert. Das Projekt wird von den folgenden Partnern getragen: FAU Erlangen-N\u00fcrnberg, TU Dresden, RWTH Aachen.<\/p>\n<p>Verantwortlich f\u00fcr die Inhalte dieses Beitrags sind:<br \/>\n<a href=\"http:\/\/www.itc.rwth-aachen.de\/cms\/IT-Center\/IT-Center\/Team\/~epvp\/Mitarbeiter-CAMPUS-\/?gguid=0x98F22240EADA9147A4D52178ACAC5E69&amp;allou=1\">Sandra Wienke<\/a>\/ Jonas Hanfeld: Text &amp; Bild<br \/>\n<a href=\"http:\/\/www.itc.rwth-aachen.de\/cms\/IT-Center\/IT-Center\/Team\/~epvp\/Mitarbeiter-CAMPUS-\/?gguid=0x3CFCED905704E14FA6E77F1CFA159EC3&amp;allou=1\">Sara Kaya<\/a>: Content Management<\/p>","protected":false},"excerpt":{"rendered":"<p>Das Jahr neigt sich dem Ende und wir m\u00f6chten Sie mit einer Blog-Serie durch den Advent begleiten. Im Rahmen des Projektes ProPE, gef\u00f6rdert durch die Deutsche Forschungsgesellschaft, m\u00f6chten wir Ihnen [&hellip;]<\/p>\n","protected":false},"author":1328,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"c2c_always_allow_admin_comments":false,"footnotes":""},"categories":[924],"tags":[],"class_list":["post-4214","post","type-post","status-publish","format-standard","hentry","category-hpcnews"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/blog.rwth-aachen.de\/itc\/wp-json\/wp\/v2\/posts\/4214","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.rwth-aachen.de\/itc\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.rwth-aachen.de\/itc\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.rwth-aachen.de\/itc\/wp-json\/wp\/v2\/users\/1328"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.rwth-aachen.de\/itc\/wp-json\/wp\/v2\/comments?post=4214"}],"version-history":[{"count":18,"href":"https:\/\/blog.rwth-aachen.de\/itc\/wp-json\/wp\/v2\/posts\/4214\/revisions"}],"predecessor-version":[{"id":21608,"href":"https:\/\/blog.rwth-aachen.de\/itc\/wp-json\/wp\/v2\/posts\/4214\/revisions\/21608"}],"wp:attachment":[{"href":"https:\/\/blog.rwth-aachen.de\/itc\/wp-json\/wp\/v2\/media?parent=4214"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.rwth-aachen.de\/itc\/wp-json\/wp\/v2\/categories?post=4214"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.rwth-aachen.de\/itc\/wp-json\/wp\/v2\/tags?post=4214"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}