—-English version below—-
Im Rahmen des DFG-Projektes ProPE (Prozessorientiertes Performance-Engineering) gilt es eine Serviceinfrastruktur zu entwickeln, die einen effizienten Gebrauch von Ressourcen im Bereich High Computing standortübergreifend ermöglicht. Dabei stehen die Nutzenden der kooperierenden Rechenzentren, dem ZIH der Technischen Universität Dresden, dem RRZE der Friedrich-Alexander-Universität Erlangen/Nürnberg und dem IT Center der RWTH im Vordergrund, die von den Kompetenzen und Beratungsschwerpunkten aller Kooperationspartner profitieren.
Alle drei beteiligten Rechenzentren nutzen grundlegend ähnliche Servicestrukturen. Im Rahmen von ProPE wird für das Performance-Engineering der örtliche 1st- und 2nd-Level-Support durch einen 3rd-Level ergänzt. Dieser besteht aus den HPC-Experten der jeweiligen Kooperationspartner mit dem Ziel, eine kompetenzorientierte HPC-Anwenderunterstützung standortübergreifend anzubieten.
Um auf einer gemeinsamen und einheitlichen Ebene zu kommunizieren, Daten auszutauschen und durch die Kompetenzen der Partner zu lernen ist ein gemeinsames Tickettool notwendig. So ist es Nutzenden möglich, eine Anfrage an das Heimatzentrum zu stellen, um im Bedarfsfall das Know-How von Experten an anderen Rechenzentren zur optimalen Lösung ihres Anliegens heranzuziehen. Nach Erklärung des Einverständnisses können Nutzende auf diese Weise von externem Erfahrungswerten und Expertenwissen profitieren.
Um unter den jeweiligen Rechenzentren einen reibungslosen Kommunikationsprozess gewährleisten zu können, wird das Tickettool OTRS für die Lösung von ProPE-Supportanfragen genutzt. Dieses wird bereits von den Zentren ZIH und RRZE genutzt, und auch von der GAUSS-Allianz für ProPE zur Verfügung gestellt.
Für die Bereitstellung größerer supportrelevanter Dateien wird das Tool GigaMove verwendet. Der Dienst GigaMove stellt eine unkomplizierte und benutzerfreundliche Lösung dar, große Datenmengen, wie sie im Performance-Engineering häufig sind (z.B. Trace-Files oder Monitoring-Daten, sicher (Verweis auf die Funktionalität von GigMove) auszutauschen. Der Datenaustausch wird dabei von den Supportenden der Heimateinrichtung im 2nd-Level angestoßen und dem 3rd-Level- zur Lösung des Anliegens zur Verfügung gestellt.
Ziel ist es natürlich auch, aus den Erkenntnissen und Lösungsansätzen der Kooperationspartner zu lernen und einen nachhaltigen Mehrwert zu schaffen. Deshalb werden Erkenntnisse nicht nur in den jeweiligen Kundenanfragen dokumentiert und an Nutzende kommuniziert, sondern auch in einem gemeinsamen MediaWiki für die HPC-Community zur Verfügung gestellt.
In dieser Entwicklung zeigt sich nicht nur der große Nutzen für den Support im Bereich des Performance-Engineerings im Rahmen des Projektes ProPE, sondern auch einen Blueprint für die ortsübergreifende Zusammenarbeit im geplanten Nationalen Hoch- und Höchstleistungsrechnen (NHR).
—-English version—-
ProPE Performance Engineering: Supraregional support for HPC users in the area of performance engineering
As part of the DFG project ProPE (Process-oriented Performance Engineering), it is important to develop a service infrastructure that enables the efficient use of resources in the area of high computing across locations. The focus is on the users of the cooperating computer centers, the ZIH of the Dresden University of Technology, the RRZE of the Friedrich-Alexander-University Erlangen / Nuremberg and the IT Center of the RWTH, who benefit from the expertise and consulting focus of all cooperation partners.
All three data centers involved use fundamentally similar service structures. As part of ProPE, the local 1st and 2nd level support for performance engineering is supplemented by a 3rd level. This consists of the HPC experts of the respective cooperation partners with the aim of offering competence-oriented HPC user support across locations.
In order to communicate on a common and uniform level, to exchange data and to learn through the competences of the partners, a common ticket tool is necessary. It is thus possible for users to submit a request to the home center in order to use the know-how of experts at other data centers for the optimal solution of their request, if necessary. After agreement has been reached, users can benefit from external experience and expert knowledge.
In order to ensure a smooth communication process between the respective data centers, the ticket tool OTRS is used to solve ProPE support requests. This is already being used by the centers ZIH and RRZE, and also provided by the GAUSS Alliance for ProPE. The GigaMove tool is used to provide larger support-relevant files. The GigaMove service is a straightforward and easy-to-use solution for exchanging large volumes of data, such as trace files or monitoring data, which are common in performance engineering (reference to the functionality of GigMove) the home institution in the 2nd-level triggered and the 3rd-level- provided to solve the concern.
Of course, the goal is also to learn from the findings and solutions of the cooperation partners and to create sustainable added value. Therefore, findings are not only documented in the respective customer requests and communicated to users, but also made available in a common MediaWiki for the HPC community.
In this development is not only shown how great benefit for the support in the area of performance engineering within the framework of the project ProPE is, but also shows a great potential as a blueprint for the cross-local cooperation in the context of National High Performance Computing (NHR).
Verantwortlich für die Inhalte dieses Beitrags sind:
Nicole Filla, Dieter an Mey: Text & Bild
Sara Kaya: Content Management