Kategorien
Seiten
-

Forschungsdaten – Aktuelles und Wissenswertes

Weiterbildungsangebot „Management von Forschungsdaten“ an der RWTH Aachen University

10. Januar 2018 | von

Forschungsdaten sind Grundlage und Ergebnis der wissenschaftlichen Arbeit und professionelles Forschungsdatenmanagement ist die Voraussetzung für effektive und nachhaltige Forschung. Deshalb ist Forschungsdatenmanagement ein wichtiges Thema an der RWTH Aachen University. In der Zusammenarbeit aus Universitätsbibliothek, IT Center und dem Dezernat für Forschungsförderung wurden Angebote geschaffen, um Wissenschaftlerinnen und Wissenschaftler mit Information und Infrastruktur im Forschungsdatenmanagement zu unterstützen.

Was umfasst Forschungsdatenmanagement und welche Unterstützungsangebote gibt es an der RWTH? Das sind Inhalte des 2-stündigen Überblickseminars „Management von Forschungsdaten“, das seit 2014 kontinuierlich angeboten wird.

Sie wollen tiefer in das Thema einsteigen und in praktischen Übungen hands-on Erfahrungen zu den Konzepten und Werkzeugen des Forschungsdatenmanagements sammeln? Dann besuchen Sie zudem unseren ganztägigen Workshop zum Management von Forschungsdaten. Dieser baut auf dem Überblickseminar auf und umfasst die Themen Datenmanagementpläne, aktives Datenmanagement, Archivierung und Publikation von Forschungsdaten. Die Übungen und Beispiele sowie der Erfahrungsaustausch mit Kolleginnen/Kollegen werden Ihnen helfen, Ihre Arbeitsweisen zu reflektieren und zu optimieren.

Der vertiefende Workshop findet erstmals am 18.04.2018 statt und ersetzt die bisher angebotenen Seminare „Persönliches Datenmanagement“, „Datenmanagement in Arbeitsgruppen und Kollaborationen“, „Erstellung von Datenmanagementplänen“, „Archivierung und Publikation – Pflichten und Chancen“ und „Daten zu Dissertationen – Publikation und Archivierung von Forschungsdaten“.

Beide Veranstaltungen sind ab sofort über die Veranstaltungsdatenbank der RWTH buchbar. Zudem können Sie sich bei Fragen zum Forschungsdatenmanagement jederzeit auch direkt an das ServiceDesk wenden und ggf. einen Beratungstermin oder einen individuellen Schulungstermin mit abgestimmten Themen für Ihr Institut oder Ihre Projektgruppe vereinbaren.

8. DINI/nestor Workshop „Forschungsdatenrepositorien“

20. Dezember 2017 | von

Am 27. und 28. November fand der 8. DINI/nestor-Workshop der Arbeitsgemeinschaft Forschungsdaten innerhalb der Deutschen Initiative für Netzwerkinformation e. V. (DINI) in Stuttgart statt. Die DINI widmet sich dem Wandel der Informationsinfrastrukturen in Hochschulen und anderen Forschungseinrichtungen, der durch die Entwicklung moderner Informations- und Kommunikationstechnologie hervorgerufen wird. „DINI wurde gegründet, um die Verbesserung der Informations- und Kommunikationsdienstleistungen und die dafür notwendige Entwicklung der Informationsinfrastrukturen an den Hochschulen sowie regional und überregional zu fördern“ (Quelle). Die RWTH Aachen University war mit zwei Beiträgen an diesem Workshop beteiligt.

Dominik Schmitz (Universitätsbibliothek, RWTH Aachen University) und Marius Politze (IT Center, RWTH Aachen University) referierten über die Verknüpfung von Publikationen und Forschungsdaten in einem Invenio-basierten Repositorium. Die Universitätsbibliothek (UB) der RWTH Aachen betreibt mit RWTH Publications ein Repositorium mit den Funktionen: Publikationsnachweis, Publikationsserver, Forschungsdatenveröffentlichung und Verknüpfung zwischen Publikationen und veröffentlichten oder archivierten Forschungsdaten. Das Repositorium basiert auf der am CERN entwickelten Repositoriumssoftware Invenio, die im Rahmen des Projekts join2 gemeinschaftlich mit den Helmholtz-Einrichtungen DESY Hamburg, DKFZ Heidelberg, GSI Darmstadt und Forschungszentrum Jülich erheblich weiter entwickelt wurde. Zentrale Elemente sind umfangreiche Importmöglichkeiten sowie die aufwändige Verknüpfung der erfassten Daten mit geeigneten Normdaten zu Personen, Instituten, Periodika und Projekten sowie der Datensätze untereinander.

Die UB ist als Datenzentrum bei der Technischen Informationsbibliothek Hannover (TIB) registriert und vergibt über diesen Weg DOIs für die im Repositorium veröffentlichten Volltexte und Forschungsdaten. Forschungsdaten werden aktuell vor allem im Kontext von Dissertationen mit veröffentlicht. Um den essentiell wichtigen Link zwischen Publikationen und den zugrundeliegenden Daten nicht zu verlieren, ist das Repositorium explizit darauf ausgelegt, Publikationen auch dann mit Daten verknüpfen zu können, wenn diese nicht veröffentlicht sind, sondern z.B. durch die Anwendung SimpleArchive im Archivsystem der RWTH gespeichert werden. Zudem besteht die bereits gerne genutzte Möglichkeit, im Repositorium Datensätze und Daten zu speichern, die nur für das jeweilige Institut zugänglich sind. Auf diese Weise ist eine verlässliche Dokumentationsumgebung entstanden, die die Verbindung zwischen Daten und Publikationen fokussiert und gleichzeitig Skalierungsmöglichkeiten für die vielen unterschiedlichen Anforderungen zum Grad der Zugänglichkeit von Informationen ermöglicht.

Das Repositorium ist Teil einer umfassenderen Service-orientierten Gesamtinfrastruktur für die Unterstützung von vielfältigen Forschungsdatenmanagementprozessen. Diese integrierte IT Landschaft nutzt Technologien wie Single Sign On und aufeinander abgestimmte und vernetzte User Interfaces um die Nutzerfreundlichkeit zu verbessern.

In einem weiteren Beitrag stellte Bela Brenger (IT Center, RWTH Aachen) zusammen mit Ania López (UB Duisburg-Essen), Stephanie Rehwald (UB Duisburg-Essen), Stefan Stieglitz und Konstantin Wilms (Universität Duisburg-Essen, Abteilung für Informatik und Angewandte Kognitionswissenschaft) das UNEKE-Projekt vor. Das Projekt reagiert auf die Forderung des Rates für Informationsinfrastrukturen, langfristig eine Nationale Forschungsdateninfrastruktur (NFDI) zu etablieren, die flächendeckend die Grundversorgung mit FDM-Speicherinfrastrukturen und -Services sicherstellt. Bisher besteht neben gut ausgebauten Infrastrukturen einzelner Fach-Communities eine Vielzahl von Insellösungen an den Hochschulen für die Vorhaltung von Forschungsdaten. Interoperabilität sowie Migrierbarkeit sind zentrale Anforderungen beim Auf- und Ausbau institutioneller Speicherkonzepte, um die Anschlussfähigkeit an möglicherweise entstehende fachspezifische oder nationale Lösun­gen zu sichern. Damit stehen Hochschulen bei der Implementierung ihrer Forschungsdateninfrastruktur vor der Entscheidung, ob auf dem Weg zur NFDI für die Speicherung von Forschungsdaten lokale Speicherstrukturen und Repositorien nötig sind oder bestehende externe Angebote genutzt werden können. Hierfür fehlen bisher objektive Kriterien.

Das BMBF-geförderte Kooperationsprojekt UNEKE der Universität Duisburg-Essen und der RWTH Aachen entwickelt und evaluiert diese Kriterien und bettet diese in eine Roadmap ein, die sowohl die individuellen Rahmenbedingungen der Hochschulen als auch fachspezifische Bedarfe berücksichtigt. Der Vortrag stellte das Projekt sowie eine erste Version des Kriterienkatalogs zur Auswahl von Speicherlösungen auf Grundlage der in Interviews und Workshops erhobenen Bedarfe der Wissenschaftler/innen vor.

RWTH Aachen und TU Darmstadt – eine Kooperation zur Stärkung der wissenschaftlichen Forschung

13. Dezember 2017 | von

Forschungsdatenmanagement bezweckt nicht allein, wissenschaftliche Ergebnisse zu sichern und erneut bereitzustellen, sondern hat ebenso die Unterstützung überregionaler und internationaler Kooperation von Forschungseinrichtungen zum Ziel. Ebenso wie auf Forschungsebene werden die zur Erlangung dieser Ziele eingesetzten IT-Dienste zunehmend nicht mehr nur von einzelnen IT Service Providern für die lokalen Universitäten bereitgestellt. IT Service Provider kooperieren im Zuge der Intensivierung des Forschungsdatenmanagements in überregionalen Zusammenhängen, um Forschungsdatenmanagement mit einfach zu bedienenden Softwarelösungen an unterschiedlichen Hochschulen zu unterstützen.

Zur Gewährleistung einer hohen Qualität des Forschungsdatenmanagements hat die RWTH Aachen durch die vereinbarte Kooperation mit der TU Darmstadt zeitgemäße IT-Lösungen initiiert. Gemeinsam werden die beiden Universitäten zwei IT-Dienste an den Standorten Aachen und Darmstadt installieren und sukzessive weiterentwickeln.

Das IT Center der RWTH Aachen wird Anfang 2018, in Zusammenarbeit mit dem Hochschulrechenzentrum der TU Darmstadt, die Funktionalität von simpleArchive auf Infrastruktur der TU Darmstadt etablieren. Hierzu wird die Systemarchitektur vom Hochschulrechenzentrum auf die Darmstädter Standortanforderungen angepasst und erweitert. Im Gegenzug wird der von der Universitäts- und Landesbibliothek der TU Darmstadt betriebene Research Data Management Organiser (RDMO) an der RWTH Aachen installiert. Die im Rahmen eines von der DFG geförderten Projektes entwickelte Anwendung ermöglicht ein strukturiert geplantes und durchgeführtes Forschungsdatenmanagement. Sie erlaubt es, alle relevanten Planungsinformationen in Datenmanagementplänen zu erfassen und die anfallenden Datenmanagementaufgaben über den gesamten Datenlebenszyklus zu verwalten. Die ULB Darmstadt wird RDMO zunächst an die Shibboleth-Infrastruktur anbinden und an der TU Darmstadt testen. Shibboleth ermöglicht den Nutzenden, sich mit ihren vorhandenen Daten aus dem zentralen Identity Management per Single-Sign-on einzuloggen – eine gesonderte Registrierung für den Dienst ist nicht notwendig. Nach erfolgreichem Testbetrieb in Darmstadt wird der Dienst auch für die Forschenden aus Aachen bereitstehen.

 

Die Kooperation mit dem Forschungszentrum Jülich

04. Dezember 2017 | von

In Anbetracht der stetig zunehmenden nationalen und internationalen Vernetzung verschiedener Forschungseinrichtungen, empfiehlt die Deutsche Forschungsgemeinschaft, das Management von Forschungsdaten idealerweise kooperativ zwischen Forschungseinrichtungen voranzutreiben. Auf diesem Wege können Methoden und Verfahren zielführend implementiert werden, um eine langfristige Nachnutzbarkeit der Forschungsdaten zu gewährleisten. Auch die RWTH Aachen hat die Notwendigkeit erkannt, Forschungsdatenmanagement in Zusammenarbeit mit anderen Forschungseinrichtungen voranzutreiben und dazu existierende Kooperationen auszubauen.

Mit dem Forschungszentrum Jülich (FZ Jülich) arbeitet die RWTH Aachen bereits im Rahmen der Jülich Aachen Research Alliance, kurz JARA, in sechs Forschungssektionen zusammen. Durch die Beteiligung des FZ Jülich in der Aachener Lenkungsgruppe des Forschungsdatenmanagementprojekts wurde diese Zusammenarbeit ausgebaut. Nun wird die Kooperation durch die Prüfung der Möglichkeiten gemeinsamer IT-infrastruktureller Lösungen zu den Herausforderungen des Forschungsdatenmanagements sowie durch die Aufnahmen eines Vertreters/einer Vertreterin der RWTH in die Projektlenkungsgruppe zum Forschungsdatenmanagement am FZ Jülich intensiviert.

Im Rahmen dieser Kooperation von RWTH Aachen und dem FZ Jülich werden die Bündelung von Kompetenzen vorangetrieben, Synergien genutzt und Wissen vernetzt, um weitere Erkenntnisse zum Forschungsdatenmanagement für die Zukunft zu gewinnen.

Der Support des Forschungsdatenmanagements

28. November 2017 | von

An der RWTH Aachen University arbeiten die Universitätsbibliothek, das Dezernat 4.2 – Forschungsförderung und das IT Center gemeinsam an der Unterstützung des Forschungsdatenmanagements durch geeignete Infrastruktur und Supportangebote. Um einen barrierenfreien Support zu ermöglichen, wurde an der RWTH Aachen ein einheitliches Service-Modells etabliert, in dem das ServiceDesk als Single Point of Contact agiert.

Das ServiceDesk dient als zentrale Anlaufstelle für alle Fragen zum Management von Forschungsdaten und ist über die E-Mail-Adresse servicedesk@rwth-aachen.de erreichbar. Es ist im 1st-Level für die Beantwortung grundlegender, als Standard definierter Anfragen zuständig. Weitergehende Anfragen werden an die entsprechende beteiligte Institution weitergeleitet (siehe Abbildung).

Dieses Vorgehen hat für die Anfragenden den Vorteil, dass alle Fragen direkt an eine Zentraladresse gesendet werden können und damit ein Orientierungsaufwand entfällt. Zugleich werden alle Anfragen in einem Tickettool bearbeitet, sodass im Fall von Weiterleitungen kein Medienbruch entsteht und die Historie der Anfrage vollständig nachvollziehbar ist.

Das Metadatentool – ein Dienst zur strukturierten Dokumentation von Forschungsdaten

20. November 2017 | von

Um Forschungsdaten zu managen, sie strukturiert und langfristig zu sichern und wieder bereitstellen zu können, ist es unerlässlich, sogenannte Metadaten zu verwenden. Metadaten sind Informationen über die eigentlichen Daten. Metadaten geben Auskunft darüber, wann und von wem Forschungsdaten erstellt wurden, in welchem Projekt oder fachlichen Kontext sie entstanden sind und was benötigt wird, um mit den Daten zu arbeiten. Beispielsweise werden Bücher über die Metadaten Autor/in, Verlag, Jahr, Erscheinungsort und ISBN beschrieben.

Zur Sicherstellung des Austauschs und der Wiederverwendbarkeit von Metadaten über digitale Informationssysteme sollten einheitliche, nach Möglichkeit standardisierte Metadatenschemata verwendet werden. Ein geeignetes Metadatenschema auszuwählen oder zu erstellen ist jedoch eine anspruchsvolle Aufgabe, bei der Sie das Projektteam FDM gerne unterstützt. Auf der Webseite der RWTH Aachen finden Sie weitere Informationen zu diesem Thema .

Zudem stellt das IT Center ein Metadatentool bereit, mittels dessen strukturierte Metadaten entsprechend eines vorab angelegten Metadatenschemas generiert werden können. Das Metadatentool gibt nicht allein die auszufüllenden Felder kontrolliert vor, sondern ebenso die Schlagworte, die zur Befüllung der Felder verwendet werden sollen. Auf diesem Wege lassen sich Tippfehler oder inkonsistentes Beschreibungsvokabular vermeiden. Darüber hinaus können durch das Metadatentool Persistent Identifier erzeugt werden, um Forschungsdaten mit Metadaten zu verknüpfen und an verschiedenen Orten zu verlinken. Eine Anleitung zur Nutzung des Metadatentools ist im Dokumentationsportal des IT Centers zu finden.

pSTAIX – eine prozessorientierte Unterstützung des Forschungsdatenmanagements

16. November 2017 | von

IT-Service Provider an Hochschulen, wie das IT Center, sind mit stetig zunehmenden Anforderungen an neue und bestehende IT-Systeme und Wünschen nach fachspezifischen IT-Lösungen zur individuellen Prozessunterstützung konfrontiert. An der RWTH Aachen University wurde daher eine Referenzarchitektur entwickelt, mit deren Hilfe Dienste u.a. zur Unterstützung des Forschungsdatenmanagements aufgebaut werden können. 

Im Rahmen des FDM-Projektes wird es als wichtig erachtet, Dienste so zur Verfügung zu stellen, dass diese einen direkten Mehrwert für Nutzende liefern, aber auch flexibel genug sind, um zukünftig auf geänderte Anforderungen reagieren zu können. Hier hilft pSTAIX weiter. pSTAIX steht für „Process Oriented Software Tiers for Application Interfaces and EXtensions“ und stellt eine Referenz-SOA (Service Orientierte Architektur) dar, in der system- und technologieabhängige Schnittstellen zu prozessorientierten Schnittstellen gewandelt werden. Verwendet werden dazu „Tiers“ (also Ebenen), um schrittweise technologie- und prozessabhängige Aspekte voneinander zu trennen. Die Organisation der Schnittstellen in diesen Tiers erlaubt es den Betreibenden, die Implementierung einzelner Dienste auszutauschen, ohne alle bestehenden Anwendungen anzupassen.

Zugleich ist pSTAIX eine Art Anleitung dafür, wie Softwareentwicklungs- und IT-Betriebs-Teams strukturiert werden können, um die Implementierung und den Betrieb eines prozessorientierten Services zu ermöglichen: ein Team ist für die Bereitstellung einer definierten Schnittstellenstruktur verantwortlich und kann sich auf die Entwicklung und Umsetzung in seinem jeweiligen Verantwortungsbereich konzentrieren.

Diese Referenzarchitektur fand an der RWTH Aachen University bei der Entwicklung des Dienstes simpleArchive Verwendung. Hier wurden verschiedene, bereits bestehende IT-Dienste pSTAIX-konform miteinander kombiniert. Die so entstandene Anwendung, aber auch die prozessorientieren Schnittstellen stehen jetzt für Einrichtungen der RWTH Aachen zur Verfügung und können somit in Prozesse und Apps integriert werden.

Das Team des FDM-Projekts berät Sie gerne dazu, wie Sie die Dienste des IT Centers für Forschungsprozesse in Ihrer Einrichtung nutzen können.

Das UNEKE-Projekt im Interview

08. November 2017 | von

Frage: Guten Tag Herr Brenger, sie arbeiten für das IT Center der RWTH Aachen im UNEKE-Projekt zum Forschungsdatenmanagement. Das ist ja zunächst ein recht kryptischer Namen, unter dem man sich vielleicht spontan nichts vorstellen kann. Können Sie uns erklären, wie genau die Architektur des Projektes aussieht und, vor allem, womit es sich befasst?

Bela Brenger: Aber natürlich, sehr gern. UNEKE.  Die Abkürzung UNEKE steht für „Vom USB-Stick zur NFDI – Entwicklung eines Kriterien geleiteten Entscheidungsmodells für den Aufbau von Forschungsdateninfrastrukturen“ und ist ein vom Bundesministerium für Bildung und Forschung (BMBF) gefördertes Projekt zum Forschungsdatenmanagement. UNEKE adressiert die für Hochschulen zentrale strategische Fragestellung, ob auf dem Weg zur Nationalen Forschungsdateninfrastruktur (NFDI) für die Speicherung von Forschungsdaten lokale Speicherstrukturen nötig sind oder bestehende externe Angebote genutzt werden können. Hier entwickelt UNEKE einen Kriterienkatalog, der eingebettet in eine Roadmap als Entscheidungsgrundlage für Hochschulen dienen soll.

Das Projekt ist im Juni dieses Jahres in Kooperation mit der Universitätsbibliothek Duisburg-Essen und der Abteilung für Informatik und angewandte Kognitionswissenschaft der Universität Duisburg-Essen gestartet. Universitätsbibliothek und IT Center gelten als die wesentlichen Akteure im Bereich der Verwaltung und Speicherung von Forschungsdaten. Von ihnen werden im Rahmen von UNEKE die Anforderungen an Infrastrukturen zur Speicherung von Forschungsdaten ermittelt und evaluiert.

Frage: Ah, das ist interessant. Gerade dem Forschungsdatenmanagement widmen sich an der RWTH Aachen University ja unterschiedliche Einrichtungen, sodass ihr Projekt hier sicher gut aufgehoben ist.

Ich habe gelesen, dass seit Oktober bereits Workshops im UNEKE-Projekt stattfinden. Was haben diese Workshops zum Ziel?

Bela Brenger: Grundlegend sollen die Workshops helfen, die Anforderungen verschiedener Forschungsdisziplinen und -kulturen differenziert abbilden zu können. Daher richten sie sich auch explizit an Forschende unterschiedlicher Fachrichtungen, wie der Naturwissenschaften und der Medizin, aber ebenso der Geistes- und Sozialwissenschaften und der Ingenieurwissenschaften.

Frage: Wie muss man sich das vorstellen? Was genau passiert in diesen Workshops?

Bela Brenger: Die Workshops sind in zwei Phasen unterteilt. In der ersten Phase können die Teilnehmenden in einer offenen Form die von ihnen wahrgenommenen Anforderungen und Herausforderungen beim Umgang mit Forschungsdaten artikulieren. Diese Antworten werden zunächst deskriptiv festgehalten.

Ausgehend von diesen Antworten werden in der zweiten Phase mit den Teilnehmenden gezielte, das heißt vorstrukturierte Interviews geführt. Diese Interviews werden nach dem Workshop transkribiert und analysiert. Das heißt, die Antworten werden auf Gemeinsamkeiten und Differenzen und mit Blick auf den Kontext der wissenschaftlichen Disziplinen untersucht, sodass die rein deskriptive Ebene verlassen und die Ebene wissenschaftlicher Forschung betreten wird.

Frage: Das klingt vielversprechend und greift den in der empirischen Sozialforschung etablierten Mixed-Methods-Ansatz auf.

Wie lief es denn bisher?

Bela Brenger: Die ersten Workshops liefen ganz gut. Die Teilnehmenden waren sehr engagiert.

Frage: Die Frage ist vielleicht zu früh, aber dennoch: Lassen sich schon einige Ergebnisse in ihren Konturen am Horizont wahrnehmen?

Bela Brenger: Hmm, die Antwort fällt hier momentan gerade noch schwer. Grundlegend ist die Frage, ob sich Erkenntnisse für die eine Fachdisziplin auf die anderen übertragen lassen. Weil sich die Gegenstandsbereiche der jeweiligen Forschung unterscheiden, kristallisiert sich heraus, dass in der einen Wissenschaft eher Anforderungen an die technische Infrastruktur, in der anderen eher Anforderungen an Datenschutz im Fokus der Forschenden stehen. Darauf muss das Forschungsdatenmanagement kontextsensible reagieren.

Frage: Wie geht es nach den Workshops weiter?

Bela Brenger: Die Workshops stecken zunächst einen qualitativen Rahmen ab, innerhalb dessen es möglich sein wird zu beantworten, auf welche technische Infrastruktur bereits zurückgegriffen werden kann, um Forschungsdaten zu managen. Zugleich sollen aber auch Potentiale eruiert werden. Durch eine größere Umfrage soll dieser Rahmen dann quantitativ gefüllt werden. Es wird sich zeigen, ob die Workshops einen guten Rahmen zur Bedarfserhebung und Analyse eines größeren Kontexts liefern.

Frage: Dann noch viel Erfolg im Projekt und danke für das Interview.

Bela Brenger: Sehr gerne!

 

Das Interview führte Markus Baum.

Rosetta

02. November 2017 | von

Die Software

Rosetta ist eine Software der Firma ExLibris für die Langzeitarchivierung von Daten. Das bedeutet vor allem, dass sie neben den Standardfunktionen eines Archiv-Systems („bitstream-preservation“, regelmäßige Integritätstests, Reduplizierung, …) eine Format-Validierung bietet. Beim Ingest der Daten wird das Dateiformat genau bestimmt und dokumentiert. Dieses wird dann regelmäßig gegen eine zentral gepflegte Datenbank geprüft, die an die PRONOM-Datenbank angelehnt ist und Informationen über die Gültigkeit eines Formats enthält. Bei Bedarf können fehlende Formate auch lokal in Rosetta ergänzt werden. Wird bekannt oder absehbar, dass ein Dateiformat nicht mehr lesbar ist, warnt Rosetta den Besitzer/die Besitzerin der fraglichen Daten, der/die dann die Transformation in ein anderes Format anstoßen kann.

Das Projekt

Das Hochschulbibliothekszentrum NRW (hbz) mit Sitz in Köln ist ein zentraler Dienstleister für die Universitätsbibliotheken des Landes. Das hbz hat die Software Rosetta für Nordrhein-Westfalen lizensiert und betreibt eine zentrale Instanz.

In der Pilotphase gibt es drei Partner, mit denen unterschiedliche Use Cases getestet werden. Während der Fall der Universitäts- und Stadtbibliothek Köln (USB) den „klassischen“ Anwendungsfall darstellt, soll in den Use Cases der Universitäten Köln und Aachen die Eignung des Systems für Forschungsdaten getestet werden.

Der Aachener Use Case

Im Aachener Use Case geht es um die Archivierung von großen Daten aus Simulationen zu kleinskaligen Turbulenzen. Auf Aachener Seite arbeiten in diesem Projekt das IT Center, die Universitätsbibliothek und als Datenlieferant das Institut für Technische Verbrennung (Prof. Pitsch) zusammen. Die Simulationen haben die Form von Kuben mit unterschiedlich großer Auflösung. Diese liegen als HDF5-Dateien mit einer Größe von 609 GB bis zu 7 TB vor. Da sie für den Austausch über das Netz und die Nachnutzung außerhalb von HPC-Systemen nicht handhabbar sind, werden die Kuben zusätzlich in Teile zerlegt, die eine minimale Größe von 1 GB haben. Im Nachnutzungsszenario können Forschende dann einen einzelnen Ausschnitt und bestimmte Zeitschritte anfordern.

Die Herausforderungen bestehen zum einen in der Konfiguration der Software für den eigenen Use Case, die die einliefernden Einrichtungen selbst vornehmen. Zum anderen ist das automatische Erstellen von Metadaten für die vielen Teildateien ein interessanter Testfall. Aufgrund der Größe der Daten ist aber auch deren Transfer nicht ganz einfach.

Tests mit einzelnen Dateien auf der Testinstanz des hbz waren bereits erfolgreich. Derzeit wird das Produktivsystem vorbereitet, auf dem dann im nächsten Schritt die automatisierte Verarbeitung von größeren Datenmengen getestet wird.

Objekt-Speicher für das Gemeinschaftslabor für Elektronenmikroskopie (GFE)

23. Oktober 2017 | von

Objekt-Speicher sind eine relativ neue Art von Speichersystemen. Hier existieren keine konventionellen Dateisysteme, sondern jede Datei wird als individuell identifizierbares Objekt gespeichert und verwendet. Aus diesem Unterschied resultieren einige Besonderheiten, die Objekt-Speicher als besonders geeignet für Forschungsdatenmanagement (FDM) erscheinen lassen. So sind alle am Markt verfügbaren Systeme in Geschwindigkeit und Kapazität im laufenden Betrieb erweiterbar. Außerdem erlaubt die Technik sogenannte geoverteilte Redundanz, also eine Absicherung der Services und vor allem der gespeicherten Daten auch gegen den Ausfall eines Standortes. Mit konventioneller Technik könnte dies nur mit einer kompletten Verdoppelung des Speichervolumens und einer Datenspiegelung erreicht werden.

In den letzten Monaten hat das IT Center auf seiner Serverhosting-Infrastruktur eine Testumgebung eines Objekt-Speichers aufgebaut und funktionale Tests durchgeführt. Diese sind erfolgreich verlaufen, so dass das IT Center nun aus Eigenmitteln eine Pilot-Infrastruktur in der Größenordnung von 100 TB realisiert, um hiermit die Umsetzung von FDM weiter voranzutreiben.

Zu den ersten Pilot-Nutzern wird das Gemeinschaftslabor für Elektronenmikroskopie (GFE) gehören.

Moderne Elektronenmikroskope erzeugen aufgrund der neuen Generation schneller Detektoren in Kombination mit neuen analytischen Verfahren hohe Datenmengen. So wird z.B. an jedem Bildpunkt nicht nur eine Intensität, sondern ein kompletter Datensatz aus Beugungsintensitäten und spektroskopischen Daten hinterlegt, wodurch multidimensionale Datensätze mit hohen Anforderungen an die Speicherkapazität entstehen.

Diese erzeugten Daten und die beschreibenden Metadaten sind prototypisch für idealerweise in Objekt-Speichern ablegbare Daten. Die durch diese Kooperation gemachten Erfahrungen auf Nutzer- und Betreiberseite werden wertvolle Erkenntnisse für den weiteren Auf- und Ausbau dieser Infrastruktur liefern sowie die funktionalen Anforderungen der Nutzer an den Objekt-Speicher noch genauer spezifizieren.

Durch die partnerschaftliche Zusammenarbeit zwischen dem GFE und dem IT Center innerhalb dieses Pilotbetriebes wird auf die speziellen Bedarfe der Nutzer im Bereich FDM eingegangen, so dass das IT Center entsprechende angepasste Services anbieten kann.