Die Software
Rosetta ist eine Software der Firma ExLibris für die Langzeitarchivierung von Daten. Das bedeutet vor allem, dass sie neben den Standardfunktionen eines Archiv-Systems („bitstream-preservation“, regelmäßige Integritätstests, Reduplizierung, …) eine Format-Validierung bietet. Beim Ingest der Daten wird das Dateiformat genau bestimmt und dokumentiert. Dieses wird dann regelmäßig gegen eine zentral gepflegte Datenbank geprüft, die an die PRONOM-Datenbank angelehnt ist und Informationen über die Gültigkeit eines Formats enthält. Bei Bedarf können fehlende Formate auch lokal in Rosetta ergänzt werden. Wird bekannt oder absehbar, dass ein Dateiformat nicht mehr lesbar ist, warnt Rosetta den Besitzer/die Besitzerin der fraglichen Daten, der/die dann die Transformation in ein anderes Format anstoßen kann.
Das Projekt
Das Hochschulbibliothekszentrum NRW (hbz) mit Sitz in Köln ist ein zentraler Dienstleister für die Universitätsbibliotheken des Landes. Das hbz hat die Software Rosetta für Nordrhein-Westfalen lizensiert und betreibt eine zentrale Instanz.
In der Pilotphase gibt es drei Partner, mit denen unterschiedliche Use Cases getestet werden. Während der Fall der Universitäts- und Stadtbibliothek Köln (USB) den „klassischen“ Anwendungsfall darstellt, soll in den Use Cases der Universitäten Köln und Aachen die Eignung des Systems für Forschungsdaten getestet werden.
Der Aachener Use Case
Im Aachener Use Case geht es um die Archivierung von großen Daten aus Simulationen zu kleinskaligen Turbulenzen. Auf Aachener Seite arbeiten in diesem Projekt das IT Center, die Universitätsbibliothek und als Datenlieferant das Institut für Technische Verbrennung (Prof. Pitsch) zusammen. Die Simulationen haben die Form von Kuben mit unterschiedlich großer Auflösung. Diese liegen als HDF5-Dateien mit einer Größe von 609 GB bis zu 7 TB vor. Da sie für den Austausch über das Netz und die Nachnutzung außerhalb von HPC-Systemen nicht handhabbar sind, werden die Kuben zusätzlich in Teile zerlegt, die eine minimale Größe von 1 GB haben. Im Nachnutzungsszenario können Forschende dann einen einzelnen Ausschnitt und bestimmte Zeitschritte anfordern.
Die Herausforderungen bestehen zum einen in der Konfiguration der Software für den eigenen Use Case, die die einliefernden Einrichtungen selbst vornehmen. Zum anderen ist das automatische Erstellen von Metadaten für die vielen Teildateien ein interessanter Testfall. Aufgrund der Größe der Daten ist aber auch deren Transfer nicht ganz einfach.
Tests mit einzelnen Dateien auf der Testinstanz des hbz waren bereits erfolgreich. Derzeit wird das Produktivsystem vorbereitet, auf dem dann im nächsten Schritt die automatisierte Verarbeitung von größeren Datenmengen getestet wird.
Leave a Reply
You must be logged in to post a comment.