Kategorien
Seiten
-

Forschungsdaten – Aktuelles und Wissenswertes

Schlagwort: ‘Rosetta’

Happy World Digital Preservation Day!

07. November 2019 | von
logo worlddigitalpreservationday
World Digital Preservation Day am 07.11.

Wie an jedem ersten Donnerstag des Novembers ist auch heute wieder „World Digital Preservation Day“. Der Aktionstag wird von der Digital Preservation Coalition (dpc) ausgerufen:

„Das Ziel des World Digital Preservation Day ist es, ein größeres Bewusstsein für digitale Langzeitarchivierung zu schaffen, was sich in einem breiteren Verständnis niederschlägt, das alle Aspekte der Gesellschaft durchdringt – Wirtschaft, Politikgestaltung, persönliche gute Praktiken.“ (Quelle)

Weiterlesen »

Rosetta

02. November 2017 | von

Quelle: Unsplash

Die Software

Rosetta ist eine Software der Firma ExLibris für die Langzeitarchivierung von Daten. Das bedeutet vor allem, dass sie neben den Standardfunktionen eines Archiv-Systems („bitstream-preservation“, regelmäßige Integritätstests, Reduplizierung, …) eine Format-Validierung bietet. Beim Ingest der Daten wird das Dateiformat genau bestimmt und dokumentiert. Dieses wird dann regelmäßig gegen eine zentral gepflegte Datenbank geprüft, die an die PRONOM-Datenbank angelehnt ist und Informationen über die Gültigkeit eines Formats enthält. Bei Bedarf können fehlende Formate auch lokal in Rosetta ergänzt werden. Wird bekannt oder absehbar, dass ein Dateiformat nicht mehr lesbar ist, warnt Rosetta den Besitzer/die Besitzerin der fraglichen Daten, der/die dann die Transformation in ein anderes Format anstoßen kann.

Das Projekt

Das Hochschulbibliothekszentrum NRW (hbz) mit Sitz in Köln ist ein zentraler Dienstleister für die Universitätsbibliotheken des Landes. Das hbz hat die Software Rosetta für Nordrhein-Westfalen lizensiert und betreibt eine zentrale Instanz.

In der Pilotphase gibt es drei Partner, mit denen unterschiedliche Use Cases getestet werden. Während der Fall der Universitäts- und Stadtbibliothek Köln (USB) den „klassischen“ Anwendungsfall darstellt, soll in den Use Cases der Universitäten Köln und Aachen die Eignung des Systems für Forschungsdaten getestet werden.

Der Aachener Use Case

Im Aachener Use Case geht es um die Archivierung von großen Daten aus Simulationen zu kleinskaligen Turbulenzen. Auf Aachener Seite arbeiten in diesem Projekt das IT Center, die Universitätsbibliothek und als Datenlieferant das Institut für Technische Verbrennung (Prof. Pitsch) zusammen. Die Simulationen haben die Form von Kuben mit unterschiedlich großer Auflösung. Diese liegen als HDF5-Dateien mit einer Größe von 609 GB bis zu 7 TB vor. Da sie für den Austausch über das Netz und die Nachnutzung außerhalb von HPC-Systemen nicht handhabbar sind, werden die Kuben zusätzlich in Teile zerlegt, die eine minimale Größe von 1 GB haben. Im Nachnutzungsszenario können Forschende dann einen einzelnen Ausschnitt und bestimmte Zeitschritte anfordern.

Die Herausforderungen bestehen zum einen in der Konfiguration der Software für den eigenen Use Case, die die einliefernden Einrichtungen selbst vornehmen. Zum anderen ist das automatische Erstellen von Metadaten für die vielen Teildateien ein interessanter Testfall. Aufgrund der Größe der Daten ist aber auch deren Transfer nicht ganz einfach.

Tests mit einzelnen Dateien auf der Testinstanz des hbz waren bereits erfolgreich. Derzeit wird das Produktivsystem vorbereitet, auf dem dann im nächsten Schritt die automatisierte Verarbeitung von größeren Datenmengen getestet wird.

Langzeitverfügbarkeit digitaler Daten an der RWTH

09. Dezember 2016 | von

Die Sicherstellung der Langzeitverfügbarkeit (LZV) von elektronischen Daten, die an der RWTH in großem Umfang produziert werden, umfasst folgende drei Ebenen:

  1. Die Integrität der Daten muss sichergestellt werden, sodass die Dateien lesbar bleiben. Dies wird auch als sogenannten „Bit Stream Preservation“ bezeichnet.
  2. Um die Daten langfristig nutzen zu können, ist es darüber hinaus erforderlich, die technische Lesbarkeit der Dateiformate sicherzustellen. Sollte beispielsweise ein „altes“ Dateiformat von aktuellen Versionen eines Anwendungsprogramms nicht mehr gelesen werden können, ist eine Formatkonversion erforderlich. Dies wird als „logical Preservation“ bezeichnet.
  3. In der dritten Ebene, der sogenannten „Semantic Preservation“ wird die inhaltliche Interpretierbarkeit der Dateninhalte sichergestellt.

Die erste Ebene der „Bit Stream Preservation“ wird bereits durch das Archivangebot des IT Centers abgedeckt. Um dies zu einem ganzheitlichen LZV Angebot auszubauen, beteiligt sich die RWTH als Pilotpartner am NRW-Projekt „Langzeitverfügbarkeit für Hochschulen“. Dabei finanziert das Land Beschaffung, Aufbau und Inbetriebnahme einer landesweiten Lösung, die auf der Software Rosetta der Firma Ex Libris basiert. Federführend für den Aufbau ist das Hochschulbibliothekszentrum, kurz hbz, in Köln. Zum Projektstart, hat die RWTH die Pressemitteilung „Digitales Wissen langfristig sichern und verbreiten“ verfasst.