Kategorien
Seiten
-

IT Center Blog

Die Lebensdauer von Daten verlängern

29. November 2017 | von

Archivierung

Quelle: Pixabay

Auf dem IT Center Blog wurde bereits die Kooperation zwischen dem Hochschulbibliothekszentrum NRW und der RWTH Aachen vorgestellt. Die innerhalb der Kooperation für das Forschungsdatenmanagement getestete Software Rosetta dient der Langzeitarchivierung von Daten. Doch was bedeutet eigentlich Archivierung? Und was genau heißt Langzeitarchivierung von Daten?

Digitale Daten zu archivieren bedeutet, sicherzustellen, dass die Daten auch zukünftig noch genauso verfügbar sind, wie sie archiviert wurden. Dieser Aspekt wird als bitstream preservation bezeichnet. Der ungefähre zeitliche Horizont dieser Art von Datensicherung wird durch die Vorgabe der Guten wissenschaftlichen Praxis definiert, Forschungsdaten mindestens zehn Jahre lang aufzubewahren.

Bitstream preservation hält allerdings keine Lösung für die Frage bereit, ob man mit den Daten auch nach zehn Jahren noch etwas anfangen kann.

Herausforderungen der Archivierung

Daten so zu speichern, dass sie auch nach längerer Zeit noch in genau der gleichen Form verfügbar sind, erscheint zunächst einmal selbstverständlich und nicht besonders schwierig. Tatsächlich sind gespeicherte Daten aber beträchtlichen Risiken ausgesetzt. Speichermedien haben eine begrenzte Lebenszeit. Nach einigen Jahren gehen zunächst einzelne Bits verloren, die Daten sind nicht mehr vollständig lesbar. Störfälle wie Virenbefall, Stromausfälle, Ausfall von Kühlsystemen oder gar Katastrophen wie Brände oder Überschwemmungen können zum sofortigen Verlust aller Daten führen. Möglicherweise gibt es das Programm, mit dem die Daten verarbeitet werden, gar nicht mehr. Software, Betriebssysteme und Rechnerarchitekturen entwickeln sich weiter, was dazu führen kann, dass alte Datenformate nicht mehr interpretiert werden können.

Langzeitarchivierung

Die bitstream preservation ist daher nur die halbe Miete, wenn es darum geht, Daten langfristig nutzbar zu halten. Verfahren der Langzeitarchivierung sind ein weiterer Beitrag zur vollständigen Miete. Hier ist der Anspruch, Daten für potenziell unbegrenzte Zeit interpretierbar zu halten. Für die Lösung dieses Problems gibt es zwei Ansätze: Emulation und Migration/Konversion.

Der Ansatz der Emulation sieht vor, die für das Lesen und Bearbeiten der Daten nötige Software und manchmal auch die komplette Betriebssystemumgebung in einer virtuellen Maschine (VM) mit zu archivieren (Kapselung), um diese dann in einem zukünftigen Computersystem mittels einer Emulationssoftware wieder nutzbar zu machen. Abgesehen davon, dass dies hohe Kosten verursachen kann, garantiert das Vorgehen aber noch immer nicht, dass die archivierte VM in Zukunft wieder funktionieren wird, die Emulation also gelingt.

Die Software Rosetta der Firma Ex Libris, die vom Hochschulbibliothekszentrum (hbz) für die NRW-Hochschulen betrieben wird, verfolgt die andere Strategie der Migration/Konversion archivierter Daten. Hier wird bei der Einlieferung der Daten deren Format gemäß einer internationalen Formatdatenbank bestimmt und diese Metainformation mitgespeichert. Die Formatdatenbank PRONOM der National Archives of the United Kingdom wird kontinuierlich gepflegt und enthält auch Informationen über die Verbreitung und Lesbarkeit von Datenformaten. Die National Archives stellen auch die Software DROID, die die automatisierte Formatbestimmung ermöglicht, zur Verfügung. Diese Information nutzt Rosetta, um den/die Datenkurator/in zu warnen, wenn das Format der von ihr/ihm eingelieferten Daten Gefahr läuft, nicht mehr lesbar zu werden. Der/die Kurator/in kann dann Maßnahmen ergreifen, um das Problem zu lösen, wie etwa die Daten in ein anderes Format zu transformieren. Die Herstellerfirma Ex Libris, die National Archives und weitere Einrichtungen arbeiten auch daran, für weit verbreitete Formate entsprechende Konversionstools zu entwickeln.

Rosetta setzt außerdem das Open Archival Information System (OAIS), das in der ISO-Norm 14721, beschrieben ist, um. Es sieht die Unterscheidung von Informationspaketen für verschiedene Zwecke vor: Daten werden zunächst als Submission Information Package (SIP) eingeliefert. Nachdem alle Validierungsschritte erfolgreich waren, werden die Daten als Archival Information Package (AIP) archiviert, um bei Bedarf in ein Dissemination Information Package (DIP) kopiert und zur Nachnutzung ausgeliefert zu werden. Informationspakete enthalten neben den eigentlichen Daten auch Metadaten (wie z.B. das Dateiformat). Ist eine Übertragung in ein anderes Datenformat nötig, wird diese Information ebenfalls im AIP gespeichert, so dass darin auch die gesamte Änderungshistorie der Daten verfügbar ist.

Auch wenn es gelingt, die technische Lesbarkeit der Daten und Metadaten zu erhalten, ist leicht vorstellbar, dass Menschen, die diese in 50 Jahren einmal nachnutzen wollen, auf die Qualität der Metadaten und Dokumentationen angewiesen sind, um die Daten zu verstehen – von der Spaltenbenennung über die Beschreibung des Versuchsaufbaus bis hin zur Dokumentation der Forschungsfrage. Langzeitarchivierung beginnt also heute bei der Dokumentation und Beschreibung unserer Daten!

Kommentare sind geschlossen.