Asynchrone Nachverfolgung und Beschreibung von Forschungsdatenänderungen in Verteilten Systemen mit interoperablen Metadaten

13. Juni 2024 | von Hania Eid

In der Welt der digitalen Forschung gibt es viele verschiedene Arten, Daten zu speichern. Doch wie können Forschungsdaten so verwaltet werden, dass sie für alle, die Zugriff darauf haben sollen, auch zugänglich und nutzbar sind? In diesem Blogbeitrag schauen wir uns an, wie wir diese Herausforderung angehen können, indem wir eine Methode vorstellen, mit der fehlende Informationen über den Ursprung von Daten ergänzt werden. Mit diesem Ansatz soll dazu beigetragen werden, dass Forschungsdaten einfacher gefunden und genutzt werden können – ganz im Sinne der FAIR-Prinzipien.

Benedikt Heinrichs nach der Verteidigung seiner Dissertation

Quelle: Benedikt Heinrichs

FAIR-Prinzipien bieten Richtlinien für die Auffindbarkeit, Zugänglichkeit, Interoperabilität und Wiederverwendbarkeit von Forschungsdaten, aber es mangelt oft an konkreten Umsetzungsleitlinien. Daher haben Forschungsdatenmanagement-Teams verschiedene Implementierungen entwickelt, wie z.B. Plattformen wie Coscine, die versuchen, diese Prinzipien zu vereinfachen. Diese Plattformen stoßen jedoch auf Probleme, da Forschende ihre Daten oft bei etablierten Speicherplatzanbietern hinterlegen, was zu Verlusten von Informationen über die Datenherkunft führt.

In seiner Doktorarbeit hat Benedikt Heinrichs eine Methode herausgearbeitet, die fehlende Informationen zur Datenherkunft ergänzt, mit welcher Datenrepräsentationen verglichen und interoperable Metadaten generiert werden. Die Anwendbarkeit dieser Methode wird in ein standardbasiertes Forschungsdatenmanagementsystem integriert (hier Coscine), um die Umsetzung der FAIR-Prinzipien zu unterstützen und die Forschungsprozesse zu verbessern. Im Folgenden werden die vier Methoden vorgestellt.

Asynchrone Datenherkunft

In der Arbeit wurden hinsichtlich der asynchronen Datenherkunft folgende Fälle betrachtet, die jeweils mit der PROV-Ontologie (PROV-O) beschrieben wurden:

Versionen: Es wurden Änderungen an den Daten erkannt, wie zum Beispiel das Hinzufügen eines Satzes zu einem Text. In diesem einfachsten Fall wird dieselbe Kennung für die Daten verwendet und nur ältere Darstellungen verglichen.

Varianten: Auch hier wurden Änderungen an den Daten erkannt, wobei neue Daten aus anderen älteren Daten abgeleitet werden. Beispiele hierfür sind Umbenennungen oder die Kombination von Elementen älterer Daten. Dieser Fall ist komplexer als Versionen und erfordert das Durchsuchen anderer Daten.

Invalidierung: Es wurde festgestellt, dass Daten ungültig wurden, wenn diese gelöscht wurden. Dieser spezielle Fall basiert auf der Auflistung früherer Darstellungen und zeigt fehlende (gelöschte) Daten auf.

Vergleichbarkeit von Forschungsdaten

Zu Bestimmung der Vergleichbarkeit von Forschungsdaten wurde ein neuer Ansatz entwickelt, welcher auf dem Vergleichen von interoperablen Metadatensätzen basiert. Anstelle die Forschungsdaten direkt zu überprüfen, nutzt eine Abstraktion wie die interoperablen Metadatensätze dafür, dass Forschungsdaten formatunabhängig verglichen werden können.
Die konkrete Methode zum Berechnen dieser Vergleichbarkeit basiert auf verschiedenen Schritten.

Dazu gehören die Filterung nicht relevanter Beziehungstripel und Subjekte sowie die Nutzung von Ontologien wie DCAT zur Strukturierung der Metadaten in vergleichbare Kataloge und Datensätze. Zudem wurde die Vereinfachung durch die Entfernung einzigartiger Kennungen implementiert, um falsche Ähnlichkeiten zu vermeiden. Der erstelle Prozess, mit seinen Filter-, Struktur- und Simplify-(Vereinfachungs)-Schritten, wurde als FSS-Prozess definiert.

Die Herausforderung bestand darin, interoperable Metadatensätze zu vergleichen. Dazu wurden verschiedene Vergleichsmethoden getestet, darunter das Entfernen von Teilen des FSS-Prozesses, die direkte Anwendung auf Forschungsdaten und die Verwendung anderer Ähnlichkeitsmetriken. Die Durchführung von Ähnlichkeitsvergleichen an wissenschaftlichen Datensätzen zeigte, dass die Methoden auf Basis der interoperablen Metadaten teilweise Änderungen erkennen, während Methoden auf Basis der Forschungsdaten keine erkennen, sofern eine ausreichende Metadatenqualität gegeben ist.

Automatische interoperable Extraktion von Metadaten

Ein wichtiges Thema ist die korrekte Darstellung von Forschungsdaten durch genaue und detaillierte Metadaten. Viele Ansätze existieren dafür, wobei viele aber eine manuelle Beschreibung verfolgen. Teil der Dissertation war es deswegen, einen automatischen Ansatz der Extraktion von Metadaten aus Forschungsdaten zu verfolgen und diese interoperabel zu gestalten. Mit einem solchen Ansatz soll es möglich sein, formatunabhängig Forschungsdaten mit interoperablen Metadaten zu beschreiben, sofern eine extrahierende Methode existiert. Deswegen wurde bei diesem Ansatz ein großer Fokus auf die Erweiterbarkeit gelegt. Der aus diesem Ansatz erstellte Metadatenextraktor kann und wird in diverse Forschungsprozesse integriert, z.B. bei NFDIMatwerk oder Coscine.

Ein Beispiel einer Methode ist die Objekterkennung. Diese Methode erkennt beispielsweise bei einem Bild mit einem Früchtekorb, dass sechs Bananen existieren. Allerdings könnte man je nach Interpretation auch darauf kommen, dass bei diesem Bild auch nur fünf Bananen gezeigt werden, was den Interpretationsspielraum der implementierten Methode beleuchtet.

Integration in ein standardbasiertes Forschungsdatenmanagementsystem – Coscine als Use Case

Coscine (Collaborative Scientific Integration Environment) ist eine Plattform für Forschungsdatenmanagement, welche die Unterstützung mehrerer Speicheranbieter ermöglicht. Die Plattform bietet wichtige Funktionen wie das Management von Forschungsdaten, die Verwaltung von Metadaten und den einfachen Zugang zu Speicherplatz.

Zu Beginn der Arbeit gab es jedoch einige Herausforderungen. Die APIs waren individuell definiert und basierten nicht auf standardisierten Architekturen. Zudem wurden keine Informationen über die Datenherkunft gesammelt, was die Rückverfolgbarkeit und Nachvollziehbarkeit von Daten erschwerte.

Deswegen war es ein Ziel der Arbeit, die Plattform auf eine standardbasierte Architektur umzustellen und die vorgestellten Methoden zu integrieren, um die Effizienz und FAIR-Konformität von Coscine zu verbessern.

Aus den obigen Gründen war es notwendig, den Anwendungsfall in ein standardbasiertes Forschungsdatenmanagementsystem zu transformieren. Um die relevanten Standards zu bestimmen, wurde eine Evaluation durchgeführt. Dazu wurden Anforderungen basierend auf dem Use Case erstellt. Die Evaluation ergab, dass kein einzelner Standard alle Anforderungen erfüllt. Daher wurde eine Kombination bestehender Standards empfohlen.

Die Transformation erforderte das semantische Lifting von Coscine. Es wurde sichergestellt, dass gespeicherte Entitäten (z.B. Speicherressourcen) mit passenden Standards beschrieben werden.

Außerdem wurden relevante APIs erstellt, die definierten Standards (z.B. LDP) folgen. Die Verbindungen zwischen den einzelnen Entitäten wurden genau beschrieben, um eine konsistente und standardkonforme Integration zu gewährleisten.

Zusammenfassung der Vorteile

Durch die Implementierung von asynchroner Datenherkunft, interoperablen Metadaten und Vergleichbarkeit von Forschungsdaten werden unstrukturierte und schwer zugängliche Daten in organisierte und leicht zugängliche Forschungsdaten mit detaillierten Metadaten umgewandelt. Die asynchrone Datenherkunft ermöglicht eine kontinuierliche und zeitversetzte Erfassung von Datenherkunftsinformationen. Interoperable Metadaten stellen die Kompatibilität und Verständlichkeit von Metadaten sicher, während die Vergleichbarkeit von Forschungsdaten die Ermittlung von Ähnlichkeiten zwischen verschiedenen Datensätzen erleichtert.

Die asynchrone Datenherkunft unterstützt bei der Beschreibung von Forschungsdaten, selbst wenn die Verbindung zwischen älteren Revisionen verloren gegangen ist. Durch die Restaurierung von Verbindungen kann so der Pfad, den Forschungsdaten durchlaufen haben, besser nachvollzogen und die Forschung besser reproduziert werden.

Außerdem ermöglicht sie die Verfolgung der Herkunft und des Flusses von Daten, was die Transparenz und Rückverfolgbarkeit verbessert. Interoperable Metadaten erlauben eine einheitliche und verständliche Beschreibung von Daten, wodurch die Auffindbarkeit und Nutzbarkeit der Daten gesteigert wird. Durch eine automatische Extrahierung von diesen kann eine klare Beschreibung der Forschungsdaten erzeugt werden, was die Wiederfindbarkeit und das Verständnis deutlich erhöht.

Die Vergleichbarkeit von Forschungsdaten unterstützt die präzise Verknüpfung und Vergleichbarkeit von Datensätzen. Dies erleichtert es Forschenden, relevante Daten zu finden und Beziehungen zwischen verschiedenen Datensätzen zu erkennen, was die Effizienz und Effektivität der Forschung erhöht.

Fazit

Die Entwicklung einer Methode zur asynchronen Datenherkunft ermöglichte es, Änderungen nachzuverfolgen und verschiedene Änderungsereignisse zu kennzeichnen. Zur Bestimmung der Ähnlichkeit von Forschungsdaten wurde eine Methode unter Verwendung von interoperablen Metadaten entwickelt und erfolgreich an verschiedenen Anwendungsfällen getestet. Durch die Implementierung einer automatischen Extraktionspipeline für interoperable Metadaten konnte die Interoperabilität von extrahierten Metadaten gewährleistet werden. Für die Zukunft bleibt der nutzerfreundliche Zugang zu den entwickelten Technologien, welcher sich aktuell im Aufbau befindet.

Verantwortlich für die Inhalte dieses Beitrags sind Benedikt Heinrichs und Arlinda Ujkani.

Kategorie: Allgemein, An der RWTH, Use Cases
Schlagworte: asynchron, coscine, FAIR, FAIR-Prinzipien, FDM, Forschungsdaten, Forschungsdatenmanagement, Metadaten, NFDI, NFDIMatwerk, PROV, Use Case
Optionen: Antwort schreiben » | Trackback senden «

Schreibe einen Kommentar Antwort abbrechen

Du musst angemeldet sein, um einen Kommentar abzugeben.

Forschungsdaten – Aktuelles und Wissenswertes