Forschende stehen täglich vor der Herausforderung, große Mengen an Daten effizient zu verwalten und zugänglich zu machen. In der heutigen Zeit geht die Verwaltung von Daten über das einfache Speichern hinaus. Forschungsdaten sollten gemäß der FAIR-Prinzipen leicht auffindbar (Findable), zugänglich (Accessible), interoperabel (Interoperable) und wiederverwendbar (Reusable) sein. Genau hier setzt Coscine (Collaborative Scientific Integration Environment) an – eine Plattform, die Forschende während des Datenlebenszyklus unterstützt.
Doch was bedeutet das genau? Lasst uns einen Blick auf den Aufbau von Coscine werfen und Schritt für Schritt erklären, wie die Plattform für Forschungsdatenmanagement (FDM) funktioniert.
Der Aufbau von Coscine
Die Grafik von Coscine zeigt, wie die verschiedenen Bausteine miteinander verbunden sind und wie Coscine aufgebaut ist.
1. Login und Zugriff
Der erste Schritt, um Coscine zu nutzen, ist der Login. Hierbei sind verschiedene Methoden zur Anmeldung möglich, aktuell zum Beispiel DFN-AAI, ORCiD oder RegApp. Das bedeutet, dass Forschende, egal von welcher Universität oder Forschungseinrichtung, einfach auf die Plattform zugreifen können. Es besteht auch die Möglichkeit, die verschiedenen Anmeldemethoden zu verknüpfen. Nach dem Einloggen gelangt man zur Anwendungsoberfläche (UI). Diese Oberfläche ist die „Startseite“, von der aus alles gesteuert werden kann. Die UI ist direkt mit der API (Application Programming Interface) verbunden, die als zentrale Schnittstelle dient.
2. API: Die Schnittstelle
Im Zentrum der Grafik steht die API. Eine API ist eine Art Brücke, die verschiedene Programme und Dienste miteinander verbindet. Über die API kommunizieren die verschiedenen Teile von Coscine miteinander.
Die API ist also der Dreh- und Angelpunkt, über den alle anderen Bausteine der Plattform miteinander verknüpft sind. Sie stellt sicher, dass die verschiedenen Elemente reibungslos zusammenarbeiten.
3. Ressourcen
Ein wesentlicher Bestandteil von Coscine sind die verschiedenen Ressourcen. Folgende zwei Ressourcen stehen allen Forschenden zur Verfügung:
- Linked Data: Mit Linked Data ist es möglich, Metadaten zu Dateien in externen Systemen, die nicht in Coscine integriert sind, zu verwalten.
- GitLab: Mit dem Ressourcentyp GitLab ist es möglich, Metadaten zu GitLab Repositorien in Coscine zu verwalten.
Die folgenden drei Ressourcen hingegen stehen berechtigten Hochschulen von DH.NRW zur Verfügung:
- Web: Web Ressourcen können ohne Speicherplatzantrag in jedem Projekt angelegt werden, sodass die Daten über den Browser hochgeladen werden können. Berechtigte Nutzende erhalten 100 GB und können, falls notwendig, den Speicherplatz mithilfe eines Antrags weiter erhöhen.
- S3: Diese Ressource ist besonders für große Datenmengen geeignet. S3 Ressourcen können per S3-Protokoll mit verschiedenen Clients genutzt werden wie z.B. WinSCP, Cyberduck oder MinIO Client.
- WORM: WORM steht für Write once, read many. Einmal gespeicherte Daten können nie wieder gelöscht, geändert oder überschrieben werden. Deshalb ist dieser Ressourcentyp nur für Daten geeignet, die zwingend einen so hohen Schutzbedarf benötigen.
Je nach Ressourcentyp können verschiedene Clients (z.B. S3-Clients und Git-Clients) für den direkten Zugriff verwendet werden.
In der SQL-Datenbank (Structured Query Language) werden alle relevanten Daten zur Verwaltung der Nutzenden, Projekte und Ressourcen gespeichert. Dies bildet somit die Grundlage, auf der Coscine basiert.
4. Schnelle Suche nach Daten
Ein wichtiger Bestandteil von Coscine ist die Möglichkeit, (Meta)-Daten schnell und einfach zu durchsuchen. Hier kommt ElasticSearch ins Spiel. ElasticSearch ist ein Tool, das riesige Datenmengen schnell durchforstet und relevante Ergebnisse liefert. Zusätzlich bietet Coscine eine semantische Suche. Bei der semantischen Suche werden die Informationen in Kontext zueinander gesetzt und ermöglichen so eine Suche, die auch verknüpfte Elemente findet. Um die semantische Suche zu ermöglichen, wird über das Projekt Semantic Search ein besonderes Dokument für ElasticSearch erstellt. Diese Dokumente werden speziell angefertigt, um eine semantische Suche über Coscine zu ermöglichen.
Die Grafik zeigt verschiedene Möglichkeiten, mit der API zu interagieren. Die Interaktion ist über bereits entwickelte Clients in C# oder TypeScript möglich. Nutzende können auch ihren eigenen Client über die OpenAPI-Definition erstellen. Über die, aus der API Definition generierten Swagger-Seite kann die API „exploriert“ werden. Außerdem ist ein weiterer Client in Python implementiert (Coscine Python SDK) und bietet weitere Features und Funktionen zur Nutzung von Coscine.
5. FAIR Digital Objects (FDO)
Ein weiterer wichtiger Punkt in der Grafik sind die FAIR Digital Objects (FDO) – also Daten, die leicht zu finden, zugänglich, verknüpfbar und wiederverwendbar sind. Jedes FDO enthält wichtige Metadaten (Informationen über die Daten selbst) und einen Persistent Identifier (PID), der sicherstellt, dass die Daten auch langfristig verfügbar und auffindbar bleiben.
Die Metadaten der FDOs werden im QuadStore gespeichert, während die PIDs bei einem externen, speziell dafür angefertigten Service gesichert werden. Bei einem QuadStore handelt es sich um eine spezielle Datenbank, die sich auf verknüpfte Daten – bspw. RDF (Research Data Format) strukturiert über SHACL (Shapes Constraint Language) – konzentriert. Über den QuadStore können die Daten dann in Linked Data Plattformen integriert und mit SPARQL-Clients durchsucht werden.
6. Metadatenprofile
Damit die Daten richtig beschrieben und geordnet sind, bietet Coscine den AIMS Metadatenprofil-Generator. Dieser hilft dabei, Metadatenprofile zu erstellen oder bereits bestehende Profile zu finden, die Daten präzise beschreiben und so die Wiederverwendbarkeit und Suche erleichtern.
Fazit: Coscine macht Forschung einfacher
Coscine erleichtert Forschenden den gesamten Umgang mit ihren Daten – von der Speicherung über die Suche bis hin zur langfristigen Nutzung. Die klare Struktur der Plattform und die zentrale API machen es einfach, auf verschiedene Speicheroptionen zuzugreifen und Daten schnell zu finden. Besonders wertvoll ist die Integration der FAIR Digital Objects, die dafür sorgen, dass Daten nicht nur heute, sondern auch in Zukunft auffindbar, zugänglich und wiederverwendbar sind.
Coscine bietet eine flexible, moderne Lösung für die Anforderungen der Forschung. Egal, ob ihr eine kleine Datenmenge speichern oder riesige Datenbestände durchsuchen müsst – Coscine hat die passenden Werkzeuge, um eure Arbeit effizienter und nachhaltiger zu gestalten. Es ist nicht nur ein Werkzeug für den Moment, sondern eine Plattform, die auch zukünftigen Herausforderungen gewachsen ist.
Verantwortlich für die Inhalte dieses Beitrags sind Laurin Ellenbeck und Arlinda Ujkani.
Schreibe einen Kommentar