Kategorien
Seiten
-

Forschungsdaten – Aktuelles und Wissenswertes

FDM erklärt – Wie validiert man Daten?

10. März 2022 | von
Datenauswertung auf einem Laptop-Bildschirm.

Quelle: Unsplash

Im Rahmen der guten wissenschaftlichen Praxis sollen Forschungsdaten für bis zu 10 Jahre aufbewahrt werden. Zudem erwarten immer mehr Fördermittelgebende Angaben darüber, wo die erhobenen Daten gesichert werden. Es ist allerdings weder technisch noch ökonomisch möglich, alle Daten, die während eines Forschungsprojektes erhoben werden, aufzubewahren. Dementsprechend ist es notwendig, nach Abschluss eines Projektes eine Datenbewertung vornehmen. Diese bildet die Grundlage für die Entscheidung darüber, welche Daten archiviert werden sollen oder müssen. Unser neuer Blogbeitrag gibt einen ersten Einblick, was bei der Datenvalidierung beachtet werden sollte.

Welche Daten müssen aufbewahrt werden?

Im Allgemeinen hängt die Entscheidung darüber, was aufbewahrt wird, von den Prioritäten der Datenerstellenden ab. Bei der Entscheidung müssen aber auch rechtliche, regulatorische oder politische Aspekte berücksichtigt werden. Dazu gehören:

  • Rechtliche oder vertragsbindende Gründe: Daten haben kommerziellen Wert oder werden für Patentanmeldung verwendet; Vertragsbedingungen oder Bedingungszustände verlangen eine Aufbewahrung.
  • Richtlinien (z.B. von Institutionen oder Geldgebenden): Disziplinarverordnungen oder andere Bestimmungen (z. B. Förderrichtlinien) verlangen Datenaufbewahrung.
  • Personenbezogene Daten: Das Datenschutzgesetz definiert personenbezogene Daten und legt Kriterien fest, nach denen entschieden wird, wie lange sie aufbewahrt werden sollen, wie sie gespeichert werden müssen und welche Anforderungen an die Entsorgung gestellt werden.

Welche Zwecke erfüllen die Daten über den Forschungskontext hinaus?

Jeder der folgenden Gründe kann eine Aufbewahrung der Daten für den langfristigen Zugang rechtfertigen.

  • Verifizierung: Anderen ermöglichen, den Prozess nachzuvollziehen, der zu veröffentlichten Ergebnissen führt, um diese möglicherweise reproduzieren oder verifizieren zu können.
  • Weitere Analyse: Die Möglichkeiten für weiterführende Analysen verbessern z. B. durch Verwendung neuer Methoden
  • Weitere Veröffentlichungen: Die Veröffentlichung eines Datenartikels leistet einen Beitrag zur wissenschaftlichen Kommunikation und zur Diskussion über Datenmanagement oder Wiederverwendung in Ihrem Bereich.
  • Aufbau eines akademischen Rufs: Daten, die auffindbar sind, haben eine größere Sichtbarkeit, was wiederum die Zitationsrate für die veröffentlichten Ergebnisse steigern kann.
  • Community-Ressourcenentwicklung: Veröffentlichen einer Datenressource mit Wert für eine bekannte Gruppe von Nutzenden (z. B. Referenzdatensatz oder Methodenprüfstand).
  • Lernen & Lehre: Einbettung von Daten in eine Lern-/Lehr- oder Public-Engagement-Ressource, um deren Interaktivität zu verbessern und Nutzende zum Lernen oder zur Teilnahme an der Forschung zu motivieren.

Welche Daten sollen behalten werden?

Unter Berücksichtigung der zuvor ermittelten potenziellen Wiederverwendungszwecke sollten die folgenden Kriterien geprüft werden, um zu entscheiden, welche Daten geeignet sind. In der Regel sollten die Daten aufbewahrt werden, wenn sie mindestens zwei der folgenden Kriterien erfüllen.

  • Qualität: Ist die Datenqualität in Bezug auf Vollständigkeit, Stichprobengröße, Genauigkeit, Gültigkeit, Zuverlässigkeit, Repräsentativität oder andere relevante Kriterien gut genug?
  • Integrationspotenzial: Beschreiben die Daten Dinge, die standardisierten Begriffen oder Vokabularen in anderen Forschungsbereichen entsprechen (z. B. geografische Orte)
  • Interesse: Wie wahrscheinlich ist eine Nachfrage? Könnten die Daten eine große Bedeutung haben, z. B. weil sie sich auf eine bahnbrechende Entdeckung, einen bedeutenden neuen Forschungsprozess oder internationale politische und soziale Belange beziehen?
  • Zugänglichkeit: Liegen die Daten in einem Format vor, für dessen Wiederverwendung keine Lizenzgebühren oder proprietäre Software oder Hardware erforderlich sind bzw. ist die verwendete Software/Hardware im Studienbereich weit verbreitet und leicht verfügbar?
  • Reproduzierbarkeit: Wäre die Reproduktion der Daten schwierig, kostspielig oder gar unmöglich (z. B. nicht wiederholbare Beobachtungen)?
  • Rechtliche Rahmenbedingungen: Sind die Daten entsprechend ihrer Sensibilität eingestuft worden und frei von datenschutzrechtlichen, vertraglichen Einschränkungen, Lizenz- oder Urheberrechtsbestimmungen, die den Zugang der Öffentlichkeit und die Wiederverwendung beschränken?
  • Unikat: Ist dies die einzige und vollständigste Kopie der Daten? Werden die Daten irgendwo aufbewahrt, wo eine langfristige Lagerung nicht garantiert ist?

Welche Kosten müssen bedacht werden?

Zudem sollte abgewogen werden, ob es wirtschaftlich sinnvoll ist, die Daten aufzubewahren. Bedenken Sie:

  • Vorbereitungskosten: Kosten, die sowohl während des Forschungsprozess als auch bei der Vorbereitung der Archivierung entstehen.
  • Aufbewahrungskosten: Anfallende Kosten für Aufbewahrung und Pflege der Daten über den Forschungszeitraum hinaus.

Datenauswertung abschließen

Der letzte Schritt besteht darin, den Nutzen und die Kosten unter Berücksichtigung der Ergebnisse aus den vorherigen Schritten gegeneinander abzuwiegen. Dabei kann das Ausfüllen einer Tabelle helfen. Eine Anleitung dazu findet sich auf den Seiten des Digital Curation Centre (DCC).

Weitere Tipps

Andere Quellen, die bei der Beurteilung helfen können, welche Daten aufbewahrt werden sollen, sind z. B. ein Datenmanagementplan, der bei der Konzipierung der Forschung erstellt wurde. Dieser kann mögliche langfristige Verwendungszwecke der Daten aufzeigen.

Mehr erfahren

Das DCC hat eine detaillierte Checkliste für die Bewertung von Forschungsdaten zur Verfügung gestellt.

Wenn Sie Fragen zum Forschungsdatenmanagement im Allgemeinen haben, wenden Sie sich einfach an das ServiceDesk. Das FDM-Team freut sich auf Ihre Nachricht.

Besuchen Sie für weitere Informationen zum FDM auch die RWTH-Webseiten.

_______

Verantwortlich für die Inhalte dieses Beitrags ist Sophia Nosthoff.

2 Antworten zu “FDM erklärt – Wie validiert man Daten?”

  1. Helas, Sophie sagt:

    Das ist ein sehr hilfreicher Artikel für den Kurationsworkflow von Forschungsdaten. Vielen Dank.

Schreibe einen Kommentar