Forschungsdatenmanagement mit LinkAhead

Sind Daten das Öl des einundzwanzigsten Jahrhunderts? Solche oder ähnliche Fragen werden derzeit häufig gestellt.1 Insbesondere in Deutschland und EU wird in den letzten Jahren die Nutzbarmachung und Vernetzung von Datenbeständen gefordert und gefördert. Wir, ein junges Unternehmen mit dem Fokus auf Datenverwaltung2 wollen einen kurzen Einblick in Status Quo und die Zukunft von Forschungsdatenmanagement geben.

Schematische Darstellung des agilen Forschungsdatenmanagementsystems LinkAhead, das im Zentrum unterschiedlicher Forschungsaktivitäten zum Einsatz kommt.
Forschungsdatenmanagement: Data Life Cycle am Beispiel von LinkAhead

Status Quo Forschungsdatenmanagement 2022

Die IT vieler Universitäten und Hochschulen in Deutschland ist oftmals ein Flickenteppich. Vererbte Systeme alter und veralteter Software, ein Mangel an Personal, schlechte Vernetzung der Datenstrukturen bei stetig wachsenden Ansprüchen und Datenmengen. An vielen Institutionen sind Behelfslösungen zur Standardpraxis geworden! Der routinemäßige Transport von Daten via USB-Sticks, manuelles Kopieren von Informationen in und aus Excel, unzureichende Verknüpfungen mit wissenschaftlichen Geräten und so weiter. Auch die Produktion von Papierbergen ist an vielen Orten noch gängige Praxis, beispielsweise bei der Nutzung von Laborbüchern. Universitäten nutzen unterschiedliche Standards, die Kollaboration erschweren und verlangsamen.

Genauso wie der Triumphzug von Informationstechnologien in der Gesellschaft von Wachstumsschmerzen vielerlei Art begleitet wird, so hat auch der Aufbau der IT-Infrastrukturen in der Wissenschaft noch Raum für Verbesserungen. Die bestehenden Behelfslösungen zu überwinden kann noch Jahre oder Jahrzehnte dauern, aber die Software-Standards werden derzeit gesetzt. Lösungen die gerade erstellt werden um die klaffenden Lücken zu füllen sind vielseitig: Unterschiedlich lizenzierte Software, insbesondere closed und open source, aus diversen Projekten entwickelt von Kleingruppen bis zu ganzen Instituten und aus weltweite verbreiteten Projekten wird miteinander kombiniert.

Die FAIR Prinzipien

Als Abkürzung steht FAIR für Findable (auffindbar), Accessible (zugänglich), Interoperable (interoperabel) und Reusable (wiederverwendbar). Weltweit gibt es Anstrengungen, künftige Forschungsdatensysteme nach diesen Prinzipien auszurichten. 3

Screenshot der LinkAhead-Infobox zur Versionierung, die eine gute wissenschaftliche Praxis ermöglicht.
Präzise Versionskontrolle hilft im Forschungsdatenmanagement Datensätze trotz neuer Versionen unverändert wiederfindbar und weiternutzbar zu machen

Forschungsdaten sind ungehobene Schätze

Die Software-Standards zukünftig auf eine solide Basis zu stellen ist eine der größten derzeitigen Aufgaben. Wissenschaftler:innen der Vergangenheit und Gegenwart eint die Hoffnung und das Vertrauen, dass kommende Generationen auf ihrer Arbeit aufbauen können. Der Wert der Daten, die durch Personen erhoben wurden die schon seit Jahrzehnten tot sind, wird zum Beispiel bei historischen Wetterdaten im Kontext zu Forschungsfragen zum Klimawandel deutlich. Doch viele wertvolle historische Daten sind schwer zugänglich. Auch veraltete Formaten oder gar Papierform fordern einiger Anstrengung sie zugänglich zu machen. Die Aufgabe des Forschungsdatenmanagement ist es hier, die Datenerhebung zukunftsorientiert zu machen. Alle Daten, die heute erhoben werden, sollen in der Zukunft nahtlos weitergenutzt werden können. Hier gilt es eine Lücke schwer verfügbarer historischer Daten zu schließen. Wie und wo diese historischen Daten vorhanden sind, ist oftmals klar. Der benötigte Aufwand und die Kapazitäten zu finden diese zu digitalisieren oftmals nicht. Zukunftsorientiert sind Systeme mit offenen Schnittstellen und Programme, die sich leicht anpassen lassen. Mit ihnen können Daten flexibel in neue, offene Formate überführt werden. Damit sollte umständliches Ausgraben der Schätze in Zukunft überflüssig werden.

In unserem Structured-Data-Workshop können Sie von unseren FDM(Forschungsdatenmanagement)-Expert:innen lernen, wie Sie die ungehobenen Schätze in Ihren Bestandsdaten erreichen und wie zukünftige Daten optimal zur Weiternutzung aufbereiten.

Wie sollte das Forschungsdatenmanagement der Zukunft aussehen?

Wissen schaffen nach den bereits genannten FAIR Prinzipien könnte im Sinne des Forschungsdatenmanagement idealerweise so aussehen: Alle Bestandteile der Abläufe basieren auf Open Source Software. Es gibt offene Schnittstellen, die neue Abläufe und neue Daten einfach an bestehende Prozesse angliedern lassen. Die Forschenden haben eine einfache und intuitive Oberfläche, und müssen sich in der Mehrzahl nicht mit den Funktionsweisen der Backends auseinandersetzen. Sie können sich auf die wissenschaftliche Arbeit konzentrieren. Das Management der Forschungsdaten funktioniert automatisch im Hintergrund. Daten werden automatisch archiviert, ihr Zugriff wird technisch geregelt und ist fein justierbar. Das Resultat: Rohdaten, ihre Analysen, weitere Analysen darauf usw. sind bis zur Publikation sind miteinander auf transparente Weise verknüpft (siehe dieses Fallbeispiel). Dadurch und durch die offenen Standards wird Kollaboration vereinfacht und eine Nachvollziehbarkeit der Datenerzeugung und Nutzung gegeben. Damit die gerade genannten Forschungsdaten ideal für die Zukunft aufbewahrt werden, müssen diese in der Forschungsdatenmanagementsoftware in ihrem ursprünglichen Kontext transparent und zusammenhängend aufbewahrt werden. Dies erleichtert es später Datenursprünge nachzuvollziehen (Stichwort Reproduzierbarkeitskrise) und Forschungsdaten für weitere Forschung erneut zu nutzen.

Screenshot der Hilfe von LinkAhead zu einem Aspekt des flexiblen Datenmodells: Die Wichtigkeit ("Importance") von Eigenschaften.
Wie soll ein Eintrag aussehen? Forschungsdatenmanagementsoftware LinkAhead erlaubt Flexibilität im Datenmodell

Die genutzte Software ist Open Source und damit zukunftssicher. Entsprechend unterliegt der Entscheidung der Nutzenden, also Forschenden und Forschungsinstituten, wen sie mit Wartung und Weiterentwicklung beauftragen. Und ob sie Teile selbst entwickeln. Proprietäre Spezialsoftware für besondere Anwendungen sollte genauestens dokumentiert und archiviert werden. Und idealerweise werden diese proprietären Forschungssoftwares in der Zukunft umgestellt werden auf einen offenen Standard. Ansonsten droht, dass die Software in ein paar Jahren nur noch schwer verfügbar sein könnte. Wenn Softwareprojekte nicht weitergeführt werden, die sich in produktiver Verwendung befinden, ist dies immer ein Problem. Anders als bei Closed Source Software hängt bei Open Source die Entscheidung, ob und wie ein Projekt weitergeführt wird, jedoch nicht allein von den finanziellen Interessen einer einzelnen Firma ab.

IndiScale und LinkAhead

Das Potential im Forschungsdatenmanagement zu nutzen ist die Mission, die sich Mitarbeitende von IndiScale seit 2012 (zunächst als Forschende am Max-Planck-Institut für Dynamik und Selbstorganisation in Göttingen, ab 2019 dann bei IndiScale) gegeben haben. Wir möchten den Weg, den Forschungsdatenmanagementsoftware geht, beeinflussen und formen. Wir sehen uns als Teil der Open Source Bewegung. Mithilfe von offenen Standards und Lizenzen wollen wir die Kontrolle über die Softwarewerkzeuge die wir alltäglich nutzen wiedererlangen. Software sollte unter der Kontrolle der Nutzer:innen sein, das heißt der Code muss offen zugänglich und der Zugang und die Nutzungsrechte selbstbestimmt geschehen, ohne Bindung an Nutzungsbedingungen und Weiterverwertung durch Konzerne, wenn das nicht erwünscht ist. Außerdem soll Software so frei wie die Wissenschaft sein: Frei zugänglich und verfügbar für alle. Deshalb entwickeln wir die Open Source Forschungsdatenmanagementsoftware CaosDB, ein Werkzeug, das wir uns selbst als Forschende gewünscht hätten. Für den professionellen Einsatz steht die CaosDB Distribution LinkAhead für unsere Kund:innen bereit.

1 https://www.deutschlandfunkkultur.de/malte-spitz-daten-das-oel-des-21-jahrhunderts-ueber-die-100.html

2 https://www.indiscale.com/our-services/

3 https://www.go-fair.org/go-fair-initiative/go-fair-offices/