Zum Hauptinhalt springen
Blogbeitrag

Zugänglichkeit von Forschungsdaten | Interview mit Prof. Dr. York Sure-Vetter

Prof. Dr. York Sure-Vetter ist Professor am KIT mit den Forschungsschwerpunkten Künstliche Intelligenz und Data Science. Derzeit ist er beurlaubt als Direktor der Nationalen Forschungsdateninfrastruktur (NFDI).

Herr Professor Sure-Vetter, Sie sind Direktor der DFG-geförderten Nationalen Forschungsdateninfrastruktur. Was ist die NFDI und warum kommt diese Initiative gerade jetzt?

Die Nationale Forschungsdateninfrastruktur, kurz NFDI, hat das Ziel, den Zugang zu möglichst hochqualitativen Forschungsdaten für Wissenschaft und Forschung nachhaltig sicherzustellen. Dazu arbeiten Wissenschaftlerinnen und Wissenschaftler eng zusammen mit Mitarbeitenden von Forschungsinfrastrukturen. Gelingen kann dies durch die Erfüllung der sogenannten FAIR-Prinzipien auf breiter Basis. Damit sind Forschungsdaten jederzeit auffindbar und zugreifbar, und sie können auch über die Grenzen von Fachdisziplinen hinweg wieder- und weiterverwendet werden. Globale Herausforderungen, wie beispielsweise die COVID-19-Pandemie oder der Klimawandel, erfordern inhärent ein interdisziplinäres Zusammenarbeiten. Z. B. werden aktuell ganz unterschiedliche Datensätze, wie etwa georeferenzierte Datensätze, für die Eindämmung der Pandemie genutzt. Wissenschaftlerinnen und Wissenschaftler aus verschiedenen Fachdisziplinen, die aus der ganzen Welt kommen, widmen sich in diesem Zusammenhang dem Erzeugen und der Auswertung der Datensätze. Die Nutzung und die Kombination von Forschungsdaten für neue, d. h. bisher nicht vorhergesehene Einsatzzwecke, nimmt ständig zu. Man könnte also sagen: Gerade jetzt kommt die NFDI genau richtig.

Wie können Hochschulen die Auffindbarkeit, Zugänglichkeit, Interoperabilität und Wiederverwendbarkeit von Forschungsdaten unterstützen?

Hochschulen können wichtige Impulsgeber sein und gezielt Führungsrollen einnehmen. Denn Hochschulen sind Forschungspartner, sie sind vielfach gleichzeitig Infrastrukturpartner und nicht zuletzt sind sie wesentliche Partner bei der Ausbildung von wissenschaftlichem Nachwuchs. Hochschulen können die Zusammenarbeit von Wissenschaft und Infrastruktur maßgeblich und nachhaltig stärken, z. B. indem verschiedene Modelle der Zusammenarbeit noch stärker erprobt und angewendet werden. Beispielhaft genannt sei die Einbettung von Forschenden bei Infrastrukturen, und umgekehrt auch die Einbettung von Infrastruktur-Mitarbeitenden bei Forschungsgruppen. Zunehmend gibt es ja an Hochschulen auch Organisationseinheiten für Forschungsdatenmanagement, die Beratungs- und Bildungsangebote machen. Ein lebendiger und anregender Austausch sollte zum Garanten werden für einen möglichst nahtlosen Austausch von Wissen, bei dem das Teilen von Forschungsdaten anhand der FAIR-Prinzipien zur Selbstverständlichkeit wird. Die Ausbildung des wissenschaftlichen Nachwuchses möch te ich bewusst hervorheben. Ein großes Potenzial sehe ich bei der Vermittlung von forschungsdatenbezogenen Einstellungen und Werten. Es wäre viel mehr als nur ein Sahnehäubchen, die Bereitschaft zum Teilen von Forschungsdaten möglichst früh, d.h. bereits im Studium, zu wecken und zu fördern! Entsprechende Angebote zu forschungsnahem Lernen sollten noch stärker in den Curricula zu finden sein.

Sie sind Informatiker und GI-Mitglied. Wie ist es um die Forschungsdaten der Informatik bestellt?

Nur durch Pionierarbeiten der Informatik sind heutige Forschungsinfrastrukturen überhaupt in der Lage, sehr große Datenmengen zu speichern, mit komplexen Datenstrukturen umzugehen und Daten inhaltlich erschließbar zu machen. Beispielhaft genannt seien dabei skalierbare Cloud-Infrastrukturen, Modellierungssprachen und semantische Technologien. Gemäß dem Motto „eat your own dogfood“ sind die von der Informatik erzeugten Forschungsdaten zunehmend (hoch-) qualitativ und gut zugreifbar. Gleichzeitig gibt es auch in der Informatik das Problem, dass der Zuwachs an Daten und die Zunahme der Komplexität von Datenstrukturen derzeit in vielen Bereichen schneller ist als der gewonnene methodische Erkenntnisgewinn, um mit diesen Daten sinnvoll umgehen zu können. Klar ist also, es gibt noch viel zu tun!

Welche Besonderheiten weisen Informatik-Forschungsdaten auf?

Die Forschungsdaten der Informatik haben vielfältige Formate. Neben Software-Artefakten (z. B. Quellcode, Maschinencode) finden sich strukturierte Daten (z. B. Trainingsdatenbanken für maschinelle Lernverfahren), semi-strukturierte Daten (z. B. WikiData, DBpedia) und unstrukturierte Daten (z. B. linguistische Korpora, wissenschaftliche Publikationen der Informatik). Die Anwendungsfelder von Daten, bei denen die Informatik wesentliche Beiträge leistet, spannen sich sodann über viele (vielleicht sogar alle?) Wissenschaftsbereiche. Besonders eng verzahnt ist die Informatik mit den Ingenieurwissenschaften, beispielsweise beim Thema Autonomes Fahren, oder mit der Mathematik, beispielsweise bei komplexen Simulationen für digitale Zwillinge. Im Idealfall werden Forschungsdaten direkt bei ihrer Erzeugung mit Metadaten angereichert und sofort mit der Community geteilt. Wir haben gerade beobachten können, wie Daten und Studien zu COVID-19 ohne Verzug global bereitgestellt wurden und auch sofort von anderen Forschungsgruppen für unterschiedliche Zwecke von der Daten-Qualitätssicherung bis zur Daten-Analyse aufgegriffen wurden. Jetzt brauchen wir diese Prinzipien dauerhaft und in allen Forschungsbereichen! Da Forschungsdaten der Informatik naturgemäß digital sind und sie in vielen Fällen auch bereits „offen“ sind, sollte die Informatik ihre Vorreiterrolle bei vielen Initiativen zu Open Data und Open Access konsequent weiterverfolgen und sogar ausbauen.

Welchen Beitrag kann die Informatik für die gesamte NFDI leisten?

Die Informatik ist für die gesamte NFDI an vielen Stellen wichtig, denn sie ist ein Treiber bei der Entwicklung von wissenschaftlichen Methoden und Werkzeugen für den Umgang mit Daten. Bereits in der ersten Ausschreibungsrunde ist die Informatik als unterstützende Wissenschaft in geförderten Konsortien vertreten. Zu erwarten ist diese Rolle auch bei weiteren Konsortien in den Ausschreibungsrunden 2021 und 2022. Die Informatik kann zudem auch die eigene Community für die NFDI aktivieren und so die Abdeckung der NFDI-Konsortien über die Wissenschaftsbereiche hinweg vollständiger machen.


Dieses Interview erschien im GI-Jahresbericht 2019/2020. Das gesamte Heft steht Ihnen hier zum Lesen bereit.