Skip to main content
FachbereichFachartikel

Interdisziplinäre Daten-Laboratorien als Antwort auf die „Data Challenge“

Fazit und Ausblick

Komplexe Anwendungen sind Triebfedern für die Entwicklung einer zukunftsfähigen wissenschaftlichen Methodik der Data Science. Physik und Astronomie bieten eine große Diversität von Fragestellungen, die für interdisziplinäre Forschungspraktika geeignet sind. Zur Durchführung der Praktika müssen Universitäten mit Daten-Laboratorien ausgestattet werden, die über wissenschaftliche Datenzentren mit dedizierter Infrastruktur (z.B. GPU-Farmen, IO-optimierte Architekturen) und betreuendes Personal verfügen.

Von Prof. Dr. Karl Mannheim, Julius-Maximilians-Universität Würzburg, Sprecher des Arbeitskreises Physik, moderne Informationstechnologie und Künstliche Intelligenz der Deutschen Physikalischen Gesellschaft e.V., und Dr. Kai Polsterer, Heidelberger Institut für Theoretische Studien

Data Scientists/Engineers verfügen über Grundlagen aus Informatik, Mathematik oder Physik sowie Spezialwissen über Statistik, Machine Learning, skalierbares Datenmanagement und Data Mining bzw. integrierte Systeme. Das Wissen sollte anwendungsorientiert vermittelt werden. Die Universitäten sind bestens aufgestellt, anwendungsnahe Fragestellungen in die Curricula einzubringen. Dazu eignen sich Forschungspraktika in „Data-Labs“ mit leistungsfähiger IT-Infrastruktur, Mentoren und interdisziplinärer Kommunikationskultur.

In Physik und Astronomie werden große und heterogene Datenströme durch die digitalisierte Auslese von Signalen aus Detektoren und Sensoren gewonnen und nach entsprechender Aufbereitung analysiert. Ziel ist es dabei, möglichst exakte Messungen auszuführen und eine konkrete Fragestellung probabilistisch im Sinne der Informationstheorie zu beantworten. Durch die Anwendung statistischer Methoden wird dabei ein grundlegendes Verständnis der Datenunsicherheiten gewonnen und die Datenqualität durch Validierungsverfahren sichergestellt. Artefakte sollen als Ergebnis einer Datenanalyse ausgeschlossen werden.

Aufgrund der Leistungsfähigkeit moderner breitbandiger Vielkanal-Digitalwandler sind die Anforderungen an die datenverarbeitende Hardware und Software teilweise enorm. Sie können Impulse für die gezielte Entwicklung neuartiger Komponenten oder ganzer Computerarchitekturen geben (z.B. Photonik, Quantum-Computing). Eine wichtige Rolle spielt auch das autonome Datenmanagement bzw. die Vorverarbeitung bei integrierten Systemen mithilfe von KI-Methoden.

Die Komplexität des Datenmanagements erreicht in vielen Forschungsprojekten bereits die Stufe einer „Data Challenge“ und muss als interdisziplinäre Aufgabe von Physik und Informatik gesehen werden. Eine Professionalisierung der Lösungsansätze mithilfe der wissenschaftlichen Methodik der Data Science wird als notwendig angesehen, und es besteht dringend Handlungsbedarf auf der Ausbildungsseite an den Universitäten. Zwar stellen Programmierkenntnisse und die mathematisch fundierte Ausbildung von Physikern und Astronomen eine sehr gute Grundlage für die Behandlung datenwissenschaftlicher Probleme dar, sie reichen aber nicht aus, um strukturierte Beiträge zu großen „Data Challenges“ zu leisten. Eine Spezialisierung der Physiker und Astronomen auf die datenwissenschaftlichen Probleme würde auf Kosten der physikalisch-astronomischen Inhalte stattfinden und wird daher als nicht zielführend angesehen. Um den existierenden Bedarf von Physik und Astronomie an Informatik abzudecken, haben sich bereits interdisziplinäre Fachprofile wie die „Astro-Informatik“ ausgebildet.

Die Förderung der Interdisziplinarität von Physik/Astronomie, Mathematik und Informatik schafft eine optimale Win-win-Situation. Physik und Astronomie liefern Daten und konkrete Fragestellungen, während die Informatik die praktische Methodik für die Optimierung bzw. Realisierung der Datenanalyse liefern kann. Die Mathematik und Theoretische Physik ergänzen die Grundlagen für die korrekte wahrscheinlichkeitstheoretische Behandlung und Interpretation der Daten. Durch die Impulse aus Physik und Astronomie entstehen dann im Dreieck dieser Wechselbeziehungen neue Methoden der Datenanalyse (wie bisher z.B. die Monte-Carlo-Methoden oder die im Maschinenlernen benutzten Mean-Field-Methoden).

Im Ausland bereits vielfach erprobt, eignen sich Forschungspraktika in Kombination mit selbstständigem wissenschaftlichem Arbeiten bestens, um gemeinsame Lösungen zu erarbeiten. „Data Scientists“ sollten sich in verschiedenen Anwendungsfeldern auskennen und brauchen dafür ein geeignetes Ökosystem an den Universitäten. Dabei ist es wichtig, dass Studierende bereits im Bachelor­studium erste Erfahrungen mit der interdisziplinären Arbeit machen können, die sie dann im Masterstudium und im Promotionsstudium vertiefen. Dadurch etabliert sich die erforderliche Kommunikationskultur auch unter den betreuenden Professoren und Assistenten. 

  • Als Ort für diese interdisziplinäre Kommunikationskultur empfehlen sich Daten-Laboratorien, die von den Vertretern verschiedenster Fachrichtungen für Forschungspraktika in der Data Science genutzt werden. Sie verfügen über eine erstklassige IT-Infrastruktur sowie betreuendes Personal. Data Science ist mehr als die bloße Anwendung von Methodik, sie beinhaltet die erkenntnisbringende kritische Auseinandersetzung mit den Ergebnissen und ihre wissenschaftliche Interpretation. Daten-Laboratorien sind der natürliche Ort für eine innovative, lebendige Gründerszene.

    Über die Autoren

    Prof. Dr. Karl Mannheim

    Prof. Dr. Karl Mannheim ist Ordinarius für Astrophysik an der Julius-Maximilians-Universität Würzburg. Er beschäftigt sich mit der Analyse sehr großer Datenströme von astronomischen Observatorien. Er ist Sprecher der Arbeitsgruppe für das Square Kilometre Array (SKA) im deutschen GLOW-Konsortium und des Arbeitskreises für Physik, moderne Informationstechnologie und Künstliche Intelligenz in der Deutschen Physikalischen Gesellschaft (DPG).

    Dr. Kai Polsterer

    Dr. Kai Polsterer ist Junior-Gruppenleiter für Astro-Informatik und entwickelt innovative Datenanalysemethoden am Heidelberger Institut für Theoretische Studien (HITS).

    Dieser Text steht unter der Lizenz Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 4.0 International - CC BY-SA 4.0. Bitte nennen Sie bei einer möglichen Nachnutzung den angegebenen Autorennamen sowie als Quelle das Hochschulforum Digitalisierung.