FachbereichFachartikel

Data Science aus Sicht der Mathematik

Fachlich gesehen sind „sinnlose Datenmengen“ Punktwolken in einem sehr hochdimensionalen Raum. Dort erscheinen sie ohne Struktur. Data Science versucht darin Struktur, d.h. niederdimensionale, gut beschreibbare Objekte, zu finden, die die Punktwolke beschreiben. Diese Strukturen können unterschiedlich sein: algebraisch, topologisch, diskret (etwa Netzwerke) oder „modellfrei“. Welche Struktur „gut“ ist, hängt von der Anwendung, von der Berechenbarkeit und von den Daten ab.

Doch wozu braucht es Data Scientists? Die Methoden sind zu elaboriert, als dass Experten der Anwendungsgebiete in Wissenschaft, Technologie und Wirtschaft sie nebenher lernen könnten. Deshalb lohnt es sich für die Anwendungen ausgesprochene Methodenexperten mit Grundkenntnissen der Anwendung hinzuziehen.

Data Science ist eine junge Wissenschaft. Viele grundlegende Fragen sind noch offen. Viele zentrale Ergebnisse und Methoden werden erst gefunden werden. Deutschland hat sehr gute Voraussetzungen, um diese Innovation führend mitzugestalten. Das muss unser Ziel sein. Gegenwärtig stehen drei erfolgreiche Aspekte im Vordergrund:

  1. Lerntheorie (insbesondere neuronale Netze),
  2. Zentralitätsmaße in Netzwerken und
  3. statistische Verfahren wie etwa LASSO.

Reduziert man die Data-Science-Ausbildung auf die Vermittlung des bisher Bekannten, vergibt man die Chance auf Innovationsführerschaft. Deshalb brauchen wir grundlegend ausgebildete Data Scientists.

Risiken und verantwortlicher Umgang

Erkenntnistheoretisch sind Data-Science-Methoden oft prekär. Sie sollen es auch sein, denn es geht darum, auch die erkenntnistheoretischen Grenzbereiche auszunutzen. Es besteht die reale Gefahr, dass sich elaborierte Methoden und Systeme etablieren, deren Rolle in der Anwendung methodisch nicht zu rechtfertigen ist, deren Elaboriertheit aber verhindert, dass Anwender sich dieses Fehlers bewusst sind. Hier muss ein Data Scientist für einen verantwortlichen Umgang mit den prekären Methoden sorgen. Deshalb brauchen wir grundlegend ausgebildete Data Scientists.

Wie Data Science studieren?

Grundlegend ausgebildete Data Scientists müssen:

  1. die Vielfalt der Strukturen kennen und entwickeln können, mit denen Daten analysiert werden
  2. die Methoden kennen, mit denen diese Strukturen gesucht werden
  3. die Fragen und die Angemessenheit der Methoden für zumindest ein Anwendungsgebiet beurteilen können

Daher ist ein Data-Science-Studium ein Mathematikstudium mit Informatikanteil oder ein Informatikstudium mit einem stärkeren Mathematikanteil, jeweils mit Grundkenntnissen und Abschlussarbeiten in einer Anwendung. Für Ersteres benötigt man Strukturwissenschaften wie etwa Algebra, diskrete Mathematik sowie Stochastik und Statistik, für Zweiteres bedarf es tiefergehender Kenntnisse von Algorithmen, Datenstrukturen, Optimierung und Numerik. Zusätzlich sollte eine Erkenntnis- oder Wissenschaftstheorie gehört werden.

Fazit und Ausblick

Diese Ansprüche sind sehr hoch. Sollte man einen „Data Scientist light“ ermöglichen, für den nur die Verwendung der existierenden Methoden gelehrt wird? Ist es ein deutscher Sonderweg, auf die hochqualitative Ausbildung zu setzen? Data Scientist light kann auch von Statistikern, Mathematikern und Informatikern mit Zusatzkursen geleistet werden. Nachhaltige Innovation und verantwortlicher Umgang erfordern das hochqualitative, anspruchsvolle Studium. Dies ist auch der Weg, den Top-Institutionen in den USA gehen. Wir sollten uns nicht am Mittelmaß orientieren

Von Prof. Dr. Sebastian Stiller, Institut für Mathematische Optimierung an der Technischen Universität Carolo-Wilhelmina zu Braunschweig und Deutsche Mathematiker Vereinigung e.V. (DMV)

Data Science ist eine Methodenwissenschaft. Sie erforscht und entwickelt Methoden, um aus Daten Erkenntnisse abzuleiten, wenn die einfachen, allgemeinverständlichen Methoden der Empirie nicht mehr ausreichen. Kurz: Es geht darum in scheinbar „sinnlosen“ Datenmengen Struktur zu erkennen. Nachhaltige Innovationen und ein verantwortlicher Umgang mit diesen Datenmengen erfordern das hochqualitative, anspruchsvolle Studium.

Data Science und klassische Empirie

Data Science entwickelt Methoden, die in mindestens drei Aspekten von der klassischen Empirie abweichen, denn Data Science versucht Erkenntnisse aus Daten zu generieren:

  1. ohne vorher aus anderen Gründen eine Hypothese gebildet zu haben,
  2. ohne dass die Experimente wiederholbar wären,
  3. selbst wenn nur schwache Korrelationen bestehen.

Die dabei verletzten, empirischen Prinzipien sind nicht falsch oder überholt. Aber man kann, wo sie nicht zu erfüllen sind, unter bestimmten Bedingungen und mit wesentlichen Abstrichen an dem Statut der Erkenntnis selbst (Stichwort Korrelation und Kausalität) Erkenntnisse gewinnen oder Hinweise dazu bekommen, welche klassischen, aufwändigen Experimente erfolgversprechend sind.

Data Science ersetzt nicht die klassische, wissenschaftliche Methodik, sondern ergänzt sie.

    Über den Autor

    Prof. Dr. Stefan M. Kast

    Prof. Dr. Stefan M. Kast vertritt das Gebiet Theoretische Physikalische Chemie an der Fakultät für Chemie und Chemische Biologie der Technischen Universität Dortmund und ist seit 2017 Vorstandsvorsitzender der Fachgruppe „Computer in der Chemie“ (CIC) der Gesellschaft Deutscher Chemiker (GDCh). Er forscht und lehrt im interdisziplinär geprägten Bereich der Modellierung und Simulation chemischer und biologischer Systeme, was auch die Verarbeitung und statistische Analyse großer Datenmengen erfordert.

    Dieser Text steht unter der Lizenz Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 4.0 International - CC BY-SA 4.0. Bitte nennen Sie bei einer möglichen Nachnutzung den angegebenen Autorennamen sowie als Quelle das Hochschulforum Digitalisierung.