FachbereichFachartikel

Die Bedeutung von Data Science für die Chemie

Chemie und benachbarte Disziplinen wie chemische Biologie erzeugen umfangreiche Datenmengen unterschiedlicher Qualität aus den verschiedensten Quellen. Diese werden auch bislang schon in typischen Datenbanken (z.B. Reaktionen, Moleküleigenschaften, Spektren, Strukturen, Sequenzen, biologische Aktivität, Imaging) gesammelt, wobei die Unsicherheit mit zunehmendem „biologischem Charakter“ der Datenquelle im Regelfall zunimmt. Auch wenn Studierende regelmäßig mit diesen Daten konfrontiert werden bzw. mit ihnen arbeiten müssen, bleibt die fundierte statistische Analyse zum Großteil dem sehr kleinen Anteil theoretisch arbeitender Spezialisten vorbehalten, da die notwendigen Grundlagen in der Fachausbildung bislang weitgehend vernachlässigt werden.

Aus diesem Grund wird der prinzipielle Mehrwert von Wissen, das allein durch fundierte statistische Analyse, computergestützte Verarbeitung und maschinelles Lernen anhand von Daten erzeugt werden kann, weitgehend nicht realisiert. Dieses ungenutzte Potenzial hat massiven negativen Einfluss auch auf die Beschäftigungsaussichten der Studierenden, da Firmen wie z.B. BASF die Digitalisierung auf allen Ebenen massiv vorantreiben, ohne in ausreichendem Maß das hierfür geeignet qualifizierte Personal zu finden. Der Hebel zur Verbesserung der Situation liegt in der grundlegenden Ausbildung.

Insofern muss das Momentum der aufkommenden Data Science-Studien­gänge, das sich auf viele Bereiche der MINT-Fächer bereits ausgewirkt hat, auf die Chemie und ihre Nachbarfächer übertragen werden. In der fachlichen Grundausbildung im Bereich Mathematik in der Chemie spielen statistische Aspekte praktisch keine Rolle, stattdessen werden die Grundlagenmodule dominiert durch eine Untermenge der typischerweise für Ingenieurstudiengänge gelehrten Mathematikinhalte, von z.B. linearer Algebra bis Differentialgleichungen.

In bspw. der Biologie und Pharmazie wird grundlegende Statistik zwar regelmäßig angeboten, allerdings auf die Bereiche der höheren Mathematik verzichtet. Weder in der Chemie noch in den Nachbarschaftsdisziplinen spielen fundierte Programmier- oder Informatik­kenntnisse eine Rolle in den Pflichtcurricula. Vielmehr hat die Biologie – im Gegensatz zur Chemie – durch die Etablierung von Bioinformatik-Studiengängen ein Angebot und eine Präsenz geschaffen, die dem Ideal der drei Säulen der Data-Science-Studiengänge (Mathematik/Infor­ma­tik/„Domain Science“) am nächsten kommt und entsprechend ausgebildete Absolventinnen und Absolventen erzeugt, die vom Arbeitsmarkt auch unmittelbar absorbiert werden.

Da die Ausbildung der (Bio-) Chemie stark durch praktische Anteile und im Bereich der theoretischen Chemie hauptsächlich durch angewandte Quantenmechanik geprägt ist, wird eine Erweiterung der Curricula hin zu „Data Science“ sehr schwierig zu gestalten sein. Gleichzeitig wird eine „Chemieinformatik“ (obwohl in der Forschung ein etabliertes Feld) als eigenständiger Studiengang Akzeptanzprobleme haben und kaum zu realisieren sein.

Es ergeben sich somit zwei Perspektiven: Zum einen können ausgewählte, relevante Inhalte von „Data Science“-Modulen erarbeitet werden, die zunächst im Wahlpflichtbereich von Bachelor- und Masterstudiengängen in Chemie und benachbarten Fächern angeboten werden können. Nach einer Evaluationsphase der Akzeptanz und Relevanz für den Arbeitsmarkt könnte die Motivation für die Überführung in den Pflichtbereich gegeben sein. Zum anderen sollte (Bio-) Chemie als „Domain Science“-Komponente inhaltlich anhand relevanter Fragen aus der Praxis verankert und in Form von Modulinhalten vereinheitlicht werden. Studierende der Data Science erhalten auf diesem Weg eine weitere Wahlmöglichkeit eines bislang unterrepräsentierten Gebiets. Hierbei kann auf die Erfahrungen der Bioinformatik-Studiengänge zurückgegriffen werden.

Fazit und Ausblick

  • Die Inhalte von Data-Science-Grundlagenmodulen im Bachelor- und Masterbereich sollten bundesweit einheitlich, differenziert nach Chemie und benachbarten Disziplinen, formuliert werden.
  • (Bio-) Chemie als „Domain Science“-Komponente in Data-Science-Studiengängen sollte inhaltlich erarbeitet werden, analog zu den biologischen Inhalten in der Bioinformatik-Ausbildung.
  • Diese beiden Aspekte erfordern die enge Abstimmung mit den Curricular-Kommissionen der Fachgesellschaften.

Von Prof. Dr. Stefan M. Kast, Technische Universität Dortmund / Fachgruppe Computer in der Chemie (CIC) der Gesellschaft Deutscher Chemiker (GDCh)

Die in der Chemie erzeugten umfangreichen Datenmengen werden bislang nicht hinreichend genutzt, da die grundlegenden datenwissenschaftlichen Methoden in der Fachausbildung vernachlässigt werden. Während Data Science in der Biologie durch Studiengänge der Bioinformatik zumindest sichtbar ist, trifft dies für die Chemie praktisch nicht zu. Ziel ist, Chemie und benachbarte Naturwissenschaften sowohl als optionale Domain-Science-Komponenten in Vollstudiengängen Data Science zu verankern als auch koordinierte Spezialmodule mit datenwissenschaftlichem Hintergrund in den Fachstudien anzubieten.

Über den Autor

Prof. Dr. Stefan M. Kast

Prof. Dr. Stefan M. Kast vertritt das Gebiet Theoretische Physikalische Chemie an der Fakultät für Chemie und Chemische Biologie der Technischen Universität Dortmund und ist seit 2017 Vorstandsvorsitzender der Fachgruppe „Computer in der Chemie“ (CIC) der Gesellschaft Deutscher Chemiker (GDCh). Er forscht und lehrt im interdisziplinär geprägten Bereich der Modellierung und Simulation chemischer und biologischer Systeme, was auch die Verarbeitung und statistische Analyse großer Datenmengen erfordert.

Dieser Text steht unter der Lizenz Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 4.0 International - CC BY-SA 4.0. Bitte nennen Sie bei einer möglichen Nachnutzung den angegebenen Autorennamen sowie als Quelle das Hochschulforum Digitalisierung.