FachbereichFachartikel

Data Science und die Qualität von Daten

Von Prof. Dr. Richard Lenz, Friedrich-Alexander-Universität Erlangen-Nürnberg

Im Zeitalter von „Big Data“ wird zunehmend der „Data Scientist“ als wichtiges Berufsfeld identifiziert. Er analysiert große Datenmengen mit teilautomatisierten Methoden und leitet aus seinen Ergebnissen Handlungsempfehlungen ab. Die Beurteilung der Datenqualität ist für den Data Scientist von zentraler Bedeutung. Dabei kann er aber nicht auf die traditionellen Methoden der Qualitätssicherung zurückgreifen, denn die Datenquellen entziehen sich in der Regel der Kontrolle der Datenkonsumenten. Data-Profiling-Methoden, neue Methoden der Datenqualitätsmessung und neue Methoden der Schema-Inferenz werden gebraucht.

Datenqualität ist ein schwer zu fassender Begriff, weil die Kriterien, nach denen die Qualität von Daten beurteilt wird, in der Regel vom Verwendungskontext abhängen. Sehr abstrakt wird Datenqualität oft als „fitness for use“ charakterisiert. Um Datenqualität zu messen und zu verbessern, gibt es heute zahlreiche Methoden, die aber nur selten domänenunabhängig sind und oft nicht auf andere Anwendungskontexte übertragbar sind. Proaktive Methoden zur Qualitätssicherung, wie TDQM (Total Data Quality Management), sind auf Big-Data-Szenarien kaum anzuwenden, denn die zahlreichen Datenquellen entziehen sich zielgerichteten qualitätssichernden Maßnahmen im Datenproduktionsprozess, wenn die Quellen nicht unter der Kontrolle der Datenkonsumenten stehen.

Ein Großteil der Aufwände des Data Scientist fließt somit in Aufgaben, geeignete Quellen zu finden, zu beurteilen und gegebenenfalls nachträglich bedarfsgerecht zu bereinigen und mit geeigneten Metadaten anzureichern. Von zentraler Bedeutung ist dabei für den Data Scientist insbesondere die verschiedenartigen Datenquellen gut zu verstehen, um beurteilen zu können, ob sie für den Verwendungszweck auch geeignet sind. Falsch interpretierten Daten sieht man nicht an, dass sie fehlerhaft, unscharf oder für den intendierten Verwendungszweck gänzlich ungeeignet sind, sie führen aber zu falschen Schlüssen und damit auch falschen oder unbegründeten Handlungsempfehlungen.

Data Profiling bezeichnet ein breites Spektrum an Methoden, die ein Data Scientist anwenden kann, um Datenquellen besser zu verstehen. Das reicht von der Analyse von Datentypen, Wertebereichen, Werteverteilungen, Schlüsseleigenschaften von Attributen, funktionalen Abhängigkeiten bis zu bedingten funktionalen Abhängigkeiten und Inklusionsanalysen. Felix Naumann weist in einem vielbeachteten Artikel auf die besondere Bedeutung von Data Profiling im Zusammenhang mit Data Science hin und macht auf den dringenden Bedarf an neuen Methoden aufmerksam, die insbesondere für das Profiling nicht-relationaler Daten geeignet sind. Eine ähnliche Einschätzung finden Halevy et al., die im Zusammenhang mit den Erfahrungen aus Googles Goods-Projekt auf die hohe Bedeutung von Werkzeugen zur Verbesserung des Verständnisses von Datenquellen hinweisen.

Data-Profiling-Methoden helfen bei unbekannten Datenquellen, sind jedoch weit davon entfernt die Bedeutung von Daten vollständig erfassen und erklären zu können. Methoden der Schema-Inferenz würde man sich wünschen, damit automatisiert erkannt werden kann, welche Datenquellen vergleichbar oder sinnvoll verknüpfbar sind. Meist lässt sich das aber nicht automatisieren, und dann erfordert die semantische Einordung von Datenquellen einen hohen kognitiven Aufwand beim Data Scientist. Hat der Data Scientist die Quellen einmal verstanden, kann er sie in geeigneten Anfragen zielgerichtet weiterverwenden oder sinnvoll mit anderen Quellen verknüpfen. Das Wissen um die Bedeutung der Daten, das sich der Data Scientist erarbeitet hat, ist in diesen Anfragen implizit enthalten.

Im OCEAN-Projekt an der FAU Erlangen wird versucht das in Anfrageprotokollen versteckte Wissen um die Bedeutung von Datenquellen nutzbar zu machen.  Auf diese Weise soll versucht werden, einmal unternommene Anstrengungen für die Datenintegration nicht verpuffen zu lassen, sondern wiederzuverwenden, in der Hoffnung, dass dadurch eine inkrementelle nutzungsorientierte Verbesserung des Datenverständnisses erreicht werden kann.

    Fazit und Ausblick

    Im Zusammenhang mit der Beurteilung von Datenqualitätsfragen im Bereich Data Science ergeben sich Fragestellungen in folgenden Bereichen:

    • Präzisierung und Standardisierung elementarer Datenqualitätskriterien
    • Standards zur systematischen Annotation von Quelldaten mit Qualitätsmerkmalen
    • Neue Methoden zum Data Profiling für nicht-relationale Datenquellen
    • Neue Methoden der Schema-Inferenz

    Über den Autor

    Prof. Dr. Richard Lenz

    Prof. Dr. Richard Lenz ist Professor für Datenmanagement an der Universität Erlangen-Nürnberg. Er beschäftigt sich in seiner Forschung u.a. mit dem Thema Evolutionäre Informationssysteme. In diesem Zusammenhang ist auch das Thema Datenqualität von zentraler Bedeutung. Er ist Sprecher des Fachbereichs Informatik in den Lebenswissenschaften in der GI.

    Dieser Text steht unter der Lizenz Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 4.0 International - CC BY-SA 4.0. Bitte nennen Sie bei einer möglichen Nachnutzung den angegebenen Autorennamen sowie als Quelle das Hochschulforum Digitalisierung.