FBFachartikel

Data Science in den Sozialwissenschaften

Fazit und Ausblick

Data-Science-Methoden sind für die Sozialwissenschaften von zunehmender Bedeutung. Sie liefern neue Ansätze zum Testen sozialwissenschaftlicher Theorien und erweitern den Methodenkanon der empirischen Sozialforschung substanziell.

  1. Die Analyse unvollständiger, fehlerbehafteter und zeitlich aufgelöster Daten zu sozialen Systemen stellt Anforderungen, die von existierenden Methoden, bspw. der sozialen Netzwerkanalyse oder dem maschinellen Lernen, allenfalls zum Teil erfüllt werden. Für die Informatik ergeben sich damit neue Herausforderungen sowohl für die Forschung wie auch für die Ausbildung einer Generation kritischer Datenwissenschaftler.
  2. Während die kritische Reflexion empirischer Forschungsmethoden in den Sozialwissenschaften wichtiger Aspekt der Ausbildung ist, fehlen in Informatikstudiengängen häufig sowohl statistische wie auch wissenschaftstheoretische Grundlagen, die für den Einsatz von Data-Science-Methoden in den Wissenschaften von herausragender Bedeutung sind.
  3. Aller Sonntagsreden zur Bedeutung interdisziplinärer Forschung zum Trotz bestehen erhebliche kulturelle und wissenschaftspolitische Hürden, die der effektiven Zusammenarbeit von Informatikern und Sozialwissenschaftlern im Wege stehen. Der Abbau dieser Hürden in Forschungsförderung, Ausbildung und wissenschaftlichen Anreizsystemen und Strukturen ist für die weitere Entwicklung der Sozialwissenschaften wie auch der Informatik von entscheidender Bedeutung.

Von Dr. Ingo Scholtes, Chair of Systems Design, ETH Zürich

Die Digitalisierung der Gesellschaft führt zu einer zunehmenden Verflechtung von Informatiksystemen mit gesellschaftlichen Akteuren und Prozessen. Eine Konsequenz ist die Verfügbarkeit großer Datensätze, welche ein digitales Abbild menschlichen Verhaltens, zwischenmenschlicher Interaktionen und sozialer Strukturen liefern. Die Analyse solcher Datensätze mittels Data-Science-Methoden wirft einerseits datenschutzrechtliche und ethische Fragen auf. Andererseits bietet sie das Potenzial, unser Verständnis gesellschaftlicher Prozesse grundlegend zu verbessern.

Mehr und mehr Aspekte unseres täglichen Lebens hinterlassen digitale Spuren. Dies gilt für die durch Digitalisierung geprägte Arbeitswelt ebenso wie für den privaten Internet- und Medienkonsum, das Einkaufsverhalten oder die zwischenmenschliche Kommunikation auf digitalen Plattformen. Hierbei anfallende Datensätze liefern einen immer genaueren „digitalen Schatten“ menschlichen Verhaltens und sozialer Interaktionen.

In der wichtigen laufenden Debatte über Chancen und Risiken, die sich aus der Anwendung von Data-Science-Methoden auf solche Datensätze ergeben, steht meist die Abwägung zwischen ethischen sowie datenschutzrechtlichen Anforderungen im Vordergrund. Das gewaltige Potenzial für die Fortentwicklung der empirischen Sozialforschung im 21. Jahrhundert tritt demgegenüber häufig in den Hintergrund.

Dabei bieten Data-Science-Methoden neuartige Möglichkeiten für Exploration und Analyse großer Datensätze zu menschlichem Verhalten. Gleichzeitig versprechen moderne rechnergestützte Simulations- und Modellierungsverfahren, insbesondere durch den Abgleich mit empirischen Daten, Einsichten in jene Wirkmechanismen, die kollektiven sozialen Phänomenen zugrunde liegen. Die Kombination dieser Ansätze bietet das Potenzial, unser Verständnis gesellschaftlicher Phänomene grundlegend zu verbessern.

Die Untersuchung sozialwissenschaftlicher Fragestellungen mittels Data-Sci­ence Methoden liegt im Fokus eines interdisziplinären Forschungsgebiets, welches häufig unter dem Begriff „Computational Social Science“ zusammengefasst wird. Einige Sozialwissenschaftler setzen die sich hieraus ergebenden Möglichkeiten mit einer methodischen Revolution gleich. Gleichzeitig entstehen aber auch neue Herausforderungen, nicht nur für die Sozialwissenschaften, sondern auch für die Informatik. Gemessen an den Bekenntnissen von Hochschulen und Förderinstitutionen zur Bedeutung von Interdisziplinarität sind echte „inter“-disziplinäre Arbeiten an der Schnittstelle zwischen Informatik und Sozialwissenschaften, d.h. Arbeiten, in denen sozialwissenschaftliche Theorien mittels Informatikmethoden getestet und weiterentwickelt werden, leider nach wie vor die Ausnahme. Demgegenüber steht eine steigende Zahl „datengetriebener“ Studien, welche Korrelationen und Muster in großen Datenmengen bspw. aus sozialen Medien aufzeigen, ohne jedoch Aufschluss über zugrundeliegende Wirkmechanismen geben zu können.

In der Tat erwecken viele dieser Studien den Eindruck, dass vielmehr die Analyse der Daten und nicht die Beantwortung einer wissenschaftlichen Frage im Fokus des Interesses steht. Sie können also lediglich ein erster Schritt in Richtung einer „theoriegetriebenen“ und „datengestützten“ Forschungsdisziplin sein, die den Namen Computational Social „Science“ verdient. Denn die Erklärung sozialwissenschaftlicher Phänomene und das Aufzeigen kausaler Mechanismen erfordern mehr als nur Datenanalysekompetenzen.

Wissenschaftstheoretische Grundlagen sind hierzu von ebenso großer Bedeutung wie Domänenwissen zu soziologischen Theorien und Methoden. Darüber hinaus sind Kompetenzen in der Modellierung kollektiver Phänomene in komplexen Systemen wechselwirkender Agenten gefragt, welche in der statistischen und interdisziplinären Physik von großer Bedeutung sind.

Um sinnvoll von den Möglichkeiten Gebrauch zu machen, die sich dank neuer Datenquellen und Data-Science-Metho­den ergeben, müssen Informatikcurricula daher ebenso weiterentwickelt werden wie sozialwissenschaftliche Studiengänge. Hierbei gilt es Studenten in die Lage zu versetzen u.a. folgende Fragen zu beantworten: Wie lassen sich sozialwissenschaftliche Theorien und Hypothesen mittels Data Science überprüfen? Wie aussagekräftig und repräsentativ sind Ergebnisse von Studien, welche bspw. auf öffentlich zugänglichen Daten aus sozialen Medien basieren? Wie können Stichprobenverzerrungen in solchen Daten erkannt, quantifiziert und gegebenenfalls korrigiert werden? Welche spezifischen Herausforderungen bspw. für Methoden des maschinellen Lernens oder der sozialen Netzwerkanalyse ergeben sich durch fehlerbehaftete, unvollständige und zeitlich aufgelöste Daten­sätze? Und welche Rolle spielt Data Science in der Theoriebildung?

Was also ist Computational Social Science? Eine „Hilfswissenschaft“, die sich in die lange Liste erfolgreicher Computational Sciences und Bindestrich-Informatiken wie Bio-, Wirtschafts-, Medizin-, Geo-, Umwelt-, Medien- und Agrarinformatik einreiht? Ich bin überzeugt, dass Computational Social Science in dieser Liste eine Sonderstellung hat. Denn neben dem unbestreitbaren Potenzial für die Sozialwissenschaften ergeben sich aus der Konvergenz sozialer und technischer Systeme auch neue Problemfelder für die Informatik. Denn die Rückkopplung technischer und sozialer Aspekte in Informatiksystemen führt zu einer Komplexität, die mit existierenden Ansätzen des Systementwurfs nur schwer beherrschbar ist.

Es ergeben sich wichtige Fragen, die sich zum Teil mit den von der Gesellschaft für Informatik formulierten Grand Challenges decken und deren Beantwortung eine quantitative Modellierung sozialer Aspekte erforderlich macht. Welche neuartigen systemischen Risiken ergeben sich in weltumspannenden soziotechnischen Systemen? Welche sozialwissenschaftlichen Erkenntnisse müssen im Entwurf resilienter technischer Systeme berücksichtigt werden? Inwiefern beeinflussen Mechanismen von Informatiksystemen (bspw. intelligente Empfehlungssysteme, Reputationsmechanismen etc.) soziale Phänomene wie Polarisierung oder Diskriminierung? Welche Methoden der Datenanalyse und -modellierung können wir nutzen, um solche Phänomene zu quantifizieren, vorherzusagen oder sogar zu beeinflussen? Und welche neuen Ansätze ergeben sich für Analyse und Management menschlicher Aspekte in der kollaborativen Softwareentwicklung?

Die Anwendung von Computational-Social-Science-Methoden auf große Datensätze soziotechnischer Systeme verspricht Antworten auf diese wichtigen Fragen. Aus diesem Grund ist Computational Social Science nicht nur für die Sozialwissenschaften, sondern auch für die Informatik von großer Bedeutung.

      Über den Autor

      Dr. Ingo Scholtes

      Dr. Ingo Scholtes ist Oberassistent am Lehrstuhl für Systemgestaltung der ETH Zürich. In seiner Forschung beschäftigt er sich mit Methoden zur Analyse unstrukturierter, fehlerbehafteter und zeitgestempelter Daten aus den Wissenschaften. Er ist Juniorfellow und gewähltes Mitglied des Präsidiums der Gesellschaft für Informatik. Gemeinsam mit Prof. Dr. Markus Strohmaier ist er Gründungsvorsitzender des Arbeitskreises Computational Social Science. Er ist zudem Mitglied im Fachverband Physik sozio-ökonomischer Systeme der Deutschen Physikalischen Gesellschaft. Am Institut für Informatik der Universität Zürich baut er aktuell eine neue, vom Schweizerischen Nationalfonds zur Förderung der wissenschaftlichen Forschung finanzierte Forschungsgruppe zu Data Analytics auf.

      Dieser Text steht unter der Lizenz Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 4.0 International - CC BY-SA 4.0. Bitte nennen Sie bei einer möglichen Nachnutzung den angegebenen Autorennamen sowie als Quelle das Hochschulforum Digitalisierung.