Lexikon

Mining Social Media

Social Media als aktuelles Phänomen

Eine ganze Reihe von Ereignissen wurden in letzter Zeit zuerst getwittert, bevor sie über die ,,klassischen“ Medien verbreitet wurden, z.b.  die  Flugzeugnotlandung von US Airways Flug 1549 im Hudson River [1] oder dieWahl des Bundespräsidenten 2009 [2]. Social-Media-Dienste wachsen rasant:  Beispielsweise zeigte das soziale Netzwerk Google+ (Start: Juni 2011) ein exponentielles Nutzerwachstum: 10 Mio. Nutzer in 16 Tagen und 20 Mio. in 24 Tagen [3]; Facebook (Start 2004) hat im Januar 2012 ca. 800 Mio. Nutzer [4]. 

Wasmacht nun die Faszination von Social Media aus? Social Media erfasst nutzergenerierte Inhalte in ,,klassischen“ sozialen Diensten wie z. B. Twitter, aber beispielsweise auch in RFID-basierten Anwendungen [5, 14]. Damit beinhaltet Social Media weitere Dimensionen, wie sie sich in Sensornetzwerken, mobilen Geräten und dem ubiquitären Web eröffnen. Aus Anwendungssicht spielt die Analyse von Communities eine große Rolle, um gemeinsame Interessen oder spezielle Kompetenzen zu identifizieren. Diese können dann z. B. zur Personalisierung, fürWerbung und für Empfehlungen genutzt werden. Weiterhin stellt sich für Unternehmen oft die Frage, wie produktbezogene Kundenmeinungen bewertet oder Experten identifiziert werden können [14]. 

Wie können wir nun aus all diesen lokalen, verteilten, und unterschiedlichen Social-Media-Daten, die durch menschliche Kommunikation und Interaktion erzeugt werden, interessante Informationen, Muster und letztendlich Wissen extrahieren? Zunächst wollen wir im Folgenden wichtige Begriffe klären, bevor wir konkrete Techniken und Anwendungen betrachten, wobei wir hier insbesondere auf Communities eingehen.

Begriffe

Soziale Medien (Social Media): Kaplan und Haenlein definieren Social Media als internetbasierte Anwendungen, die auf Techniken desWeb 2.0 aufbauen. Kern ist die Erstellung, Gestaltung und der Austausch nutzergenerierter Inhalte (user generated content) [11]. Letztere schließen dabei alle Anwendungsmöglichkeiten von Social Media ein, hinsichtlich der Gestaltung durch Endnutzer sowie ihrer Verfügbarkeit. Intuitiv verstehen wir unter Social Media daher internetbasierte Systeme und Dienste im ubiquitären Web, die als Medium soziale Daten menschlicher Interaktion und Kommunikation bereitstellen. Dies schließt auch Daten von Sensornetzwerken oder mobilen Geräten ein, solange die Daten von realen Nutzern erzeugt werden. 

Soziale Netzwerkanalyse (Social Network Analysis): Im Kontext von Social Media betrachten wir soziale (Online-)Netzwerke, die ,,eine besondere Form von Gemeinschaft sind [...], bei denen die Interaktion und Kommunikation der Akteure durch eine technische Plattform und die Infrastruktur des Internets unterstützt wird. Verbindendes Element ist dabei ein gemeinsames Ziel, Interesse oder Bedürfnis, ...“ [10, S. 263]. Hier zeigt sich der Bezug zu Communities (Gemeinschaften), die solche verbindenden Elemente manifestieren. Im Kern betrachtet die soziale Netzwerkanalyse [19] eine Menge von Knoten (Akteure) und ihre Verbindungen, die die Beziehungen zwischen ihnen modellieren, z. B. Freundschaftsbeziehungen oder die ,,Follower“-Beziehung in Twitter. Mithilfe der sozialen Netzwerkanalyse lässt sich beispielsweise in der Epidemiologie analysieren, wie menschliche Kontaktmuster die Verbreitung von Krankheiten (z. B. Grippe) fördern oder verhindern [18].

Communities: Communities stellen als ,,Gemeinschaften“ intuitiv besonders ,,dicht verbundene“ Gruppen von Knoten im sozialen Netzwerk dar. Die Verbindungen können dabei durch unterschiedliche Interessen, Bedürfnisse, u. ä. motiviert sein. Es existieren verschiedenste Definitionen von Communities, wobei die obige den Kern dermeisten Definitionen umfasst. Grundsätzlich wird zur Auffindung und zur Bewertung einer Community meist die Vernetzung (Dichte) innerhalb der Community mit dem Rest-Netzwerk betrachtet [8]. 

Techniken

Zur Analyse von Social-Media-Daten können einerseits deren Inhalte genauer untersucht werden, um etwa mit natürlichsprachlichen Methoden (Natural Language Processing, NLP) linguistische Analysen durchzuführen. Andererseits kann der Fokus auch auf der induzierten Netzstruktur der betrachteten Social–Media-Daten liegen, beispielsweise in einem Freundschaftsnetzwerk. In einem solchen Fall können durch Methoden der sozialen Netzwerkanalyse (SNA) Untersuchungen auf der Gesamtebene des Netzwerks durchgeführt werden [19], um etwa die durchschnittliche Pfadlänge zwischen Knoten oder den Durchmesser des Netzwerks zu bestimmen.Weiterhin können auf Knotenund Netzwerkebene leicht verschiedene Zentralitätsmaße im Netzwerk bestimmt werden, die auf die Bedeutung oder das Prestige einzelner Knoten hindeuten, um wichtige Knoten (Hubs) zu identifizieren oder Rollen der Knoten zu analysieren [6, 19]. Beispiele sind die Gradzentralität (degree centrality) als Anzahl der Verbindungen eines Knotens zu seinen Nachbarn, die Zwischenzentralität (betweenness centrality) als Anzahl der kürzestenWege aller möglichen Knotenpaare, die durch einen Knoten führen, oder die Nähezentralität (closeness centrality), die die Länge dieser kürzestenWege betrachtet. Für Grad- und Zwischenzentralität sprechen hohe Werte tendenziell für eine größere Bedeutung, wogegen für die Nähezentralität das Umgekehrte gilt, vgl. [19]. 

Die folgenden Abschnitte betrachten zwei Data-Mining-Ansätze genauer, die sich einerseits auf die Inhalte (Sentiment Mining), andererseits auf die (Netzwerk-)Struktur von Social Media (Community Mining) konzentrieren: Sentiment Mining wird genutzt, um Meinungen und Stimmungen aus Social Media zu extrahieren. Community Mining versucht, in der sozialen Netzstruktur eng zusammenhängende Gruppen zu identifizieren. 

Sentiment Mining 

Sentiment Mining (Sentiment Analysis, Opinion Analysis) [13] zielt darauf ab, mithilfe von NLP, linguistischen Methoden und Text Mining subjektive Informationen aus textuellen Daten zu extrahieren. Es wird versucht, die Polarität (positiv/negativ) eines Textes zu identifizieren. Die Polarität kann auch genauer differenziert werden, z. B. ,,traurig“, ,,enttäuscht“ im negativen Fall, bzw. ,,fröhlich“, ,,glücklich“ im Positiven. 

Die verwendeten Methoden basieren auf Techniken des maschinellen Lernens, wie etwa latente semantische Analyse und Support-Vector- Maschinen, aber auch auf lexikonbasierten Verfahren, die entsprechende Sentiment-Werte für einzelne Worte enthalten und aggregiert den Sentiment-Wert eines Textes bzw. einer Textpassage angeben. Zur Bewertung der Ergebnisse werden die Vorhersagen mit einer menschlichen Bewertung (meist mehrerer Personen) verglichen. Anwendungen reichen von der Einordnung von Produktkommentaren bis zur Bewertung von Blog-Einträgen. 

Community Mining

Community Mining zielt auf die Auffindung und Analyse (zusammenhängender) Subgruppen, Cluster oder Gemeinschaften ab, die in einem sozialen Netzwerk ,,dicht“ miteinander verbunden sind. Techniken zur Entdeckung von Communities umfassen graph-basierte Ansätze [8], Clustering aufgrund von Knoteneigenschaften oder Pattern-Mining-Ansätze zur Optimierung einer Community-Bewertungsfunktion [7]. Die Grundidee der Bewertungsfunktionen ist es, ein objektives Bewertungskriterium zu finden, beispielsweise die Anzahl von Verbindungen innerhalb der Community verglichen mit der statistisch ,,erwarteten“ Anzahl basierend auf allen verfügbaren Verbindungen im Netzwerk. Dabei werden die Communities bevorzugt, die diese Bewertung lokal bzw. zusammen mit anderen Community-Einteilungen global optimieren [7]. 

Die entdeckten Communities können anschließend für Empfehlungen, facettiertes Browsing, oder zur Personalisierung von Systemen genutzt werden, indem die Zuordnung zu einer Community explizit gemacht wird bzw. die Informationen anderer Mitglieder der Community implizit zur Anpassung der Anwendung verwendet werden. Zur Bewertung der Communities eignen sich manuell erzeugte Testdaten und Nutzerstudien, die allerdings in der Durchführung oftmals teuer sind. Bei datenbasierten Ansätzen, vgl. [17], werden verfügbare Sekundärnetzwerke genutzt umeinen relativen Vergleich von Communities durchzuführen; dies erlaubt daher eine einfache und kosteneffiziente Bewertung von Communities. 

Anwendungen

Beispiele für Anwendungsfelder von Mining Social Media sind intelligentes Monitoring, Reputationsmanagement, Profilbildung von Kunden, Produktmanagement und Werbung, was in vielen Social-Media-Diensten wie beispielsweise Twitter oder Facebook umgesetzt wird. Hier kann etwa Sentiment Mining zur Auffindung positiver oder negativer Produktbewertungen genutzt werden, um das Produkt- und Reputationsmanagement durchzuführen. Community Mining kann zur Entdeckung impliziter Communities (z. B. ähnliche Personen mit ähnlichen Interessen) genutzt werden. Diese können dann zur Empfehlung interessanter Kontakte oder zur Produktwerbung eingesetzt werden, um Produkte vorzuschlagen, die Personen mit ähnlichen Interessen gekauft haben, oder solche, die von Freunden gut bewertet wurden. Anbieter können dazu eine Verknüpfung mit Social-Media- Diensten, z. B. Facebook, nutzen. Weiterhin bieten sich Communities und soziale Netzwerkanalyse zur Positionierung vonWerbeanzeigen an, die auf potenzielle Kunden zugeschnitten sind. Ebenso können explizite und implizite Communities für weitere vielfältige Empfehlungen verwendet werden, je nach System und Ressourcentyp beispielsweise für Produkte, Nachrichten, Bookmarks, Publikationen, Artikel oder aktuelle Themen. 

Eine konkrete Anwendung von Empfehlungen, eingebettet in intelligente Systeme, lässt sich an den Conferator- und MyGroup-Systemen [5, 14] illustrieren: Die Conferator-Software bietet Tagungsbesuchern die Möglichkeit, ihre sozialen realweltlichen Kontakte zu verwalten und den Konferenzbesuch effizienter zu organisieren. Zur Verknüpfung der realen mit der Onlinewelt werden aktive RFID-Tags eingesetzt, die u. a. Gesprächskontakte erfassen können. Das System ermöglicht z. B. die Erstellung eines umfangreichen persönlichen Profils, die Annotation eigener Kontaktemit Freitext und die Zusammenstellung eines personalisierten Tagungsprogramms. MyGroup arbeitet mit ähnlicher Technik im Umfeld von Arbeitsgruppen, z. B. im FachgebietWissensverarbeitung der Universität Kassel. Conferator wurde bei verschiedenen Konferenzen z. B. bei der LWA 2010 in Kassel, bei der ACM Hypertext 2011 in Eindhoven sowie der LWA 2011 in Magdeburg erfolgreich eingesetzt. 

Mithilfe der entstehenden Social-Media-Daten werden in Conferator Empfehlungen zum Vorschlag interessanter Interaktionen mit Personen gegeben, die ähnliche Interessen oder ein ähnliches ,,Vortragsbesuchsverhalten“ zeigen. Hierzu werden der Kontaktgraph der Konferenzteilnehmer sowie verschiedene soziale Netzwerkund Publikationsdaten genutzt. Eine Experten- Empfehlungskomponente [14] realisiert eine Vorschlagsfunktion für Softwareentwickler, basierend auf dem MyGroup Kontaktgraph bzw. individuellen Gesprächen (Kontakten) sowie ihren Checkins in Software-Versionskontrollsystem. Beide Ansätze können zum schnelleren und gezielteren Aufsuchen von Gesprächspartnern genutzt werden. Die eingesetzten Techniken basieren auf den oben beschriebenen Community-Mining-Methoden und Zentralitätsanalyse-Techniken, die auch zur Analyse von (konferenzspezifischen) Rollen eingesetzt werden können [6]. 

Die beschriebenen Anwendungen lassen sich leicht auf andere Nutzungskontexte übertragen, in denen die Entdeckung von Rollen und Communities betrachtet wird, beispielsweise in kollaborativen Systemen von Firmen, zur Analyse von Social- Media-getriebenen Organisationsnetzwerken wie Wikis oder in Versionskontrollsystemen [14]. Das Aufdecken von Prozessketten, die Identifikation von Ansprechpartnern und Experten und die Optimierung von Workflows ermöglichen zahlreiche interessante Anwendungsmöglichkeiten des Data Mining. Insgesamt spannt Mining Social Media damit den Bogen zur Kollektiven Intelligenz [15]. 

Ausblick

Mit der Vielfalt der Daten, die in Social-Media- Systemen gesammelt werden und der stetig weiter wachsenden Nutzerzahl nehmen die Möglichkeiten und Chancen der Analyse weiter zu. Neben erweiterter Personalisierung und Empfehlungen ergeben sich viele weitere Anwendungen, die durch Data Mining in Social Media ermöglicht werden. Mit der Ausdehnung sozialer Medien auf mobile und ubiquitäre Umgebungen, beispielsweise in Smartphones und Sensornetzwerken, kulminiert dies im ,,Reality Mining“ [16], welches Data Mining auf unterschiedlichsten ,,alltäglichen“ Sensordaten realisiert. Hier entsteht ein Spannungsfeld zwischen technischen Möglichkeiten, Interessen der Nutzer und ihrer Privatsphäre, insbesondere hinsichtlich der Speicherung, Verknüpfung und Auswertung persönlicher Daten zur Ausgestaltung und Bereitstellung personalisierter Dienste. Richtlinien zur rechtlich korrekten Ausgestaltung von Social- Media-Diensten [12], Anonymisierungsfunktionen sowie datenschutzerhaltende (privacy-preserving) Data-Mining-Methoden [9] stellen hier Ansätze bereit, um entsprechende Datenschutzaspekte zu berücksichtigen. 

Mit hinreichenden Maßnahmen zum Datenschutz ermöglicht Mining Social Media damit letztendlich die Entdeckung neuenWissens und ein besseres Verständnis von Kommunikation, Interaktionen und kollektiven Prozessen, um Umfeld und Handlungen der Anwender zu begleiten und sie im Alltag bei derUmsetzung ihrer Ziele zu unterstützen. 

Literatur

 1. twitpic.com/135xa, letzter Zugriff 31.12.2011
2. twitter.com, letzter Zugriff 31.12.2011
3. goo.gl/S7rNf, letzter Zugriff 31.12.2011
4. www.facebook.com/press/info.php, letzter Zugriff 23.1.2012
5. Atzmueller M, Benz D, Doerfel S, Hotho A, Jäschke R, Macek BE, Mitzlaff F,
Scholz C, Stumme G (2011) Enhancing social interactions at conferences. it – Inf
Technol 53(3):101–107
6. Atzmueller M, Doerfel S, Mitzlaff F, Hotho A, Stumme G (2011) Face-to-face contacts
during a conference: communities, roles, and key players. In: Proc
MUSE 2011, Athens, Greece
7. Atzmueller M, Mitzlaff F (2011) Efficient descriptive community mining. In: Proc
24th Intl FLAIRS Conference, AAAI Press
8. Girvan M, Newman MEJ (2002) Community structure in social and biological networks. Proc Natl Acad Sci USA 99:7821–7826
9. Großkreutz H, Lemmen B, Rüping S (2010) Privacy-preserving data mining.
Informatik-Spektrum 33(4):380–383
10. Heidemann J (2010) Online social networks. Informatik-Spektrum 33(3):262–271
11. Kaplan A, Haenlein M (2010) Users of the world, unite! The challenges and opportunities of social media. Bus Horizons 53(1):59–68
12. Krause B, Lerch H, Hotho A, Roßnagel A, Stumme G (2010) Datenschutz im Web 2.0 am Beispiel des sozialen Tagging-Systems BibSonomy. Informatik-Spektrum 35(1):1–12
13. Liu B (2010) Sentiment analysis and subjectivity. Handbook of Natural Language Processing. Chapman & Hall
14. Macek BE, Atzmueller M, Stumme G (2011) Profile mining in CVS-logs and faceto-face contacts for recommending software developers. In: Proc IEEE SocialCom
15. Malone TW, Laubacher R, Dellarocas C (2009) Harnessing crowds: mapping the genome of collective intelligence. MIT Center for Collective Intelligence
16. Mitchell TM (2009) Mining our reality. Science 326:1644–1645
17. Mitzlaff F, Atzmueller M, Benz D, Hotho A, Stumme G (2011) Community assessment using evidence networks. In: Analysis of Social Media and Ubiquitous Data, Springer
18. Stehlé J, Voirin N, Barrat A, Cattuto C, Colizza V, Isella L, Régis C, Pinton J-F, Khanafer N, Van den Broeck W, Vanhems P (2011) Simulation of an SEIR infectious disease model on the dynamic contact network of conference attendees. BMC Med 9(87)
19. Wassermann S, Faust K (1994) Social Network Analysis. Cambridge University Press Informatik

Autor und Coppyright

Martin Atzmueller
Knowledge And Data Engineering Group, Universität Kassel,
Wilhelmshöher Allee 73, 34121 Kassel
E-Mail

© Springer-Verlag 2012