Lexikon

Web Mining

Web Mining ist die Übertragung von Data-Mining-Techniken auf Datenmaterial, das im Zusammenhang mit Prozessen im Internet gesammelt wird.

Schon vor vielen Jahren ist eine der unangenehmen Auswirkungen des Informationszeitalters in den EDV-Abteilungen und Rechenzentren sichtbar geworden.

Euphorisch über die neuen technischen Möglichkeiten der Datenverarbeitung wurden und werden immer mehr und immer detailliertere Informationen gespeichert. Die Folge ist unübersichtliches, inkonsistentes und hochgradig redundantes Datenmaterial, dem schon bei einfachen Fragestellungen kaum eine Antwort zu entlocken ist.

Ein Datawarehouse kann in diesem Fall helfen, Ordnung in die Daten zu bringen. In einem Datawarehouse werden alle operativen Datenquellen, die meist heterogen und von sehr unterschiedlicher Qualität sind, zusammengeführt, um sie unternehmensweit und für zukünftige Ansprüche skalierbar zur Verfügung zu stellen. Auch im Falle des Web Minings muss die Datenhaltung, die auch als Data Webhouse bezeichnet werden kann, an die neuen Anforderungen angepasst sein.

Auf diesen kumulierten Daten kann anschließend mit Data Mining nach Antworten auf nicht gestellte Fragen gesucht werden. Data Mining bezeichnet den Prozess, der automatisch vorher unbekannte, interessante und interpretierbare Zusammenhänge in großen Datenmengen zu finden vermag. Data Mining ist stets im Kontext von Wissensentdeckung zu sehen (Knowledge Discovery in Databases, KDD), welche den gesamten Prozessablauf bezeichnet, der im Wesentlichen aus Datenaufbereitung, Data Mining und Interpretation der Ergebnisse besteht. Übertragen auf Web Mining wird der Prozess mit „Web KDD" bezeichnet.

Spuren im Datensand

Durch die rasante Entwicklung des Internets, insbesondere im kommerziellen Sektor, fallen zunehmend auch umfangreiche Daten aus der Benutzung von Internetdiensten an. Dazu zählen primär die Protokolldateien der Web-Server, die Informationen über die angeforderten Inhalte und auch über denjenigen speichern, der sie angefordert hat. Auf diese Weise hinterlässt jeder Internet-Anwender seine Spur in Form von Seitenanfragen (Hits) in den entsprechenden Protokolldateien (Hitlog). Eine weitere Datenquelle ergibt sich, wenn sich der Internetbenutzer aus seiner Anonymität heraus bewegt und sich innerhalb eines Internetdienstes als Person zu erkennen gibt (Name, Anschrift usw.). Navigiert er zudem noch in einem zusammenhängendem WebAuftritt (z.B. ein e-Commerce-System), können alle Benutzeraktionen, die von dem System angeboten werden, registriert werden. Im einfachen Fall sind dies lediglich die Interaktionen des Benutzers mit der Maus (click stream) bzw. die Navigationsanfragen; sie können jedoch beliebig detailliert sein (z.B. Informationen über Suchanfragen, Bestellvorgänge, Warenkorbanwendungen, Gewinnspiele usw.).

Eine weitere wesentliche Informationsquelle, die in besonderem Maße die Verarbeitung der gesammelten Daten beeinflusst, sind Metainformationen über die zu untersuchenden Seiten. Das ist insbesondere die Topologie (Aufbau und Verbindungen) und das Wissen über die Funktionalität. Jeder Internetseite wohnt eine der

Anwendung sehr spezifische Funktionalität inne und die Interaktion des Benutzers wird entscheidend von den möglichen Prozessen beeinflusst. Die in einem Auftritt möglichen Prozessabläufe sind zwar sehr individuell, jedoch liefern sie sehr detaillierte und damit sehr wertvolle Informationen.

Daten sind nicht gleich Daten

Die Datenaufbereitung spielt beim Web Mining dieselbe wichtige Rolle wie beim Data Mining. Aufgrund technischer Begebenheiten (z.B. Caching) sind die Daten zumeist unsauber. Es finden an dieser Stelle die vom Data Mining bekannten Techniken zur Verbesserung der Datenqualität Anwendung. Extremwerte und Randwertartefakte können gefiltert (Outlier/Noise-Elimination) und fehlende Werte können aufgrund von statistischer Schätzung bzw. empirisch erhobenen Werten ersetzt werden.

Da die Datenaufbereitungsschritte stets sehr stark auf die Datenquellen ausgerichtet sind, müssen beim Web Mining die internetspezifischen Umstände berücksichtigt werden, mit denen die Daten gesammelt werden. Das Internet besteht nicht nur aus international heterogenen Datenquellen, sondern auch die Benutzer können jeder Herkunft und fast jeden Alters sein. Die Überlegungen für das Data Mining von Kundendaten einer Filialbank sind auf solche Daten nicht ohne weiteres übertragbar.

Die Ziele des Web Minings können in zwei Gruppen aufgeteilt werden: Zum einen geht es darum, die einzelnen Internetseiten auf ihre Inhalte zu untersuchen (Web Content Mining), und zum anderen, das Benutzerverhalten zu erkunden (Web Usage Mining). Häufig wird noch ein zusätzlicher Bereich genannt, der sich explizit mit der Analyse der Struktur im Web befasst (Web Structure Mining). Hier wird dieses Gebiet im Zusammenhang mit Web Content Mining behandelt.

Web Content Mining

Das Internet bietet zu jedem Thema unzählige Informationen und vielfältige Dateninhalte. Web Content Mining befasst sich mit der Analyse von den im Netz befindlichen Daten. Dazu gehören textuelle und multimediale Informationen jeglichen Formats und auch die Verbindungen (Links) zu den Nachbarseiten.

Ein Ziel kann die Einteilung (Segmentierung) der Daten in thematisch zusammenhängende Bereiche sein. Hierfür können Algorithmen der automatischen Klassifikation (Clusteranalyse) herangezogen werden, wobei die Wahl der Metriken die entscheidende Rolle spielt. Die Ähnlichkeitsberechnung zweier Dokumente kann z.B. mit statistischer Gewichtung von Schlagwörtern als auch über einen aufwendig errechneten Feature-Vektor aus einer linguistischen Analyse erfolgen. Hierbei werden zumeist die partitionierenden den hierarchischen Verfahren vorgezogen, da die Distanzberechnungen hierarchischer Verfahren sehr schnell an Komplexitätsgrenzen stoßen.

Auch die Untersuchung der Verbindungen der Seiten untereinander kann helfen, die inhaltliche Verwandtschaft von Webseiten abzuleiten. Dem Entwickler der Webseiten darf unterstellt werden, dass sich sein Wissen über semantische Zusammenhänge zweier Seiten in den entsprechenden Verbindungen ausdrückt. Von Wang und Liu werden Ansätze beschrieben, die das Web als gerichteten Graph modellieren, wobei die Dokumente auf die Knoten und die Links auf die Kanten abgebildet werden. Mittels Graphentransformationen und Bewertung wird nach Mustern in der Struktur des Webs gesucht, die auch Aussagen über den Inhalt der vernetzten Dokumente zulassen.

Neben der Klassifikation von Webseiten aufgrund des Textinhaltes können auch die Ergebnisse der Klassifikation der „Nachbardokumente" herangezogen werden. Als Techniken werden sowohl klassische statistische Verfahren (K-Nächste-Nachbarn, Diskriminanzanalyse) als auch Verfahren des maschinellen Lernens eingesetzt (künstliche neuronale Netze, Entscheidungsbäume).

Web Usage Mining

Die Interaktion des Benutzers mit dem Internet ist Zentrum der Fragestellungen des Web Usage Minings. Wie navigiert er durch die Netzstruktur? Welche Inhalte bewegen ihn zu welchem Handeln?

Sofern sich der Benutzer nicht freiwillig zu erkennen gibt (z.B. Benutzer-Login in eine Site), spricht man von nichtpersonalisiertem Web Mining, da der Benutzer anonym seine Seitenanfragen im Hitlog hinterlässt bzw. die Aktionen, die er auf den Seiten auslöst, keiner realen Person zugeordnet werden können. Im anderen Fall spricht man von personalisiertem Web Mining, da der Benutzer namentlich bekannt ist und sogar zusätzliche Datenquellen (z.B. demographische Daten) zur Analyse hinzugezogen werden können.

In einem ersten Schritt können durch einfache Statistiken schon wichtige Fragestellungen beantwortet werden, z.B. kann die Häufigkeit der Zugriffe auf die Seiten einen Verknüpfungsfehler der Seiten untereinander aufdecken. Das Benutzerverhalten selbst kann jedoch erst durch die Aufdeckung von Mustern innerhalb der Seitenanfragen und Aktionen aufgedeckt werden. Ein Mittel ist die Generierung von Assoziationsregeln, welche das Benutzerverhalten in sog. WENN-DANN-Regeln beschreiben (z.B. WENN Produktseite und dann zusätzliche Informationsseite, DANN zu 25 % Bestellseite). Für eine solche Regel muss die Sequenz der Seitenanfragen des Benutzers bzw. der Zeitraum, in dem sich ein Benutzer auf bestimmten Seiten navigierend bewegt (Sitzung), identifiziert werden.

Mittels z.B. dem Apriori-Algorithmus werden dann alle Sequenzen von Seitenanfragen nach wiederkehrenden Teilsequenzen abgesucht. Das Ergebnis ist eine zumeist sehr große Menge von Regeln. Zu diesem Zeitpunkt der Analyse wird ein Bestandteil der Assoziationsanalyse wichtig: die Definition der Interessantheit von Regeln. Insbesondere triviale Zusammenhänge können dadurch frühzeitig ausgefiltert werden. So kann z.B. via Apriori-Wahrscheinlichkeiten eine Bewertung der Navigationswege erfolgen (beispielsweise wird mit nahezu 100 % eine Sequenz von angeforderten Seiten mit einer der Einstiegsseiten beginnen).

Die generierten Regeln können wiederum Ausgangspunkt für einer Clusteranalyse sein (Hypergraph Clustering, um die Relevanz und Anwendbarkeit der Regeln zu überprüfen.

Beim personalisiertem Web Usage Mining ist das Sammeln von Informationen zu einzelnen Benutzern von Interesse. Je nach Aktionsmöglichkeiten auf den Webseiten werden die Aktionen in ein Benutzerprofil abgelegt. Diese Profile sind dann wieder Gegenstand von Clusteranalysen, um Personen gleichen Interesses (Community) zu identifizieren oder auch von Klassifikationsanalysen, um neue Benutzer den bereits identifizierten Klassen zuordnen zu können. Anwendung der gewonnenen Erkenntnisse sind personalisierte dynamische Webangebote (Newsletter, Portal).

Aber auch die Verbindung der beiden Bereiche Web Usage und Web Content Mining kann zur Analyse beitragen, sie sogar teilweise erst ermöglichen. Benutzer, deren Profil ähnliche Eigenschaften aufweisen, interessieren sich für ähnliche Seiteninhalte, d.h., aufgrund des Nutzerprofils kann die semantische Verwandtschaft von Inhalten abgeleitet werden.

Meine Daten, deine Daten

Auch wenn sich die Benutzer freiwillig auf den Internetseiten bewegen, sind die Aspekte des Datenschutzes wichtiger denn je. In der Anfangsphase des Internets war die Surferidentität noch nicht direkt monetär nutzbar. Nach der Kommerzialisierung des Internets sieht es anders aus: Personenbezogene Daten werden intensiv gesammelt und oft genug gegen den Willen der Benutzer weitergegeben. Eine Sensibilität für den Schutz der Daten ist also auch bei Web Mining wünschenswert.

Fazit

Fazit Web Mining ist ein Anwendungsfeld von Data-Mining-Techniken, das durch das Internet induziert wurde und mit Sicherheit zukünftig noch intensive Aktivitäten verspricht. Unterschieden werden im Wesentlichen die inhaltsgetriebenen (Web Content Mining) und die verhaltensgetriebenen Analysen (Web Usage Mining). Es finden auf die Daten des Internets angepasste Techniken Anwendung, wie z.B. die Assoziationsanalyse und Klassifikation.

Web Mining hat mit denselben Herausforderungen zu kämpfen wie Data Mining und bemüht eine spezielle Ausprägung in der Interpretation der Ergebnisse. Auch spielen die Fragen des Datenschutzes bei Web Mining eine besondere Rolle, gerade im Zusammenhang mit der steigenden Anzahl von kommerziellen Anwendungen im Internet.

Literatur

  1. Martin, W: Data Warehousing, Data Mining - OLAP. Bonn: Thomson 1998
  2. Kimball, R., Merz, R.: The Data Webhouse Toolkit - Building the WebEnabled Data Warehouse. New York: Wiley 2000
  3. Fayyad, U. M. (ed): Advances in Knowledge Discovery and Data Mining. 1996
  4. Spiliopoulou, M.: Tutorial - Data Mininig for the Web. PKDD, Prague, 1999
  5. Masand, B., Spiliopoulou, M.: Web Usage Analysis and User Profiling. KDD, San Diego, 1999
  6. Nakhaeizadeh, G: Data Mining. Theoretische Aspekte und Anwendungen. Heidelberg: Physica 1998
  7. Wang, K., Liu, H.: Discovering Typical Structures of Documents. In: SIGIR `98 (ACM 1998)
  8. Chakrabarti, S., Dom, B., Indyk, P.: Enhanced Hypertext Categorization Using Hyperlinks. SIGMOD `98 (June 1998)
  9. Michie, D., Spiegelhalter, D. J., Taylor, C. C.: Machine Learning, Neural and Statistical Classification. Ellis Horwood 1994
  10. Agrawal, R., Srikant, R.: Fast Algorithms for Mining Association Rules. Proc. of the 20th VLDB Conference, Chile 1994
  11. Han, E.-H., Karypis, G., Kumar, V.: Clustering Based on Association Rule Hypergraphs. SIGMOD `97 (ACM 1997)
  12. Horster, P.: Datenschutz und Datensicherheit. Wiesbaden: Vieweg 1999

Autor und Copyright

Ralf Walther
mindUp Web + Intelligence GmbH, 
Blarerstraße 56, 
D-78462 Konstanz 
ralf.walther@mindup.de

© 2001 Informatik Spektrum, Springer-Verlag Berlin Heidelberg