Lexikon

Text Mining

Im Blickpunkt dieses Artikels stehen die Funktionsweise und die Einsatzpotenziale des Text Mining. Text Mining läuft in einem mehrstufigen Prozess ab, dessen einzelne Schritte knapp vorgestellt werden. Der Fokus liegt hierbei auf der Datenaufbereitung, bei der mittels Techniken des Natural Language Processing Terme aus den zugrunde liegenden Texten extrahiert werden.

Einleitung

Im Gegensatz zu Computern ist es für den Menschen recht einfach, Texte zu lesen und zu verstehen. Sollen Texte dagegen softwaretechnisch analysiert werden, stellt sich dies als anspruchsvolle Aufgabe dar, die der Kombination von (computer-)linguistischen und statistischen Methoden bedarf. Vor diesem Hintergrund bezeichnet Text Mining den – weitgehend automatisierten – analytischen Prozess der Gewinnung von neuem und potenziell nützlichem Wissen aus Textdokumenten. Hierzu bedient es sich Techniken, die u.a. in den Forschungs-gebieten Natural Language Processing (NLP), Information Retrieval, Information Extraction und Künstliche Intelligenz entwickelt wurden.

Viel versprechende Einsatzpotenziale des Text Mining finden sich u.a. in den Bereichen Kundenbeziehungsmanagement und Competitive Intelligence. Durch die v.a. durch das Internet bedingte, rasant steigende Menge an Textdokumenten, wird Text Mining ein großes Potenzial unterstellt.

Data Mining und Text Mining

Text Mining wird häufig in Relation zu Data Mining gesetzt und dann – ähnlich dem Web Mining – als spezielle Ausprägung des Data Mining betrachtet (Bohnacker et al. 2002, S. 438). Der zentrale Unterschied zwischen Data und Text Mining wird in der zugrunde liegen-den Datenbasis gesehen. So liegt der Ursprung des klassischen Data Mining in der Analyse strukturierter Daten. Diese liegen in der Regel in der ersten Normalform gemäß der Termino-logie relationaler Datenbanken vor. Folglich befinden sich in den einzelnen Datenfeldern atomare – also nicht weiter zerlegbare – Werte. Textdokumente hingegen werden im Kontext des Text Mining meist als unstrukturierte Analysebasis verstanden. Präzise betrachtet ist ein Text allerdings nicht gänzlich unstrukturiert, sondern verfügt über eine implizite Struktur, die aus der Grammatik resultiert, und – je nach Textdokument – über eine explizite Struktur, die sich z.B. aus Überschriften und Absätzen erschließen kann.

Der Prozess des Text Mining

Text Mining umschreibt folglich die Anwendung von Data-Mining-Methoden auf Textdokumente. Die Herausforderung des Text Mining liegt dabei darin, die in einem Text sprachlich wiedergegebene Information für die maschinelle Analyse zu erschließen. Dies spiegelt sich im Text-Mining-Prozess wider, der zwar einen ähnlichen Aufbau wie ein klassischer Data-Mining-Prozess aufweist, sich aber in der Datenaufbereitung unterscheidet. So ist beim Text Mining eine zusätzliche linguistische Datenaufbereitung erforderlich, um die fehlende Datenstruktur zu rekonstruieren (Rajman/Vesely 2004, S. 7). Der (oft iterative) Prozess des Text Mining wird in Abbildung 1 veranschaulicht und nachfolgend knapp beschrieben:

  1. Aufgabendefinition: Festlegung der Problemstellung und Ableiten der Text-Mining-Ziele.
  2. Dokumentselektion: Ausgehend von den vorab formulierten analytischen Zielen für das Text Mining sind die potenziell relevanten Dokumente zu identifizieren. Hierbei kann ein so genanntes Document Warehouse von Nutzen sein, welches verschiedene Dokumenttypen (z.B. E-Mails, Formulare, Berichte) aus verschiedenen Quellen zusammenführt (Sullivan 2001, S. 10 ff.).
  3. Dokumentaufbereitung: Während die strukturierten Daten im Data Mining direkt den zu verarbeitenden Analyseeinheiten entsprechen, erfordert Text Mining zusätzlich eine Merkmalsextraktion, bei der Terme aus den Texten extrahiert werden, die dann zur Repräsentation der Dokumente dienen. Ein solcher Term kann nur aus einem Wort bzw. Wortstamm bestehen, aber auch aus mehreren zusammengesetzten Wörtern, die zusammen eine bestimmte Bedeutung haben: z.B. „Text Mining“. Zur Term-Extraktion können nachfolgende Techniken des Natural Language Processing zum Einsatz kommen:
  • Im Fokus der morphologischen Analyse liegt die Untersuchung einzelner Wortformen und sinntragender Wortbestandteile. Hiermit wird das Ziel verfolgt, die Komplexität für die folgenden Text-Mining-Analysen zu reduzieren (Sullivan 2001, S. 32 f). Werden verschiedene Flexionsformen eines Wortes (z.B. ging, geht, gehst) erkannt, wird es möglich, diese als zusammengehörig zu betrachten. Hierfür werden durch die Stammformenreduktion (Stemming) Wörter auf ihren Stamm zurückgeführt, der nicht zwangsläufig eine in der Sprache des Dokuments als Wort vorkommende Form sein muss und für Verben und Substantive identisch sein kann (Gefundenes finden) (Ferber 2003, S. 41).
  • Der Fokus einer syntaktischen Analyse liegt auf der Annotation einzelner Satzbausteine (Ule/Hinrichs 2004, S. 221). Unter einer Annotation wird eine Textauszeichnung verstanden, d.h. die Einfügung von Markierungen für einzelne Textteile (Lobin 2004, S. 51). Das Part-of-Speech (POS)-Tagging bildet den Ausgangspunkt der syntaktischen Analyse. Ein Part-of-Speech-Tagger annotiert alle Wörter in einem Satz mit ihrer Wortart (wie z.B. Verb, Adjektiv, Substantiv). Hierzu nutzt er in der Regel zwei Informationsquellen (Manning/Schütze 2003, S. 344): Lexika, in denen Wörter und die Wortarten, die sie annehmen können, erfasst sind, sowie syntagmatische Informationen, d.h. häufige Sequenzen von Wortarten, aus denen man die wahrscheinlichste Wortart im jeweiligen Kontext ermitteln kann. Das Tagging ist nicht trivial, da manche Wörter mehr als eine Wortart annehmen können. Aufbauend auf den Ergebnissen des POS-Tagging kann eine weitere Annotation, das sogenannte Parsing, erfolgen (Damascelli/Martelli 2003, S. 20). Hierbei wird der Satzbau analysiert und jedes Wort gemäß seiner Stellung im Satz (z.B. Subjekt, Prädikat, Objekt) etikettiert. Für das Parsing existieren vollautomatische Annotationsmethoden, allerdings sind diese (noch) nicht ähnlich robust wie die Methoden des POS-Tagging (Damascelli/Martelli 2003). Die besten bekannten Verfahren wurden für die englische Sprache entwickelt und erreichen eine Güte von bis zu 90% (Ule/Hinrichs 2004, S. 235). Für die deut-sche Sprache hat Wauschkuhn mit seinem Werkzeug zur partiellen syntaktischen Analyse deutscher Textkorpora eine Abdeckung von 85,7% aller Sätze erreicht (Wauschkuhn 1996, S. 357). Es ist hierbei zwischen dem vollständigen und partiellen Parsing zu unterscheiden: Während das vollständige Parsing auf die Bestimmung jeder einzelnen Wortform innerhalb eines Satzes abzielt, erlaubt das partielle Parsing, einzelne Wortformen unverbunden stehen zu lassen. Verbreitet sind vor allem flache Analysen (Shallow Parsing), die sich auf die Bestimmung sogenannter Chunks, d.h. Abfolgen von Wörtern wie z.B. Nominalphrasen („das große Haus“) fokussieren. Der Nutzen der syntaktischen Analyse liegt u.a. darin, dass sie eine gezielte Extraktion von Informationen aus bestimmten syntaktischen Einheiten ermöglicht (Ule/Hinrichs 2004, S. 236 ff.).
  • Eine semantische Analyse verarbeitet zusätzlich zur reinen syntaktischen Information kontextuelles Wissen, um einen Text in bedeutungsabhängige Einheiten zerlegen zu können. Auf diese Weise soll z.B. erkannt werden, ob es sich beim dem Wort „Bank“ um ein Geldinstitut oder eine Sitzgelegenheit handelt.
  1. Die aus einer Dokumentenkollektion extrahierten Terme dienen als Variablen im Text Mining. Das gebräuchlichste Modell zur Repräsentation der Dokumente beruht auf Vektoren in einem n-dimensionalen Vektorraum, dessen Dimensionen dem Vokabular der Dokumentkollektion entsprechen (Vektorraumodell) (Rajman/Vesely, S. 10). Dieses Modell lässt sich anschaulich als Term-Dokument-Matrix darstellen: Hierbei können die Zeilen der Matrix den Dokumenten der Dokumentenkollektion entsprechen und die Spalten den einzelnen Termen. Der Eintrag in eine Zelle kann binär sein (für die Existenz bzw. Nichtexistenz eines Terms in einem Dokument), die Häufigkeit eines Terms in einem Dokument angeben oder einer gewichteten Häufigkeit entsprechen, die die Bedeutung eines Terms in einem Dokument angibt (Miller 2005, S. 108).
  1. 4. (Text) Mining Methoden: Nachdem Terme aus den Textdokumenten extrahiert worden sind und die textuellen Daten somit eine Struktur erhalten haben, können Verfahren angewandt werden, die aus dem klassischen Data Mining bekannt sind: Texte können automatisch vorgegebenen Kategorien zugeordnet werden (Klassifikation) oder sie können so gruppiert werden, dass ähnliche Texte zusammengeführt werden (Segmentierung). Ebenso kann das gemeinsame Auftreten von Termen analysiert werden (Abhängigkeitsanalyse). 
  1. 5. Interpretation und Evaluation der Ergebnisse: Ausfiltern und Bewertung handlungsrelevanter Text-Mining-Ergebnisse. 
  1. 6. Anwendung der Ergebnisse: Anwendungen des Text Mining werden vor allem aus Bereichen genannt, in denen besonders viele Dokumente vorliegen und in denen Wissen eine große Rolle spielt. Hierzu zählt z.B. die Competitive Intelligence, bei der mittels Text Mining versucht wird, durch Analyse vielfältigster (Text-)Informationen möglichst frühzeitig neue Kunden-, Konkurrenz- und Marktentwicklungen zu aufzudecken. Andere Anwendungsbeispiele sind aus dem Kundenbeziehungsmanagement bekannt. So wurden z.B. Freitextfelder von Banktransaktionen hinsichtlich ihrer Verwendungszwecke analysiert. Auf diese Weise ließen sich Begriffe wie z.B. Miete, Taschengeld und Bausparvertrag extrahieren, mit denen die Profile der Kunden angereichert werden konnten und somit wertvolle Beiträge zur Beschreibung des Kunden(-verhaltens) leisten (Hippner/Rentzmann 2006). Weitere Anwendungen des Text Mining lassen sich u.a. bei Sirmakessis (2004) und Zanasi (2005a) finden.

Text-Mining-Systeme

Die im Text Mining erforderliche Kombination von Algorithmen zur linguistischen und statistischen Textanalyse schlägt sich auch in den verschiedenen Schwerpunkten der hierfür verfügbaren Software nieder. Die Anbieter von Text-Mining-Systemen lassen sich vor diesem Hintergrund in drei Gruppen gliedern (Zanasi 2005b, S. 315):

  • Reine Text-Mining-Anbieter, wie z.B. Clearforest, Inxight, Temis.
  • Indirekte Anbieter, wie z.B. IBM, SAS und SPSS, die ihre Data Mining Suites um Text-Mining-Funktionalitäten erweitert haben.
  • Teil-Anbieter, die mittels Text-Mining-Funktionalitäten ihr Kerngeschäft verbessern, wie z.B. Fast (Suchtechnologie) und Verity (Information Retrieval).

Ausblick

Aufgrund von zwei Faktoren lässt sich dem Text Mining ein großes Potenzial unterstellen: Auf der einen Seite liegt ein Großteil der Informationen in Form von Textdokumenten vor – Schätzungen zufolge sogar über 80% (Gentsch/Hänlein 1999, S. 1646). Auf der anderen Seite wird Wissen über Kunden, Märkte und Wettbewerber ein immer bedeutenderer Erfolgsfaktor für Unternehmen, um im Wettbewerb bestehen zu können. Vor diesem Hintergrund kann eine Erweiterung der Analysebasis um Textdokumente von großem Nutzen sein. Diese Erkenntnis scheint sich in der Praxis allerdings erst allmählich durchzusetzen, denn nur vereinzelt liest man von Text-Mining-Projekten der Unternehmen. Aufgrund der zunehmenden Verfügbarkeit von Standardsoftware für Text Mining und der Integration in Data Mining Suites ist allerdings eine weitere Verbreitung zu erwarten.

Literatur

Bohnacker, U.; Dehning, L.; Franke, J.; Renz, I.: Textual Analysis of Customer Statements for Quality Control and Help Desk Support. In: Jajuga, K.; Sokolowski, A.; Bock, H.-H. (Hrsg.): Classification, Clustering, and Data Analysis (S. 437-445). Berlin, Heidelberg: Springer 2002.

Damascelli, A. T.; Martelli, A.: Corpus linguistics and computational linguistics: an overview with special reference to English, Turin: Celid 2003.

Ferber, R.: Information Retrieval - Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. Heidelberg: dpunkt.verlag 2003.

Gentsch, P.; Hänlein, M.: Text Mining. In: WISU 12/99, S. 1646-1653 (1999).

Hippner, H.; Rentzmann, R.: Text Mining zur Anreicherung von Kundenprofilen in der Ban-kenbranche. Erscheint in: HMD – Praxis der Wirtschaftsinformatik (2006).

Lobin, H.: Textauszeichnung und Dokumentgrammatiken, in: Lobin, H.; Lemnitzer, L. (Hrsg.): Texttechnologie - Perspektiven und Anwendungen (S. 51-82). Tübingen: Stauffen-burg 2004.

Manning, C. D.; Schütze, H.: Foundations of Statistical Natural Language Processing, Cambridge (MA): Massachusetts Institute of Technology (2003).

Miller, T.W.: Data and Text Mining – A Business Application Approach. Upper Saddle River, N.J.: Prentice Hall 2005.

Rajman, M.; Vesely, M.: From Text to Knowledge: Document Processing and Visualization: a Text Mining Approach. In: Sirmakessis, S. (Hrsg.): Text Mining and its Applications – Results of the NEMIS Launch Conference (S. 7-24). Berlin u.a.: Springer 2004.

Sirmakessis, S. (Hrsg.): Text Mining and its Applications – Results of the NEMIS Launch Conference. Berlin, Heidelberg 2004.

Sullivan, D.: Document Warehousing and Text Mining. New York u.a.: John Wiley & Sons 2001.

Ule, T.; Hinrichs, E.: Linguistische Annotation, in: Lobin, H.; Lemnitzer, L. (Hrsg.): Texttechnologie - Perspektiven und Anwendungen (S. 217-243). Tübingen: Stauffenburg 2004.

Wauschkuhn, O. (1996): Ein Werkzeug zur partiellen syntaktischen Analyse deutscher Text-korpora, in: Gibbon, D. (Hrsg.): Natural Language Processing and Speech Technology - Results of the 3rd KONVENS Conference, Bielefeld (S. 357-368). Berlin u.a.: Mouton de Gruyter.

Zanasi, A. (Hrsg.): Text Mining and its Applications to Intelligence, CRM and Knowledge Management. Southampton, Boston 2005a.

Zanasi, A.: Text mining tools. In: Zanasi, A. (Hrsg.): Text Mining and its Applications to Intelligence, CRM and Knowledge Management (S. 315-327). Southampton, Boston: WIT Press 2005b.

Autoren und Copyright

Dr. Hajo Hippner, E-Mail
Lehrstuhl für ABWL und Wirtschaftsinformatik
Wirtschaftswissenschaftliche Fakultät
der Katholischen Universität Eichstätt-Ingolstadt
Auf der Schanz 49
85049 Ingolstadt

Dipl.-Kfm. René Rentzmann, E-Mail
Lehrstuhl für ABWL und Wirtschaftsinformatik
Wirtschaftswissenschaftliche Fakultät
der Katholischen Universität Eichstätt-Ingolstadt
Auf der Schanz 49
85049 Ingolstadt  

© 2006 Informatik Spektrum, Springer-Verlag