Lexikon

Unified Information Access

In Organisationen haben sich schon seit vielen Jahren Informationssysteme zur Auswertung strukturierter Daten wie Umsatzzahlen, Reklamationen oder Ausschussquoten etabliert. Diese basieren i.d.R. auf Data Warehouses (DWh), welche Daten aus den operativen Systemen destillieren und Abfrage-optimiert in multi-dimensionaler Form vorhalten. Endanwender arbeiten je nach IT-Kenntnis mit interaktiven OLAP-Werkzeugen (Online Analytical Processing) oder konsumieren vorkonfektionierte Berichte. Technologien zur Auswertungen strukturierter Daten werden auch als Management Support Systeme (MSS) oder Business Intelligence (BI) bezeichnet.

Auf der anderen Seite arbeiten Projektteams und operative Kräfte hauptsächlich mit semi-strukturierten Daten in Dokumenten, Enterprise Content Management Systemen (ECM), Emails oder Wikis. Diese Technologien werden je nach Autor und Jahr unter den Schlagwörtern Collaboration oder Wissensmanagement (WM) diskutiert und häufig über Volltextsuchmaschinen zugegriffen.

Diese Zweiteilung ist gängig und scheint bewährt, obwohl schon vor 10 Jahren in mehreren Publikationen und Workshops dargelegt wurde, dass Kennzahlen alleine ohne Rückgriff auf Kontextinformationen aus Dokumenten nur bedingt aussagekräftig sind [1]. Auch können wissensintensive Tätigkeiten von den aus Datenanalysen gewonnenen Erkenntnissen profitieren. Es wurden verschiedene Ansätze zur Integration von MSS und WM-Systemen vorgeschlagen ([2], [3], [4]), in der Praxis konnte sich jedoch keine etablieren. Ab 2003 wurde es in der MSS- und WM-Community zunehmend ruhiger um das Thema.

In der Zwischenzeit wurden die Anstrengungen im Forschungsbereich Semantic Web intensiviert. Aus den unstrukturierten Informationen im Internet soll über fortgeschrittene linguistische Analysen und Methoden der künstlichen Intelligenz ein strukturierter, für den Computer inhaltlich verarbeitbarer Teil extrahiert werden, um den Benutzer bei der Recherche zu unterstützen und im Idealfall direkt Antworten auf Fragen zu liefern, statt nur eine Liste von Treffern in Dokumenten.  Zu den bekanntesten Semantic Web Projekte gehören  DBpedia, freebase und die Linked Open Data Initiative. Trotz beeindruckender Fortschritte in den letzten Jahren, wie dem Bestehen der Chemie Aufnahmeprüfung an US Colleges  [5] oder das IBM Projekt Watson [6], ist diese Entwicklung beim normalen Internetbenutzer noch nicht angekommen. Dort dominieren weiterhin Google und Co. Auch in den Intranets von Unternehmen konnten sich semantische Technologien trotz kleiner Achtungserfolge (z.B. Ontoprise bei Audi) bisher kaum durchsetzen und sind tendenziell als langsam, aufwändig und daher teuer verschrien, obwohl Hersteller semantischer Technologien mit öffentlich zugänglichen Demonstrationen beweisen [7], dass auch mehrere Milliarden RDF-Tripel (Fakten bzw. Aussagen) performant verarbeitet werden können.

Schließlich haben sich in den letzten Jahren die Hersteller von Intranet-Suchmaschinen in dieses Gebiet vorgearbeitet, indem sie die Volltextsuche in relationalen Datenbanken sowie mit sogenannter Facettensuche [8] eine OLAP-ähnliche Navigation in Trefferlisten von Dokumenten ermöglichen. Die Facettensuche ermöglicht somit das Browsing der Datenbestände, ohne dass man die Inhalte vorher genau kennen muss und damit ein exploratives Vorgehen. In diesem Zusammenhang haben auch Berater der renommierten Analyseinstitute IDC [9] und Forrester [10] den Begriff „Unified Information Access“ verbreitet, der jedoch schon bei Schatten et al. in ähnlichem Zusammenhang verwendet wurde [11]. Die Suchmaschinen-Anbieter Attivio, Endeca und Exalead haben dieses Schlagwort besetzt und sich z.T. durch Zukäufe aus dem BI-Bereich verstärkt. Aber auch die Firma Attensity des SAP Mitgründers Klaus Tschira ist mit ihrer Unified Access Plattform gut im Markt positioniert.

Semantic Web

Die Vision des Semantic Web besteht darin, die inhaltliche Bedeutung von Webseiten und Dokumenten nicht nur dem Menschen, sondern auch der Maschine verständlich zu machen, um dadurch z.B.  genauere Suchanfragen zu ermöglichen oder die Angebote verschiedener Anbieter automatisiert miteinander zu kombinieren. Die technische Umsetzung dieser Vision schreitet Stück für Stück voran, basiert auf Standards wie XML und Unicode und stellt von RDF (Resource Description Framework) über RDF Schema bis hin zur Web Ontology Language OWL immer mächtigere Ausdrucksmöglichkeiten für Semantik bereit. Seit dem Sommer 2010 bereichert das Rule Interchange Format (RIF) den Stack, welches nicht nur ein Datenaustauschformat für Regeln darstellt, sondern mit RIF BLD auch eine eigene Regelsprache beinhaltet, deren semantische Möglichkeiten über OWL hinausgehen. Aufgrund der Aktualität gibt es jedoch derzeit nur geringe Werkzeugunterstützung für RIF. Im Gegensatz dazu sind die Werkzeuge für die übrigen Standards bereits recht ausgereift und reichen von spezialisierten Datenbanken, sog. RDF Triple Stores wie Virtuoso Universal Server und Allegro GraphDB, über Programmierframeworks wie Jena oder Sesame welche Abfragen in SPARQL und anderen RDF Abfragesprachen erlauben, bis hin zu Inferenzmaschinen wie Pellet und Ontologie­modellierungswerkzeugen wie Protégé. Die Limitationen der Standards liegen z.B. in der effizienten Verarbeitung von Orts- und Zeitangaben. So gibt es zwar mit GeoRSS und OWL-Time Ansätze dafür, jüngere Publikationen ([12], [14], [15]) und herstellerspezifische Erweiterungen wie die Geo-Extensions in Virtuoso und Pellet zeigen aber, dass es hier noch Nachbesserungsbedarf gibt.

Information Extraction

Das manuelle Annotieren von Dokumenten und Webseiten ist bereits im Intranet mittelgroßer Unternehmen eine Sisyphusarbeit, die kaum leistbar ist und im Internet schlicht unmöglich. Daher versucht man mittels (halb-)automatischer Verfahren, die Inhalte natürlichsprachiger Texte zu analysieren und Metadaten abzuleiten. Mit Hilfe von Named Entity Recognition (NER) können Personen, Orte und Zeitangaben relativ zuverlässig, Organisationen mit mittelmäßiger Genauigkeit ermittelt werden [16]. Durch Part-of-Speech Tagging wird die Grammatik eines Satzes analysiert und so Hauptwörter (nouns) und zusammengehörige, aber einzeln stehende Hauptwörter (noun groups), sowie deren beschreibende Adjektive und Verben erkannt [17]. Anschließend erfolgt das sog. Disambiguieren, also das Eindeutig-machen der erkannten Entitäten, so dass z.B. unterschiedliche Schreibweisen und Bezeichnungen als die gleiche Entität erkannt werden, z.B. Bundeskanzlerin Märkel, Angela Märkel und die Bundeskanzlerin. Dabei hilft eine Wissensbasis, die möglichst auf den jeweiligen Bereich abgestimmt ist, z.B. Geonames für Orte, oder DBpedia für Personen des öffentlichen Lebens. Solche Wissensbasen werden als Gazetteer bezeichnet [17]. Anschließend können weitere Verarbeitungsschritte durchgeführt werden, wie z.B. das Auflösen von textuellen Ortsangaben in geographische Koordinaten oder im Intranet das Klassifizieren von Personen als interne Mitarbeiter, bzw. Kundenkontakte.

Suchmaschinen

Die Verarbeitungsschritte werden sequentiell in einer sog. Pipeline durchlaufen. Diese erlaubt es flexibel je nach Quellsystem, Format und. Sprache spezialisierte Module für den jeweiligen Schritt zu verwenden, bzw. Schritte zu überspringen oder einzufügen. Suchmaschinen benutzen im Rahmen der Indexierung dieselben linguistischen Verfahren zum Extrahieren zusätzlicher Metadaten aus dem Volltext von Dokumenten, jedoch i.d.R. ohne einen Gazetteer zu benutzen. Diese Pipeline-Architektur ist bei kommerziellen Suchsystemen schon länger etabliert und befindet sich bei Open Source Systemen wie dem Lucene-basierten Apache Solr gerade in Entwicklung [18]. Sie ähnelt den ETL-Verfahren (Extract, Transformation, Loading), die beim Aufbau eines DWh eingesetzt werden.

Facettensuche

Der zweite Anknüpfungspunkt zu BI-Anwendungen stellt die Benutzeroberfläche dar. Hier verwendet die Facettensuche schon jetzt Anleihen bei OLAP-Operationen, insb. slicing, also das Einschränken einer Analysedimension auf einen konkreten Wert als Analogie für die Navigation in Trefferlisten. Versteht man die einzelnen Metadaten der Treffer als Dimensionen im OLAP-Sinne, so stellt sich die Frage, ob auch die übrigen OLAP-Operationen wie drill-down/roll-up, dicing und pivoting auf die Facettensuche angewendet werden können. Drill-down/roll-up ist u.a. für das Detaillieren von Metadaten der Treffer sinnvoll, um z.B. die Trefferliste nicht auf Länderebene, sondern Bundeslandebene weiter einzuschränken, oder Autoren nicht nach einer konkreten Person, sondern nach Personengruppen wie Abteilung XY oder interne Mitarbeiter zu filtern. Hier besteht noch Forschungsbedarf.

Business Intelligence

Die Verbindung zwischen BI und Semantic Web wird schließlich über die Ähnlichkeiten der DWh-Schemata und Ontologien hergestellt. Bezieht man sich auf Intranet-Anwendungen, so werden beide eine Repräsentation wichtiger Geschäftsobjekte wie Kunden, Produkte, Mitarbeiter und Standorte enthalten, wenn auch in unterschiedlichen Formaten [19]. Mit Werkzeugen wie D2RQ oder Virtuoso können relationale Daten relativ einfach als RDF-Daten zugänglich gemacht und auf eine Ontologie gemappt werden. Dies ermöglicht es in Suchabfragen auch Treffer aus Datenbanken unmittelbar zu berücksichtigen. Eine Herausforderung stellt in diesem Zusammenhang die Abgrenzung dar, was als einzelne Entität verstanden und somit zusammenhängend im Suchtreffer dargestellt werden soll. So besteht eine Bestellung aus Bestellkopf und –positionen. Evtl. wird sogar ein Join auf die Produktstammdaten nötig sein, um eine sinnvolle Sicht auf die gesamte Bestellung zu bekommen. Wird die resultierende View aus mehreren Tabellen volltextindiziert, geht ein Teil der Struktur der Bestellpositionen verloren, da die Suchmaschinen zwar meist mit mehrwertigen Feldern umgehen können, diese aber i.d.R. keine weitere Unterstruktur mehr aufweisen. Bestellungen mit 10 Stück von Produkt A zu finden, wie es in SQL durch Unterabfragen formulierbar ist, ist also über Facettensuche schwer realisierbar. 
Weiterhin könnten Semantic Web Technologien dafür genutzt werden, um Daten auch über ihre Interpretation zugänglich zu machen. So wäre es denkbar, einen ad-hoc generierten DB-Bericht zu erstellen, der als Ergebnis auf die Suchanfrage nach „sinkenden Quartalsumsätzen in Deutschland“ jene Quartale auflistet, in denen der Umsatz im Vergleich zum Vorjahr gefallen ist. Die Ausdrucksmöglichkeiten dafür sind bereits vorhanden. Man müsste nur entsprechende Regeln in den ETL, bzw. Indizierungsprozess aufnehmen, um solche Zuordnungen von Daten auf Semantik zu ermöglichen.

Fazit

Das Schlagwort „Unified Information Access“ vereint bekannte Entwicklungen aus den Bereichen Semantic Web, Volltextsuche und Business Intelligence um den Zugriff auf strukturierte Daten aus relationalen Datenbanken und semi-strukturierten Daten aus Blogs, Wikis und ECM-Systemen zu vereinheitlichen. Dabei werden Semantic Web Technologien auf Intranet-Szenarien angewandt. Dies bedeutet u.a. dass als Gazetteer nicht dbpedia und freebase eingesetzt werden, sondern das interne Mitarbeiterverzeichnis und Kundeninformationssystem für Personen, die Produktdatenbank für Produkte, sowie die Organisationsverwaltung für Abteilungen und Standorte. Die Facettensuche wird dadurch aufgewertet, weil sie auf zusätzliche Metadaten zugreifen kann. Durch die zugrunde liegende Ontologie können die Metadaten weiter strukturiert und verbunden werden, womit sich Chancen ergeben, weitere OLAP-Operationen auf die Facettensuche zu übertragen. Das Erschließen von relationalen Daten über die Volltextsuche vereinfacht den Zugriff, birgt aber auch Herausforderungen bzgl. der Präsentation der Ergebnisse.

Mit Microbloggingdiensten wie Twitter oder Yammer ist zu den klassischen relationalen und semi-strukturierten Daten noch eine weitere Quelle gekommen, die immer wichtiger wird und ebenfalls einheitlich zugegriffen werden sollte. Aufgrund der Kürze der Texte (z.B. 140 Zeichen) und den verfügbaren Metadaten (Autor, Zeit, Tags) können sie aber wie relationale Daten verarbeitet werden, wenn die enthaltenen Hashtags entsprechend berücksichtigt werden.

Schließlich geht es darum, strukturierte und unstrukturierte Daten auf Übersichtsseiten oder Homepages im Sinne eines Dashboards oder einer Portalseite zusammenzubringen. Aus Aufwandsgründen ist das nicht für beliebige Informationen machbar, aber die wichtigsten Informationsobjekte wie Mitarbeiter, Abteilung, Kunde, Produkt und Standort sollten den Aufwand wert sein über Regeln Daten aus verschiedenen Informationssystemen auf einer gemeinsamen Seite anzuzeigen, um für Entscheidungen eine fundierte Grundlage zu haben.

Literatur

  S. Bergamaschi, S. Castano, M. Vincini, and D. Beneventano, “Semantic integration of heterogeneous information sources,” Data & Knowledge Engineering, vol. 36, no. 3, pp. 215-249, Mar. 2001.

[2]    L. Haak, “Integration eines Data Warehouse mit einem Wissensmanagementsystem am Beispiel des SAP BW und dem Knowledge Café,” in Wissensmanagement, 2003, pp. 137-141.

[3]    C. Felden, “Analytische Informationssysteme im Energiehandel,” in Wirtschaftsinformatik (2), 2003, pp. 455-474.

[4]    J. Becker, R. Knackstedt, and T. Serries, “Architectures for Enterprise Information Portals: An Approach to Integrate Data Warehousing and Content Management,” in New Paradigms in Organizations. Markets and Society. Proceedings of the 11th European Conference on Information Systems (ECIS 2003). Naples, 2003, pp. 19–21.

[5]    J. Angele, E. M\önch, H. Oppermann, S. Staab, and D. Wenke, “Ontology-based query and answering in chemistry: Ontonova project halo,” in The SemanticWeb Conference-ISWC 2003, 2003, pp. 913–928.

[6]    D. Ferrucci et al., “Building Watson: An overview of the DeepQA project,” AI Magazine, vol. 31, no. 3, pp. 59–79, 2010.

[7]    “Large Triple Stores - W3C Wiki.” [Online]. Available: www.w3.org/wiki/LargeTripleStores. [Accessed: 19-Jul-2011].

[8]    M. Hearst, “Design recommendations for hierarchical faceted search interfaces,” in ACM SIGIR Workshop on Faceted Search, 2006, pp. 1–5.

[9]    C. W. Olofson, R. Boggs, S. Feldman, and D. Vesset, Unified Access to Content and Data: Delivering a 360-Degree View of the Enterprise. 2006.

[10] B. Evelson and M. Brown, Search + BI = Unified Information AccessCombining Unstructured And Structured Info Delivers Business Insight. .

[11] A. Schatten, F. Inselkammer, and A. M. Tjoa, “System Integration and Unified Information Access using Question based Knowledge Management Strategies.,” in iiWAS’03, 2003, pp. -1–1.

[12] M. Perry, P. Jain, and A. P. Sheth, “SPARQL-ST: Extending SPARQL to Support Spatiotemporal Queries,” in Geospatial Semantics and the Semantic Web, N. Asish and A. P. Sheth, Eds. Springer, 2011, pp. 61–86.

[14] J. Tappolet and A. Bernstein, “Applied temporal RDF: Efficient temporal querying of RDF data with SPARQL,” The Semantic Web: Research and Applications, pp. 308–322, 2009.

[15] Y. Wang, M. Zhu, L. Qu, M. Spaniol, and G. Weikum, “Timely yago: harvesting, querying, and visualizing temporal knowledge from wikipedia,” in Proceedings of the 13th International Conference on Extending Database Technology, 2010, pp. 697–700.

[16] J. R. Curran and S. Clark, “Language independent NER using a maximum entropy tagger,” in Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Volume 4, 2003, pp. 164–167.

[17] G. Weikum and M. Theobald, “From information to knowledge: harvesting entities and relationships from web sources,” in Proceedings of the twenty-ninth ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems of data, 2010, pp. 65–76.

[18] K. Jansson, “A Processing Pipeline for Solr,” presented at the Apache Lucene EuroCon 2010, Prague, CZ, 2010.

[19] Z. Xu, S. Zhang, and Y. Dong, “Mapping between relational database schema and OWL ontology for deep annotation,” in Proceedings of the 2006 IEEE/WIC/ACM international Conference on Web intelligence, 2006, pp. 548–552.

Autor und Copyright

René Peinl
Lehrgebiet: Architektur von Web-Anwendungen,
Forschungsgruppe: Systemintegration des iisys,
Hochschule Hof,
Alfons-Goppel-Platz 1, 95028 Hof
E-Mail 

© 2011 Informatik Spektrum, Springer-Verlag Berlin Heidelberg