Lexikon

Data Warehouse

Besonders heftig wird derzeit im Umfeld der Management Support Systeme über das Thema Data Warehouse diskutiert. Dabei ist unter einem Data Warehouse eine Systemlösung zu verstehen, die die unternehmensweite Versorgung der Front-End-Systeme zur Managementunterstützung mit den benötigten Informationen zu gewährleisten hat. Zweckmäßigerweise wird das Data Warehouse getrennt von den operativen Vorsystemen aufgebaut und betrieben. Nur so läßt sich eine konsistente unternehmensweite Datenbasis etablieren, in die selektierte und verdichtete Informationen anwendungsgerecht aufbereitet einfließen und auf die interaktiv und intuitiv zugegriffen werden kann. Für die gespeicherten Dateninhalte ist deren thematische Ausrichtung sowie Vereinheitlichung, Dauerhaftigkeit und Zeitorientierung charakteristisch.

Unternehmensweite Data Warehouse-Lösungen weisen unterschiedliche (Software-) Komponenten auf, deren reibungsloses Zusammenwirken als ein zentrales Erfolgskriterium zu werten ist. In Abb. 1 wird die logische Anordnung der einzelnen Komponenten unter Architekturgesichtspunkten versinnbildlicht.

Als Kernkomponente einer Data Warehouse-Architektur ist der zentrale Datenspeicher zu verstehen, der heute i.d.R. durch eine relationale Datenbank gebildet wird. Verschiedene funktionale Erweiterungen der marktgängigen relationalen Datenbanken (so z.B. spezielle Indizierungsverfahren [Bit-Indexing] oder Abfragetechniken [Star-Joins]) tragen dazu bei, daß die spezifischen Anforderungen, die aus den Managementapplikationen erwachsen, auch bei großen Datenmengen erfüllt werden können.

Zugunsten der erforderlichen Zugriffsperformance wird darüber hinaus häufig auf eine konsequente Normalisierung – wie bei operativen Systemen üblich – verzichtet. Vielmehr erfolgt der Aufbau denormalisierter Datenmodelle, die als Star-Schema bezeichnet werden und aus Fakten- und Dimensionstabellen bestehen. Die Faktentabellen beinhalten die betriebswirtschaftlich relevanten und durch mehrere sachliche Identifikationskriterien bzw. Dimensionen (wie Region, Kunde oder Artikel) beschriebenen numerischen Meßgrößen. Dagegen speichern Dimensionstabellen, die mindestens eine Attributspalte mit den zugehörigen Faktentabellen teilen, weitere Angaben zu den Dimensionselementen (wie Artikelnummer, Artikelbezeichnung oder Artikelgruppe). Im Fact-Constellation-Schema und im Snowflake-Schema, die als Varianten des Star-Schemas zu bezeichnen sind, wird eine Aufgliederung von Fakten- und Dimensionstabellen in unterschiedliche Teilaggregate vorgenommen, um hieraus weitere Performancevorteile zu aktivieren und unnötige Redundanzen zu eliminieren.

Ein hoher Anteil des Aufwandes beim Aufbau eines Data Warehouses resultiert aus der Etablierung von Zugriffsstrategien auf die operativen Datenhaltungseinrichtungen. Die hier eingesetzten Import-Komponenten leisten automatische, zeitgesteuerte Aktualisierungen der Data Warehouse-Datenbasis in belastungsarmen Zeiten und führen dabei vielfältige Transformationen und Aufbereitungen der einzubindenden Daten durch.

Insbesondere beim interaktiven Zugriff auf die Datenbasis kann sich ein unternehmensweites Data Warehouse als zu unflexibel und schwerfällig erweisen, um den Anforderungen der Anwender zu genügen. Aus diesem Grunde werden häufig funktionsbereichs- oder personengruppenspezifische Extrakte aus dieser Datenbasis entnommen und als Data Marts separat gespeichert. Hierbei kommen oftmals sogenannte OLAP (On-Line Analytical Processing)-Server bzw. -Engines zum Einsatz. Derartige OLAP-Werkzeuge sind speziell auf die Analyse multidimensionaler Datenbestände ausgelegt, da sich die multidimensionale Aufgliederung betriebswirtschaftlicher Kennzahlen als geeignete Sichtweise für das Management erwiesen hat.

Dagegen sind die angeschlossenen Front-End-Werkzeuge auf den Desktop-Rechnern wie z.B. Abfrage- und Berichtsgeneratoren oder Tabellenkalkulationsprogramme keine Bestandteile des Data Warehouses im eigentlichen Sinne, zumal sie durch die Nutzung offener Schnittstellen austauschbar bleiben sollen. In der Praxis ist allerdings häufig zur Gewährleistung bestmöglicher Performance eine enge technologische Verzahnung von Endbenutzer-Tools und Datenspeichern auszumachen.

Zukünftig werden möglicherweise neue Werkzeuge die beschriebenen Komponenten erweitern bzw. ergänzen. So ist im Zuge der weltweiten Vernetzung (Internet) eine zunehmende Einbindung externer On-Line-Informationsquellen bei der Informationsversorgung des Managements zu erwarten. Die Nutzbarmachung der hier gebräuchlichen Netzwerktechnologien, Zugangstechniken und Benutzungsoberflächen für den unternehmensinternen Bereich wird bereits unter dem Stichwort Intranet gehandelt. Intelligente Agenten sollen – so die Versprechen von Produktanbietern von Data Mining-Tools – in Zukunft selbständig nach interessanten Datenmustern schürfen und bislang unerkannte Strukturen und Zusammenhänge aufdecken.

Literatur

  1. Bontempo, C., Saracco, C.: Accelerating Index Searching. Database Programming & Design, The Online Edition, o. O. 1996, 
    www.dbpd.com/bontempo.htm
  2. Gluchowski, P.; Gabriel, R.; Chamoni, P.: Management Support Systeme. Computergestützte Informationssysteme für Führungskräfte und Entscheidungsträger. Berlin, Heidelberg: Springer 1997
  3. Holthuis, J.: Multidimensionale Datenstrukturen. In: Mucksch, H., Behme, W. (Hrsg.): Das Data-Warehouse-Konzept, Wiesbaden: Gabler 1996, S. 165–204
  4. Inmon, W. H.: Building the Data Warehouse. 2. Aufl. New York: John Wiley & Sons 1996
  5. Jahnke, B.; Groffmann, H.-D.; Kruppa, S.: On-Line Analytical Processing (OLAP). Wirtschaftsinformatik 38. 321–324 (1996)
  6. Mattison, R.: Data Warehousing. Strategies, Technologies, and Techniques. New York: Mc Graw-Hill 1996
  7. Mucksch, H.; Holthuis, J.; Reiser, M.: Das Data Warehouse-Konzept – ein Überblick. Wirtschaftsinformatik 38. 421–433 (1996)
  8. Raden, N.: Star Schema 101. White Paper, Archer Decision Sciences Inc., Santa Barbara CA 1996, 
    http://members.aol.com/nraden/str101.htm
  9. Schinzer, H.: Data Warehouse. Informationsbasis für die Computerunterstützung des Managements. WiSt, Heft 9, September 1996

Autor und Copyright

Dr. Peter Gluchowski 
Heinrich-Heine-Universität Düsseldorf 
Wirtschaftswissenschaftliche Fakultät, 
Universitätsstrasse 1, 
D-40225 Düsseldorf

© 1997 Informatik Spektrum, Springer-Verlag Berlin Heidelberg