Lexikon

Langzeitarchivierung

Ein großer Teil des aktuellen Kulturgutes entsteht in Form digitaler Dokumente. Die langfristige, verfälschungsfreie Erhaltung und Wiedergabe digitaler Dokumente ist ein noch nicht befriedigend gelöstes Informatik-Problem. Wir beschreiben den Kontext und Aspekte dieser Aufgabe mit den sich daraus ergebenden Anforderungen und skizzieren einige aktuell diskutierte Lösungsansätze.

Ein großer Teil des aktuellen Kulturgutes entsteht in Form digitaler Dokumente. Die langfristige, verfälschungsfreie Erhaltung und Wiedergabe digitaler Dokumente ist ein noch nicht befriedigend gelöstes Informatik-Problem. Wir beschreiben den Kontext und Aspekte dieser Aufgabe mit den sich daraus ergebenden Anforderungen und skizzieren einige aktuell diskutierte Lösungsansätze.

Umfeld und Problematik

Traditionell sind Bibliotheken und Archive zuständig für die Langzeitarchivierung von Dokumenten. Dort haben digitale Dokumente teilweise schon ihre konventionellen Vorgänger abgelöst. Archive dienen primär den Aufgaben ihrer Trägerorganisationen. Die NASA beispielsweise unterhält ein großes Archiv mit den Satellitenbildern, die zur Erde gefunkt werden. In zweiter Linie dienen Archive wie Bibliotheken der Wissenschaft. So sind die Satellitenaufnahmen der NASA nützlich für Klimaforscher.

In Bibliotheken hat die Informatik in Form digitaler Kataloge (sog. OPACs) Einzug gehalten. Da Bücher (wie anderes Schriftgut) heutzutage in der Regel digital am PC entstehen und auch der Satz per Programm erstellt wird, ist das Originalformat konventioneller Dokumente inzwischen digital. Außerdem kommen auf Bibliotheken immer mehr rein digitale Dokumente (wie Multimedia-CDs und Online-Zeitschriften) zu. Diesen Veränderungen trägt das Bundesgesetz vom Mai 2005 Rechnung, in dem der Sammelauftrag der Deutschen Bibliothek (künftig Deutsche Nationalbibliothek) ausgeweitet wird auf die „Bewahrung und Nutzung des digitalen Kulturerbes für Literatur, Wissenschaft und Praxis“.

Während man früher vom Verfall bedrohte Bücher auf Mikrofilm „rettete“, verwendet man heute den Computer auch für die Konservierung. Andererseits sind digitale Artifakte selbst vom raschen Verfall bedroht: Nur wenige digitale Träger erreichen der Größenordnung nach die Haltbarkeit herkömmlicher Medien (Papier, Mikrofilm). Dies spielt aber nicht die entscheidende Rolle, weil die zur Wiedergabe der digitalen Dokumente notwendigen Gerätetypen und Programme wegen des rasanten Fortschritts so rasch veralten, dass viele Dateiformate nach kurzer Zeit als obsolet gelten.

Digitale Dokumente sind Menschen nur mittelbar zugänglich. Darin liegt z.B. der wesentliche Unterschied zu den Höhlenmalereien von Steinzeitmenschen, die man heute mit seinen Sinnen etwa so wahrnehmen kann wie die Zeitgenossen des Künstlers. Unsere Zeitdokumente werden nicht zufällig in Höhlen oder auf verstaubten Dachböden überleben, wie das bisher der Fall war. Um unsere Artifakte zu erhalten, müssen wir im Vorhinein Erhaltungsmaßnahmen organisieren.

Dass die Gefahr von Verlusten real ist, sei hier durch zwei Beispiele aus einem Bericht der Research Libraries Group [1] belegt:

  • Als man sich Mitte der siebziger Jahre der Bedeutung der US-Volkszählungsdaten von 1960 bewusst wurde, waren die Datenträger fast nicht mehr lesbar. Es kostete viel Aufwand und das Restaurieren dauerte bis 1979. Immerhin 10000 Datensätze konnten gar nicht wiederhergestellt werden.
  • Die wissenschaftlich bedeutsamen Satellitenbilder der NASA aus den 70er Jahren, die über die Entwicklung des Regenwalds Auskunft gegeben hätten, sind in ihrer digitalen Form verloren. Man ist darauf angewiesen, Hardcopies (soweit vorhanden) neu zu erfassen.

Nachdem man sich der Problematik bewusst wurde, gab es seit Mitte der 90er Jahre erhebliche Bemühungen auf nationaler und internationaler Ebene, praktisch einsetzbare Verfahren zu finden und zu erproben:

  • Der häufig zitierte Bericht [1] war eine Bestandsaufnahme.
  • Ein Meilenstein ist das ISO-Referenzmodell für "Open Archival Information Systems" (OAIS) [2], das sich zunehmender Akzeptanz erfreut. Der Verbund europäischer Depotbibliotheken hat das OAIS-Modell in Hinblick auf die Verwendung in Bibliotheken verfeinert und ergänzt.
  • Weltweit arbeiten Gruppen von Bibliotheken, Archiven und Museen mit Partnern aus Industrie und Wissenschaft an unterschiedlichen Aspekten des Problems. Eine deutsche Initiative ist nestor [4].

Die Erhaltungsaufgabe

Die RLG Task Force [1] definiert die Erhaltungsaufgabe so:

Migration besteht darin, digitale Objekte periodisch von Rechner zu Rechner bzw. von einer Rechnergeneration zur nächsten zu übertragen. Dabei kommt es auf die Integrität der digitalen Objekte an und darauf, dass Benutzer trotz ständig sich wandelnder Technologie die Objekte weiter heraussuchen, betrachten und anderweitig verwenden können.

„Migration“ wird hier in der umfassendsten Bedeutung verwendet und steht dann für alle Erhaltungsstrategien. Die Aufgabe zerfällt in zwei unabhängige Teilaufgaben:

  1. Erhalt des Dokumenteninhalts, d.h. der Bitfolge. Der Erhalt des ursprünglichen Datenträgers wird nicht gefordert.
  2. Erhalt des Zugang zum Dokument so, dass die künftige Wahrnehmung der heutigen so genau wie möglich entspricht. In Abb. 1 werden zwei Dokumente in zwei Wiedergabeumgebungen dargestellt; neue (kursive) Komponenten dürfen vom Original abweichen, wenn nur die Wahrnehmung gleich bleibt!

Die erste Teilaufgabe wird übereinstimmend als technisch gelöst betrachtet: Die Methode besteht darin, die Bits regelmäßig aufzufrischen („Refreshing“) bzw. auf ein anderes Medium zu kopieren („Medienmigration“) und dabei durch Redundanz Verluste zu vermeiden.

Für die zweite Teilaufgabe, die „Wahrnehmung“ eines digitalen Dokuments zu erhalten, braucht man Programme auf passenden Computern. Eine Wiedergabeumgebung für Dokumente eines bestimmten Typs besteht (vgl. Abb. 1) aus Rechner-Hardware („Maschine“), System-Software („BS“) und Anzeige-Software. 

Eine Lösung der Erhaltungsaufgabe im professionellen Umfeld muss mindestens folgenden Rahmenbedingungen genügen:

• Zugang zu und Authentizität von archivierten Dokumenten sind auf unbestimmte Zeit (also weit über 100 Jahre hinaus) zu gewährleisten.

• Wegen der Fülle des Materials und der begrenzten Ressourcen ist die Bestandspflege einschließlich aller für den Erhalt notwendigen Bearbeitungsgänge weitestgehend zu automatisieren; menschliche Eingriffe sind nach der Aufnahme auf qualitätssichernde Maßnahmen zu beschränken, Rückfragen beim Autor sind in der Regel nicht möglich.

Man beachte, dass die „heroischen“ Erhaltungsmaßnahmen, die wir als Autoren von digitalen Dokumenten hin und wieder leisten (z.B. das Einscannen von Dokumenten mit OCR-Texterkennung oder Konversion eines Textes in ein neues Dateiformat mit anschließender manueller Neuformatierung), nicht mit der geschilderten Aufgabe zu vergleichen sind. Solche Maßnahmen sind besonders aufwändig, gefährden die Authentizität des Dokuments und können daher nicht Basis einer dauerhaften Erhaltungsstrategie sein.

Es wäre zu kurz gegriffen, den Gehalt digitaler Dokumente ausschließlich auf das zu reduzieren, was sich ausdrucken oder am Bildschirm anzeigen lässt. Zum erhaltenswerten digitalen Kulturerbe gehören auch Multimediadokumente und andere interaktive Formen wie Spreadsheets, Simulationen, evtl. sogar Computerspiele u.ä. – hier ist der Übergang zwischen Dokument und Programm fließend. Bezieht man Internet-Inhalte mit ein (wie manchmal gefordert), dann ergeben sich Kontextfragen wie nach der Persistenz von Links (z.B. als PURLs) und der Abgrenzbarkeit von Dokumenten.

Lösungsansätze

Zur zweiten Teilaufgabe, digitale Dokumente „wahrnehmungstreu“ zu erhalten, gibt es sehr unterschiedliche Lösungsansätze, von denen sich aber noch keiner als uneingeschränkt brauchbar herausgestellt hat.

Aus der täglichen Arbeit mit Computern geläufig ist die Inhaltsmigration, bei der ein digitales Dokument D1 in ein neues „inhaltsgleiches“ Dokument D2 in einem anderen Format konvertiert wird. Wie in Abb. 1 können sich dabei neben der Dokumentdarstellung alle Teile der Wiedergabeumgebung ändern. Eine solche Konversion wird notwendig, wenn das ursprüngliche Format künftig nicht mehr unterstützt wird. Der Vorteil dieses Vorgehens ist, dass ein Dokument stets in einem aktuellen Format zugänglich ist. Auch werden Werkzeuge (z.B. Importfilter) angeboten, welche die Konversion unterstützen. Ein Problem besteht darin, dass sich wegen der Formatunterschiede kleine Abweichungen vom Original kaum vermeiden lassen. Da über einen längeren Zeitraum viele Konversionsschritte erforderlich sind, deren Abweichungen sich akkumulieren, ist die Authentizität der Dokumente letztlich gefährdet. Bei der Ablösung eines alten Formats sind sämtliche in diesem Format vorliegenden Dokumente zu konvertieren. Das führt zu einem hohen, mit dem Dokumentenbestand immer weiter wachsenden Aufwand für die Konversionen und die erforderlichen (manuellen) Qualitätssicherungsmaßnahmen.

Ein Höchstmaß an Authentizität verspricht der Museumsansatz, bei dem Exemplare aller jemals verwendeten Wiedergabeumgebungen gesammelt und betriebsbereit gehalten werden. Nach übereinstimmender Expertenmeinung ist dieser Ansatz schon wegen der enormen Erhaltungskosten nicht praktikabel.

Im Unterschied zur Inhaltsmigration wird beim Emulationsansatz wie beim Museumsansatz die Bitfolge des digitalen Originaldokuments unverändert aufbewahrt, um die Authentizität zu erhalten. Die Wiedergabeumgebung eines Dokuments besteht aus einem Emulator der ursprünglichen Hardware und der zur ursprünglichen Wiedergabeumgebung gehörenden Software (siehe Abb. 2, rechts neue Teile kursiv).

Da die Originaldokumente unverändert bleiben, entfällt der Aufwand für Konversionen und Qualitätssicherungsmaßnahmen. Prinzipiellen Zweifeln an der Durchführbarkeit des Ansatzes begegnen Befürworter mit Hinweisen auf den erfolgreichen Einsatz von Emulatoren in unterschiedlichen Bereichen. Den hohen Aufwand bei der Erstellung der Emulatoren möchte man mit Hilfe einer standardisierten virtuellen Maschine (Universal Virtual Computer) reduzieren. Auch hier steht der endgültige Nachweis der Praxistauglichkeit noch aus.

Ein weiterer Ansatz, bei dem die Originaldokumente unverändert bleiben, ist die Portierung der Anzeige-Software auf die Zielplattform. Eine solche Portierung wäre nicht nur für jede Zielplattform, sondern dabei auch für jeden Dokumententyp erforderlich. Sonst sind die Vor- und Nachteile ähnlich wie die beim Emulationsansatz.

Nach dem Stein von Rosetta, mit dessen Hilfe Anfang des 19. Jahrhunderts die Entschlüsselung ägyptischer Hieroglyphen gelang, ist folgender Vorschlag benannt: Man bewahre neben den Bitfolgen von Dokumenten nur noch einen Katalog auf, in dem alle bekannten Dokumentenformate so genau beschrieben werden, dass künftige Generationen bei Bedarf selber Wiedergabeumgebungen herstellen können. Bei diesem Vorgehen ist der Aufwand für Erzeugung und Aufbewahrung auf ein Minimum reduziert. Dafür ist der eigentliche Zugang sehr aufwändig und bleibt bis zum Versuch letztlich ungewiss.

Angesichts der geschilderten Probleme und Unsicherheiten digitaler Archivierung greifen Archive auf bewährte, analoge Medien wie Papier und Mikrofilm zurück. Deutsche Archive beispielsweise verfilmen systematisch wichtige Dokumente und lagern Fässer mit Filmrollen in einen ehemaligen Bergwerksstollen ein. Dort können sie bei konstanter Temperatur praktisch ohne Energiezufuhr und menschliche Eingriffe Jahrhunderte überdauern, wobei sie im Prinzip jederzeit mit einem Minimum an technischem Aufwand zugänglich sind. Nachteile sind die Beschränkung auf die sichtbaren Anteile von Dokumenten, das Fehlen direkter digitaler Bearbeitungsmöglichkeiten und der langsame Zugriff.

Weitere Aspekte

Zusätzlich zum eigentlichen digitalen Dokument müssen auch Metadaten über dieses Dokument archiviert werden. Neben den bibliographischen Metadaten werden so genannte Preservation Metadata für die Archivierung benötigt. Schließlich will man wissen, inwieweit ein Dokument durch Migration verfälscht wurde oder wie ein hundert Jahre altes Programm zu bedienen ist. Solche Metadaten umfassen u.a. das Dokumentenformat, das Authentifizierungsverfahren, den Dokumentenkontext (insbesondere bei externen Referenzen) und die Migrationshistorie bzw. die beim Emulationsansatz benötigten Softwarehandbücher.

Der Aufwand für die digitale Langzeitarchivierung wächst mit der Anzahl der verwendeten Dokumentenformate. Angesichts des Wildwuchses an proprietären Formaten empfiehlt sich eine Beschränkung auf Standardformate. Erste Wahl sind herstellerunabhängige Standards, die von anerkannten Organisationen wie der ISO oder dem W3C spezifiziert sind, z.B. ASCII, Unicode, SVG und XSL. Einige herstellerabhängige Formate haben sich als von Quasi-Standards am Markt durchgesetzt, z.B. TIFF und PDF von Adobe. Deren Spezifikationen sind ebenfalls frei verfügbar, stehen aber unter der alleinigen Kontrolle des Eigentümers.

Vertrauenswürdige Archive sind ein zur Zeit vielbeachtetes Thema. Vertrauenswürdige Prozesse verhindern Datenverluste, authentizitätsverändernde Manipulationen an digitalen Dokumenten sowie unberechtigte Zugriffe (Urheberschutz).

Viele Informatik-Werkzeuge und -Methoden lassen sich für die Langzeitarchivierung nutzen. Das Arsenal reicht von Compilerbau-Techniken, die bei Konversion, Migration und Emulation wesentliche Rolle spielen, über erweiterbare Standardformate auf der Basis von XML, die sowohl für Metadaten als auch für Dokumenteninhalte Langlebigkeit und Anpassbarkeit versprechen, bis hin zu Ontologiebeschreibungsmechanismen wie RDF(S) und OWL. Letztere bilden schon jetzt die Grundlage für Metadatenformate (Dublin Core, METS), künftig vielleicht für „semantische“ Dokumentenformate, die eine inhaltsbezogene maschinelle Nutzung erlauben. Datenbanktechniken zu Föderation und Schemaevolution sind auf Metadatenschemata anwendbar.

Damit die Langzeitarchivierung digitaler Dokumente gelingt, sind nicht nur die hier angesprochenen technischen Probleme zu lösen, sondern auch gesellschaftliche und juristische Fragen zu klären. Die Monographie [3] stellt den Themenkomplex im Zusammenhang dar. Umfassende, gut gegliederte Zugänge zu den im Internet verfügbaren Originalarbeiten bieten die Homepages von nestor [4] und Padi [5].

Literatur

[1] Preserving Digital Information. Report of the Task Force on Archiving of Digital Information. Washington, D.C.: Commission on Preservation and Access, 1996. Zugänglich über www.rlg.org/ArchTF

[2] ISO 14721:2003 Space data and information transfer systems – Open archival information system – Reference model. Entwurfsfassung (2002) zugänglich über www.ccsds.org/documents/650x0b1.pdf

[3] U. M. Borghoff, P. Rödig, J. Scheffczyk, L. Schmitz: Langzeitarchivierung. Methoden zur Erhaltung digitaler Dokumente. dpunkt Verlag, Heidelberg 2003

[4] nestor-Homepage: www.langzeitarchivierung.de

[5] Padi-Homepage: www.nla.gov.au/padi

Autoren und Copyright

Prof. Dr. Uwe M. Borghoff
Dipl.-Ing. Peter Rödig
Dr. Jan Scheffczyk
PD Dr. Lothar Schmitz
Institut für Softwaretechnologie
Fakultät für Informatik
Universität der Bundeswehr München
D-85577 Neubiberg
E-mail: Lothar.Schmitz@unibw.de