Lexikon

Langzeitarchivierung mit PDF/A-2 - PDF Standards im Überblick

PDF Standards im Überblick

Das Problem der verlässlichen Langzeitarchivierung gehört zu den großen Herausforderungen unseres digitalen Informationszeitalters. Schon seit vielen Jahren beschäftigen sich Fachleute damit, Methoden und Technologien bereitzustellen, die mit möglichst geringem Aufwand an Zeit und Kosten die langfristige, verfälschungsfreie Erhaltung und Wiedergabe digitaler Dokumente sicherstellen. Bereits 2005 beleuchtete Informatik Spektrum (Heft 28/6 (2005)) in seinem aktuellen Schlagwort das Thema. Hier wurden verschiedene Lösungsansätze wie Inhaltsmigration, Museumsansatz, Emulationsansatz und Portierung der Anzeige-Software vorgestellt und diskutiert. Heute ist die Forschung fünf Jahre später, im Jahr 2010, weiter fortgeschritten und hat standardisierte, robuste Datenformate entwickelt, die die Möglichkeiten einer zuverlässigen Langzeitarchivierung erweitern.

 

In Unternehmen waren zunächst die TIFF-Archive verbreitet, denn auch TIFF garantiert die Reproduzierbarkeit auf lange Sicht. Allerdings hat das TIFF-Format auch Nachteile. So gestaltet sich beispielsweise das Suchen als schwierig, denn als Rasterformat muss es vorgängig mit einer OCR-Maschine bearbeitet werden, um eine Volltextsuche zu ermöglichen. Daher richtete sich das Augenmerk auf das von Adobe Systems entwickelte und bereits 1993 veröffentlichte Portable Document Format (PDF), das sich sehr schnell als Kandidat für die Standardisierung für ausgewählte Einsatzgebiete und Branchen entwickelte. Allen Standards gemein ist jedoch, dass sie als Subsets die umfangreichen Fähigkeiten von PDF einschränken. Im Laufe der letzten zwölf Jahre hat Adobe aber sieben neue Versionen ihres PDF Reference Manual publiziert. Jede neue Version hat das Format um zahlreiche neue Eigenschaften angereichert und einige alte verändert. Es war deshalb notwendig, aufbauend auf Adobes proprietärer PDF-Spezifikation, einen stabilen, international akzeptierten Standard für die Langzeitarchivierung zu schaffen. Das Resultat: PDF/A.

PDF/A stellt eine eingegrenzte Variante von PDF dar, ein standardisiertes Profil zur Verwendung von PDF in der Langzeitarchivierung. Der Standard schreibt vor, welche Inhalte erlaubt sind und welche nicht. Sie untersagen beispielsweise das in einem PDF-Dokument externe Links enthalten, die im Zweifel nach einigen Jahren nicht mehr vorhanden sind. Durch diese und andere Vorschriften soll eine langfristige Lesbarkeit der Dokumente garantiert sein – und zwar unabhängig davon, mit welcher Anwendungssoftware und auf welchem Betriebssystem sie ursprünglich erstellt wurden. Die Vorteile von PDF/A, wie zum Beispiel die Fähigkeit zur Volltextsuche, machen es zu einem bevorzugten Archivierungsformat, das bei zahlreichen internationalen Behörden und Unternehmen das TIFF-Format inzwischen verdrängt hat. Doch unterliegt auch dieser Standard Veränderungen und Weiterentwickelungen. Zudem hat sich im PDF-Umfeld eine Reihe spezifischer Standards entwickelt, die verschiedene Aspekte und Bedürfnisse hinsichtlich der Langzeitarchivierung berücksichtigen. Der folgende Überblick schlägt den Bogen von den spezifischen PDF-Standards über PDF/A hin zu dem gerade von der Internationale Organisation für Standardisierungen (ISO)  veröffentlichten PDF/A-2 und seinen Neuerungen.

PDF/X und PDF/VT: Standards für die Druckindustrie

Im Druck- und Prepress-Bereich ist die verlässliche Weitergabe von digitalen Druckunterlagen von großer Bedeutung. Das technische ISO-Komitee, das TC 130, entwickelte mit anderen den Standard PDF/X, der als erster PDF-Standard bereits 2001 veröffentlicht wurde. PDF/X für den Datenaustausch (X steht für eXchange) ist in den ISO-Standards 15929 und 15930 genormt und wurde 2010 um die Version? PDF/X-4 erweitert.

Im Print- und Prepress-Bereich ist zudem der Standard PDF/VT (V für Variablen Datendruck und T für Transaktionsdruck) relevant. Er definiert ein variables und interoperables Datenformat für den hochvolumigen Druck und steht kurz vor der Veröffentlichung.

PDF/A für die Langzeitarchivierung

PDF/A-1 wurde vom ISO-Komitee ISO TC 171 Ende 2005 als internationaler Standard ISO 19005-1 für die Langzeitarchivierung veröffentlicht. Vor allem die Bereiche Verwaltung, Archive, Bibliotheken und Verlage, Banken und Versicherungen sowie die Industrie profitieren von PDF/A, da digitale Dokumente mit diesem Standard dauerhaft archiviert werden können.

In Paris wurde im Sommer 2010 die Arbeit am zweiten Normteil, PDF/A-2, aus technischer Sicht abgeschlossen. Mit der Veröffentlichung kann voraussichtlich im Sommer 2011 gerechnet werden. Nach der inhaltlichen Fertigstellung von PDF/A-2 legte das Komitee in Paris die Grundrichtung für einen weiteren Normteil PDF/A-3 fest. Dieses wird auf PDF/A-2 aufsetzen und ermöglicht dann, beliebige Dateien einzubetten. Damit können anwendungsspezifische Dokumente nahtlos mit in den Archivierungsprozess eingebunden werden.

PDF/UA: Standard für barrierefreies PDF

Der barrierefreie Zugang zu Dokumentinhalten gewinnt insbesondere im amerikanischen und europäischen Behörden- und Verwaltungsbereich zunehmend an Bedeutung. Der Standard PDF/UA (PDF/Universal Accessibility) wird vom Komitee der ISO/AWI 14289 erarbeitet. Er soll dafür sorgen, dass Inhalte von PDF-Dateien so strukturiert sind, dass sie mittels technischer Hilfsmittel, etwa in Form von Sprachausgabe, zugänglich werden.

PDF/E: Das PDF für technische Dokumente

Die Norm ISO 24517-1:2008 wurde 2007 publiziert. Zu den Anforderungen dieses Standards für den Engineering-Bereich zählen unter anderem: Exaktes Drucken von 3D-Zeichnungen in den DIN-Formaten; Zusammenführung komplexer Engineering-Daten in einem einzigen PDF-Dokument sowie die Unterstützung des sicheren Austauschs von Kommentaren.

PDF/H: Best Practice für den Gesundheitsbereich

PDF/H ist kein ISO-Standard, sondern ein sogenannter Best Practice Guide (H steht für Healthcare). Er soll die Dokumentation und den Austausch von Patientendaten regeln, wobei besondere Sicherheitsbelange und die Beifügung von Bildmaterialen aus der bildgebenden Diagnose zu beachten sind.

Nicht zuletzt: PDF selbst ist in Version PDF 1.7 ISO-Standard

Seit Sommer 2008 ist auch das Dateiformat PDF als ISO-Standard 32000-1 normiert. Er basiert auf PDF 1.7. Neue Entwicklungen fließen in den derzeit in Arbeit befindlichen Normteil ISO 32000-2 – auch „PDF 2.0“ genannt – ein.

Vorteile des PDF/A-Standards

PDF/A hat als internationaler ISO-Standard eine weltweite Gültigkeit  und garantiert als Standard für die Langzeitarchivierung die sichere Reproduktion von Dokumenten über viele Jahre hinweg, unabhängig von technologischen Neuerungen bei Hard- und Software. PDF/A sorgt für ein homogenes Archiv, in dem sich sowohl digital entstandene als auch gescannte Dokumente aufbewahren lassen. Auch der Umwelt- und Klimaaspekt spricht für PDF/A. Papierdokumente können immer häufiger durch PDF/A-Dokumente ersetzt werden, da PDF/A in puncto Langlebigkeit und Verbindlichkeit (Signaturen) in der Lage ist, alle Anforderungen zu erfüllen.

PDF/A-2: Die zentralen Neuerungen

Während PDF/A-1 auf PDF 1.4 basiert, kann PDF/A-2 Funktionen nutzen, die erst mit PDF 1.7 verfügbar wurden. PDF/A-2 basiert auf dem eigenständigen ISO-Standard 32000-1. Der folgende Überblick zeigt die zentralen Neuerungen von PDF/A-2.

JPEG2000 Bildkompression

Das leistungsfähige Kompressionsverfahren JPEG2000 wurde noch nicht in PDF/A-1 aufgenommen, da der Kompressionsstandard (ISO/IEC 15444) erst mit PDF 1.5 Teil der PDF-Spezifikation wurde.

Die neuen JPEG2000-Möglichkeiten sind unter anderem für gescannte Dokumente interessant, da sich hiermit höhere Kompressionsraten bei besserer Qualität erzielen lassen als mit dem JPEG-Format. Weiterhin bietet JPEG2000 auch eine verlustfreie Kompressionsstufe an.

Mit JPEG2000 können Bibliotheken und Archive zum Beispiel historische Karten, Bücher oder Dokumente in bestmöglicher Qualität digitalisieren und daraus größenoptimierte PDF/A-2-Dateien mit JPEG2000 erstellen.

Eingebettete PDF/A-Dateien via Collections

Die Collections werden in Acrobat „Portfolios“ genannt. Mit dieser Funktion kann der Anwender mehrere Dateien in einem „Container-PDF“ vereinen. Mit PDF/A-2 lassen sich nun PDF/A-Collections aus mehreren PDF/A-Dateien zusammenstellen. Andere Dateiformate als PDF/A sind in diesen Collections explizit nicht zulässig. In der praktischen Anwendung können PDF/A-Collections zum Beispiel für die E-Mail-Archivierung verwendet werden. E-Mail-Anhänge (im Original etwa Word-Dateien, im Archiv dann PDF/A-Dateien) lassen sich separat zum E-Mail-Text, aber vereint in einer PDF/A-Collection archivieren.

Transparenz

Transparenz ist zwar schon Bestandteil von PDF 1.4, doch da zum Zeitpunkt der PDF/A-Normierung noch nicht alle technischen Spezifikationen offengelegt waren, konnten sie beim PDF/A-1-Standard nicht berücksichtigt werden.

Transparenz ist meist ein gestalterisches Mittel (Schlagschatten, Überblendungen, „weiche“ Kanten) und betrifft ausschließlich PDFs digitalen Ursprungs. Oft kommt Transparenz aber auch unbeabsichtigt in eine PDF-Datei, etwa wenn die Herkunftsdatei eine Powerpoint-Präsentation ist oder ein PDF mit Textmarkierungen durch das Hervorhebungswerkzeug. In PDF/A-2 sind Transparenzen nun zulässig.

PDF-Ebenen oder „Optional Content“

PDF/A-2 unterstützt PDF-Ebenen, auch PDF-Layer oder Optional Content Groups (OCG) genannt. OCGs sind unter anderem bei technischen Konstruktionszeichnungen und Plänen hilfreich, da sich Inhalte je nach thematischem Fokus ein- und ausblenden lassen, etwa für die Elektrik oder Wasserversorgung bei einem Gebäudeplan.

Über PDF-Ebenen lassen sich auch mehrsprachige Inhalte – etwa eines internationalen Katalogs – in einer einzigen PDF-Datei realisieren. Mit der Ebenenfunktion kann der Anwender zum Beispiel zwischen englischem, japanischem und deutschem Text wechseln, während die Abbildungen gleich bleiben.

OpenType-Schriften

Die plattformübergreifenden OpenType-Schriften selbst sind als ISO/IEC 14496-22 standardisiert. Diese Schriften unterstützen Unicode weitreichend. OpenType-Schriften gibt es in TrueType-Ausprägung (Suffix „.ttf“) und PostScript-Ausprägung (Suffix „.otf“). In PDF/A-2 können diese Fonts nun direkt eingebettet werden, ohne – wie bei PDF/A-1 notwendig – zuerst in die älteren Formate PostScript Type 1 oder TrueType umgewandelt worden zu sein.

Neuer Konformitätslevel PDF/A-2u – „u” für Unicode

Der Konformitätslevel „b“ steht für „basic“. In PDF/A-1b und PDF/A-2b steht die visuelle Integrität im Mittelpunkt. PDF/A-1a und PDF/A-2a („a“ für „advanced“) enthalten weitere Merkmale. So sind in diesen PDF/A-Dokumenten auch Strukturinformationen enthalten (etwa zu Absätzen, Überschriften oder Spalten) sowie semantische Informationen, die mithilfe von Unicode ermöglicht werden. Letzteres ist wichtig für ein problemloses Copy&Paste aus PDF/A-Dateien und eine korrekte Textsuche.

Neu in PDF/A-2 ist der Konformitätslevel „PDF/A-2u” („u” für „Unicode“). Er bietet als abgespeckte Version des Levels „a“ die Vorteile von Unicode (Textsuche und Kopieren von Text), ohne die unter Umständen aufwändigen Strukturanforderungen einhalten zu müssen. PDF/A-2u ist sowohl für digital erzeugte PDF-Dateien als auch für gescannte Dokumente mit anschließender Texterkennung möglich.

Object-Level-XMP-Metadaten

Im Bereich Metadaten verdeutlicht PDF/A-2 die Erfordernisse an selbsterstellte XMP-Metadaten-Felder. Benutzerdefinierte Metadaten-Felder müssen jetzt über ein Extension Schema definiert werden, um PDF/A-konform zu sein.

Dokumentinformationen in PDF/A-2 „beliebig“

In das Umfeld der Metadaten gehören auch „irgendwie“ die Dokumentinformationen „Titel“, „Autor“, „Thema“ und „Stichwörter“. Eingabemasken in einigen Programmen zeigen diese Metadaten separat zu den XMP-Metadaten. Mit PDF/A-2 wird das veraltete Dictionary der Dokumentinformationen ignoriert, somit ist die Einheitlichkeit mit den Dokument-XMP-Metadaten nicht mehr erforderlich. Programme für die PDF/A-Erstellung sollten die Einheitlichkeit jedoch gewährleisten.

Digitale Signaturen

Auch PDF/A-1 ermöglicht die Verwendung von elektronischen Signaturen. In PDF/A-2 werden die Signaturen gemäß ETSI/PAdES-Standard eingebunden und verwendet. Bei PAdES (PDF Advanced Electronic Signatures) handelt es sich um einen Satz von Einschränkungen und Erweiterungen zum PDF-Standard gemäß ISO 32000-1, um die Einbindung und Anwendung fortgeschrittener elektronischer Signaturen zu verbessern. ETSI hat den Standard PAdES unter TS 102 778 normiert.

PDF/A-2-Neuerungen für Entwickler

Die folgenden neuen beziehungsweise verbesserten technischen Funktionen von PDF/A-2 dürften vor allem für Entwickler interessant sein.

Merkmal Neu in PDF/A-2
Konformitätslevel „A“ Erweiterte Anforderungen an den Konformitätslevel „A“
File Header File Header nur aus dem Bereich %PDF-1.0 … %PDF-1.7 zulässig
XFA Der XML-basierte Standard XFA (XML Forms Architecture) ist jetzt zum Teil erlaubt.
Struktur und Tags Abbildung von benutzerdefinierten Tags und Standard-Tags in einer Role Map
Compressed Object Streams PDF/A-2 unterstützt Compressed Object Streams, die erst mit PDF Version 1.5 eingeführt wurden.
Überarbeitung der Beschränkungen für die Implementierung Unter anderem wurde die Beschränkung auf 8191 Array Objects entfernt.
Linearisiertes PDF Wird von PDF/A-2 nicht mehr geregelt.
Erscheinungsbild von Kommentaren Annotation Appearance wird nicht mehr benötigt, wenn der Bereich leer ist oder falls die Anmerkung aus der Gruppe Link/Popup ist.
History-Eintrag in XMP Falls der History-Eintrag vorhanden ist, müssen bestimmte Regeln eingehalten werden.
ICC Profile Neueste Version ICC v4 wird berücksichtigt.
DefaultCMYK Verbesserte Bereitstellung
Prepress: Überdrucken, CMYK Schlüssel für Überdruckenmodus und ICC-basiertes CMYK erforderlich
Schmuckfarben Schmuckfarben müssen bezüglich des Alternativfarbraums konsistent sein
Name Objects in gültigem UTF-8 Bestimmte Name Objects, etwa zu Schmuckfarben, oder Struktur-Typen müssen als UTF-8 hinterlegt werden.
Subset Fonts Die Untergruppen von Schriften (CharSet, CIDSet) wurden überarbeitet.
TrueType Das TrueType Encoding wurde überarbeitet (Differences Array; AGL).
.notdef Glyphe Verwendung der .notdef Glyphe (Platzhalter für nicht gefundene Schriftzeichen) ist jetzt unzulässig.
Name Space Prefixes Weniger Bestimmungen bezüglich Präfixes von Namensräumen
Documents Requirements Key Unzulässig
UUID Verwendung eines Universally Unique IDentifiers

Außerdem neu in PDF/A-2

Alle weiteren Änderungen und Verbesserungen in PDF/A-2 in tabellarischer Übersicht.

Merkmal Neu in PDF/A-2
Links Jetzt auch in Form von Multi-Rectangle Link Annotations möglich (Link in Form mehrerer, zusammengehöriger Rechtecke bei Zeilenumbruch)
Links bei PDF-Collections Das Setzen von Links zu, von bzw. zwischen eingebetteten PDF/A-Dateien ist möglich.
Freiform-Kommentare Freeform Annotations, etwa als Polygon, sind erlaubt.
UserUnit Seitengrößen im Maßstab 1:1 bis zu 381km Kantenlänge (bisher: 5,08 m) sind möglich.
Maßeinheiten Unterstützung von Measurement Properties; wichtig für technische Dokumente
Strukturiertes PDF Erweiterte Möglichkeiten von Tagged PDF, z.B. bessere Abbildung von Tabellen durch Hinzufügen der Strukturelemente
Encryption Erweiterte Verschlüsselung; dazu zählen zahlreiche Verfeinerungen in Details, aber vor allem die Berücksichtigung neuerer Entwicklungen in der Kryptographie; so wird beispielsweise derAdvanced Encryption Standard (AES) unterstützt
Elektronische Signaturen Erweiterte Möglichkeiten durch z.B. Aufnahme der Vorgaben für PDF-Signaturen aus PDF Advanced Electronic Signatures PAdES
Farben: DeviceN Maximale Anzahl von Färbungen/Colorants in DeviceN
Farben: NChannel NChannel Unterstützung

Umstieg auf PDF/A-2: Überlegungen und Strategien

Wie bei Standards üblich, wird der neue Standard PDF/A-2 den alten PDF/A-1 nicht ersetzen, sondern nur ergänzen. Bereits erstellte, konforme PDF/A-1-Dokumente bleiben dauerhaft gültige PDF-Dateien für die Langzeitarchivierung, so dass bereits in PDF/A-1 archivierte Dateien unverändert bleiben können. Vom Umstieg profitieren Anwender, die bei der Durchsicht der neuen PDF/A-2-Merkmale zusätzliche Funktionen entdecken, welche bereits auf der persönlichen Wunschliste stehen.

Wer sich zum ersten Mal mit der Thematik PDF/A befasst, steht vor der Frage, ob er sofort PDF/A-2 einsetzen soll. Auch hier ist die Verfügbarkeit der jeweiligen Softwaretools zu überprüfen. Es spricht grundsätzlich nichts dagegen, mit PDF/A-1 in die Langzeitarchivierung einzusteigen, da Software verfügbar ist und das Know-how, das sich Einsteiger mit PDF/A-1 erarbeiten, in großem Maße auch für PDF/A-2 zu nutzen ist. Auch bei laufenden Projekten gilt: Wenn PDF/A-1 alle Anforderungen abdeckt, dann sollte der Workflow unverändert bleiben. Falls jedoch PDF/A-2 entscheidende Funktionen bietet, die mit PDF/A-1 nicht zu realisieren sind, sollte der Umstieg zu einem geeigneten Zeitpunkt gestartet werden.

Literatur

PDF/A-Standard

ISO 19005-1:2005, Document management – Electronic document file format for long-term preservation –
Part 1: Use of PDF 1.4 (PDF/A-1), www.iso.org. (2005).

ISO/DIS 19005-2, Document management – Electronic document file format for long-term preservation – Part 2: Use of ISO 32000-1 (PDF/A-2), www.iso.org. (2010).

PDF/A Competence Center, Homepage, www.pdfa.org.

PDF-Standard

ISO/DIS 32000, Document management – Portable document format – PDF 1.7, www.iso.org. (2008).

PDF-Referenz

PDF Reference, Third Edition, Adobe Portable Document Format Version 1.4, www.adobe.com. (2001).

PDF Reference, Sixth Edition, Adobe Portable Document Format Version 1.7, www.adobe.com. (2007).

JPEG 2000

ISO/IEC 15444-6:2003, Information technology – JPEG 2000 image coding system – Part 6: Compound image file format, www.iso.org. (2003).

ISO/IEC 15444-1:2004, Information technology – JPEG 2000 image coding system – Part 1: Core coding system, www.iso.org. (2004).

Signaturen

European Telecommunications Standards Institute – ETSI, www.etsi.org

PDF Advanced Electronic Signature (PAdES) FAQ: www.padesfaq.net

Autoren und Copyright

Olaf Drümmer und Thomas Zellmann
Beide im Vorstand des PDF/A Competence Center
Neue Kantstr. 14, D-14057 Berlin

© Springer-Verlag 2011