FachartikelSoftwaretechnik

Wir brauchen global definierte Bits und Zahlen!

Wir brauchen eine neue, optimierte und global definierte universelle Datenstruktur, plädiert Dr. Wolfgang Orthuber

Wir wissen, dass jede "digitale" Information eine Folge von Bits, von 0 oder 1, ist. Bits wiederum bilden, nach dem Binärsystem aneinandergereiht, Zahlen. Digitale Informationen sind also letztlich Zahlenfolgen. Das hört sich erst einmal abstrakt an, aber es reicht zur Beschreibung aller digitaler Daten und damit von allem, was mobile und stationäre Computer und große Rechnersysteme an Informationen aufnehmen, speichern, verarbeiten und abgeben, von Mess- und Steuersignalen, Texten, Bildern, Filmen, bis hin zu großen Datenbanken und komplexen virtuellen Welten. Mit der zunehmenden Digitalisierung aller Lebensbereiche durchdringen diese spezifischen Zahlenfolgen unser aller Leben. Es lohnt sich also, über ihre Bedeutung wieder einmal nachzudenken. Vielleicht haben wir ja etwas Wichtiges übersehen.

Bedeutung der Bits und Zahlen

Jede digitale Information ist auch Zahlenfolge. Doch welche Bedeutung haben die einzelnen Zahlen? Ähnlich, wie die digitalen Bits Bestandteile von Zahlen sind, sind die Zahlen Bestandteile komplexerer Information. Jedes Bit und auch jede Zahl bedeutet eine Auswahl aus einer Menge von Möglichkeiten oder "Domain". Beispielsweise kann eine Zahl aus einem Codesystem wie Unicode ein Zeichen auswählen. So kann eine Zahlenfolge beispielsweise einen Text darstellen. Das ist aber nur eine von sehr vielen Möglichkeiten. Generell gilt: Die Bedeutung der Bits und der daraus gebildeten Zahlen ergibt sich aus dem Kontext, insbesondere aus den umgebenden Bits und auch aus dem weiteren Umfeld, z.B. dem Dateinamen. Beispielsweise kann eine Datei ein Bild oder einen medizinischen Befund wiedergeben, als Kombination von Text mit Zahlen. Hier deutet sich schon an, dass sich die Definition und Bedeutung von Bits und den daraus gebildeten Zahlen auf sehr verschiedene Art und Weise ergibt.

Globale Definition

Das Internet bietet eigentlich schon lange Zeit eine Möglichkeit, die vieles sehr vereinfachen könnte, aber bisher ungenutzt blieb: Globale Definition von Bits und daraus gebildeten digitalen Zahlenfolgen. Dafür reicht es bereits, vor einer (digitalen) Zahlenfolge einen Link zu deren (maschinenlesbaren, vollständigen) online Definition zu setzen! Der Link enthält die Webadresse bzw. URL und damit gleichzeitig einen weltweit eindeutigen Namen für eine bestimmte Art von Information.

Maximal effiziente Datenstruktur

Wir wollen nun eine allgemeine Datenstruktur finden, welche global definierbar ist und maximale Effizienz erlaubt. Da hierbei kein Bit verschwendet werden darf, müssen wir anstelle der "URL" etwas Abkürzbares verwenden. Wir wählen dafür den Begriff "UL" bzw. "Uniform Locator". Die Kombination UL (der maschinenlesbaren online Definition) plus Zahlenfolge wird "Domain Vector" bzw. kurz "DV" genannt. Die Menge an Möglichkeiten für die Zahlenfolge heißt "Domain Space" oder kurz "DS". Zur Erzielung maximaler Effizienz kann die Zahlenfolge binäres Format haben. Wie "ULR" lokalisiert auch "UL" eindeutig die online Definition der Zahlenfolge und kann auch als weltweit eindeutiger Name verwendet werden. Auch dabei sind maximale Abkürzung und binäres Format möglich.

Sprachunabhängigkeit

Wenn der DV keine sprachabhängigen Teile (Buchstaben oder Worte) repräsentiert, dann ist er auch sprachunabhängig. Dabei kann seine "Menge von Möglichkeiten" (DS) durchaus mithilfe von Sprache definiert werden, aber die Bedeutung hängt nicht von der Wahl der Sprache ab. Multilinguale Definitionen sind also möglich, wobei eine vollständige Definition in Englisch immer dabei sein sollte, da wir universale internationale Information anstreben.

Anwendungsbeispiel 
Als abgekürztes anschauliches Beispiel betrachten wir den DV: UL1,  N,  P,  L, B,  H

UL1 ist eine UL, die auf eine globale (hier 2 sprachige) Definition mit der Überschrift "Cupboard" bzw. "Schrank" zeigt.
N bedeutet kurz "order code" bzw. "Bestellnummer"
P bedeutet kurz "Price in Euro" bzw. "Preis in Euro"
L bedeutet kurz "length in m" bzw. "Länge in m"
B bedeutet kurz "breadth in m" bzw. "Breite in m"
H bedeutet kurz "Height in m" bzw. "Höhe in m"

Als Zahlenformat eignen sich selbstverlängernde Ganzzahlen (für N) oder kompakte Fließkommazahlen. Deren erstes Byte könnte z.B. Kommastelle und Anzahl weiterer Bytes wiedergeben. Bei binärem Format reichen in diesem Fall meist 2 bis 3 Byte je Zahl. Die Genauigkeit ist wegen der Längenangabe im ersten Byte den Erfordernissen anpassbar. Weitere Zahlen bzw. Dimensionen lassen sich an die Definition nachträglich anhängen. Bestehende Definitionen können (und sollen) mit ihrer UL in neuen Definitionen wiederverwendet werden (Verschachtelung von Definitionen), zur Minimierung der Redundanz der Daten und Software.

Anwendung für die Wirtschaft und Industrie

Durch die UL sind Daten in DV Form eindeutig gekennzeichnet und damit von verschiedenen Computersystemen automatisch erkennbar und zwischen diesen auch austauschbar. So lassen sich u.a. Produkte und Dienstleistungen in DV Form weltweit effizient suchen und anbieten. Es reicht dann eine Suchmaschine für weltweit verteilte DVs als Suchmaschine für "Alles Mögliche". Das kann durchaus hübsch aussehen, wenn die Definitionen raffiniert ausgebaut werden, z.B. auch Bilder und Links zu anderen Definitionen enthalten. Anstelle vieler online Verkaufsportale mit lokalen (partiellen) Datenbanken, welche redundant unter viel Arbeitsaufwand programmiert und gewartet werden müssen, könnte man so "Alles Mögliche" global in einem umfangreichen Portal zugänglich machen und bündeln, wenn dessen Rechnersystem weltweit DVs sucht und auswertet. Wäre das nicht effizienter?

Anwendung für Wissenschaft und Medizin

Wissenschaft und Medizin sollte objektivierbar sein, d.h. weltweit vergleichbare Information verwenden und austauschen. Anstelle der heute üblichen wiederholten (redundanten, mehr oder weniger ähnlichen) Definition der ausgetauschten Informationen mit jeweils neuen Worten wäre deren Link zur einheitlichen online Definitionen offensichtlich wichtig zur besseren Vergleichbarkeit der Beobachtungen, der Versuche und der Ergebnisse.

Anwendungsbeispiel 
Als medizinisches Beispiel betrachten wir den DV: UL2,  S, D,  M,  A, B,  C,  D

UL2 ist eine UL, die auf eine Definition mit der Überschrift "Blood Pressure Medication" bzw. "Blutdruck Medikation" zeigt.
S bedeutet kurz "Systolic Blood Pressure " bzw. "Systolischer Blutdruck"
D bedeutet kurz "Diastolic Blood Pressure " bzw. "Diastolischer Blutdruck"
M bedeutet kurz "Medicament number" bzw. "Medikament Nummer"
A, B, C, D bedeuten verschiedene behandlungsrelevante Zahlen, z.B. Alter in Jahren, BMI, Laborparameter, genetische Veranlagung, erzielte Blutdrucksenkung etc. 

Der DV "UL2" würde weltweit einheitlich eine bestimmte Medikation so beschreiben, dass Vergleiche des Erfolgs möglich sind. Für den Arzt ist es heute schwer möglich, bei der Wahl des Medikaments M die vielen individuellen Parameter A, B, C, D gleichzeitig objektiv zu berücksichtigen.

Schlussfolgerung und Ausblick

Es wird eine neue, hinsichtlich Effizienz optimierte und global definierte universelle Datenstruktur vorgeschlagen. Leider ist der sichere "Return on Investment" der damit verbundenen Neuprogrammierung verzögert, da der Datenbestand erst einmal aufgebaut werden muss und auch so manche bestehenden Geschäftsmodelle überdacht werden müssen.

Aber wollen wir wirklich so weitermachen und weiter viel Geld und Zeit vergeuden durch inkompatible redundante Datendefinitionen und daraus folgender redundanter Programmierung und Interoperabilitätsproblematik? Oder wollen wir auf lange Sicht nicht doch lieber eine systematische globale Definition unserer (digitalen) Daten?

Beginnen wir möglichst bald mit den gemeinsamen binären online Definitionen! Deren erste Zahlen zeigen dabei gleich die Version, denn mit häufigen Updates und Erweiterungen des Standards ist zu rechnen. Spätestens sobald der neue Datenbestand attraktiv zu werden beginnt, dürfte die zugrundeliegende DV Datenstruktur als universeller Informationsträger Einzug halten und auch deutlichen "Return on Investment" einbringen aufgrund der verbundenen objektivierbaren Vorteile.

Über den Autor

Dr. Wolfgang Orthuber