Lexikon

Datenbanken in der Bioinformatik

Die Bioinformatik kann als Anwendung von Informatikmethoden zur Untersuchung von Problemen der Molekularbiologie definiert werden, die auf sehr großen Datenmengen beruhen und einer umfangreichen Datenanalyse bedürfen. Folglich spielen Datenbanken in der Bioinformatik eine zentrale Rolle.

Die Bioinformatikdatenbanken haben interessante Merkmale, die in herkömmlichen Datenbanken selten vorkommen. Insbesondere zeigen Datenbanken mit unterschiedlichen Molekularbiologiedaten einheitliche Merkmale.

Fragestellungen, Daten und Verwendung von Datenbanken

Sequenzdatenbanken zur DNS-Analyse und Sequenzierung

Proteine, die "Bausteine des Lebens ", sind aus Aminosäuren nach einem Bauplan zusammengesetzt, der in der DNS kodiert ist. Die DNS ist ein lineares Polymer, Sequenz genannt, das aus vier Nukleinsäuren aufgebaut ist. Innerhalb der DNS gibt es kodierende sowie nichtkodierende Abschnitte, deren Grenzen schwierig zu erkennen sind. Ziel der Sequenzierung ist es, die kodierenden sowie die nichtkodierenden Bereiche in der DNS-Sequenz eines Organismus zu ermitteln. DNS-Analyse-Methoden werden eingesetzt, um kodierende sowie weitere Bereiche zu erkennen. Die Daten werden in (meist sehr großen)Sequenzdatenbanken verwaltet: GenBank enthält z.B.ca.2 * 10 ** 7 Nukleotidsequenzen und referenziert ca.2 * 10 ** 10 Vorkommen von Nukleotiden. Das Wachstum der meisten Sequenzdatenbanken ist exponentiell.

Proteinsequenz- und Proteinstrukturdatenbanken zur Strukturvorhersage

Die Funktion eines Proteins hängt von seiner 3D-Struktur ab, sodass die Vorhersage der Struktur von Proteinmolekülen aus ihrer Sequenz, die sog. Proteinfaltung, ein Hauptziel der Biologie ist. Bioinformatikmethoden werden eingesetzt, um Annäherungen an die tatsächliche Struktur von Proteinen zu berechnen und damit Laboruntersuchungen einzuschränken. Homologiebasierte Ansätze vergleichen dabei die Aminosäuresequenzen bereits bekannter Proteine mit der Sequenz des unbekannten Proteins. Dafür werden Proteinsequenz- und Proteinstrukturdatenbanken aufgebaut und Ähnlichkeitsanfragen an solche Datenbanken gestellt.

Biochemische Pfade

Ein biochemischer Pfad ist eine abstrakte Modellierung von aufeinander folgenden chemischen Reaktionen in einer Zelle. Besondere Beachtung finden metabolische Pfade (Reaktionswege im Stoffwechsel)und regulatorische Pfade (Kontrollmechanismen in der Genexpression). Zum Auffinden biochemischer Pfade werden unter anderem Sequenzdatenbanken verwendet. Die so gewonnenen Daten werden in speziellen Datenbanken verwaltet.

Sequenzdatenbanken zur Ermittlung phylogenetischer Bäume

Die Evolution verändert über die Jahre hinweg die Kodierung der Proteine in der DNS. Modelle dieser Veränderung werden auf die Daten von Sequenzdatenbanken angewandt, um die Stammbäume, phylogenetische Bäume genannt, einzelner Organismen zu ermitteln.

Genexpressionanalyse

Ein Gen wird meist als DNS-Abschnitt definiert, der ein Protein kodiert. Zellen besitzen Mechanismen für die sog. Genexpression, d.h.,um ein spezielles Gen in der DNS zu lesen und daraus das kodierte Protein zu synthetisieren. Mit sog. DNS-Chips kann das Expressionsniveau (intuitiv: die "Konzentration ") mehrerer tausend Gene gemessen werden, die eine Zelle zu einem Zeitpunkt exprimiert. Datenbanktechniken zum Data-Mining (z.B. Clustering-Methoden) werden dazu benutzt, Gene mit ähnlichen Expressionsmustern in Gruppen zusammen zu fassen.

Inhaltliche Unterschiede

Die Bioinformatikdatenbanken sind sehr unterschiedlich bezüglich ihres Inhaltes. Manche Datenbanken speichern die Daten aus einem einzigen, möglicherweise schon abgeschlossenen Forschungsprojekt. Andere Datenbanken sind das Ergebnis einer weltweiten und andauernden Zusammenarbeit zwischen Forschungsteams. Manche Datenbanken beinhalten Daten über einen einzigen Organismus, andere über alle Vorkommen eines Proteins in allen möglichen Organismen. In manche Datenbanken werden neue Daten erst nach Korrektheit- und Konsistenzüberprüfungen aufgenommen. In anderen Datenbanken finden solche Überprüfungen nicht statt. Dennoch haben die Bioinformatikdatenbanken erstaunlich viele Gemeinsamkeiten, was Datenmodellierung und -management angeht.(Einen Überblick über die verbreitesten Datenbanken der Bioinformatik gibt der Computational Biology Database Digest .)

Datenmodellierung und -management

Bemerkenswert ist, dass Datenmodellierung und -management kaum von der Art der Molekularbiologiedaten abhängen.

Abb. 1. Auszug aus der Bioinformatikdatenbank HDB

Abb. 2. Auszug aus der Bioinformatikdatenbank SWISS-PROT

Datenmodelle

Bioinformatikdatenbanken verwenden vier Formen der Datenmodellierung:

  • ASCII-Texte ("Flat-Files");
  • Datenmodelle, die für herkömmliche Datenbanken entwickelt wurden;
  • das Object-Protocol-Modell (OPM);
  • das ACEDB-Datenmodell.

Flat-Files

Die Datensätze aus Bioinformatikdatenbanken, die als Sammlungen von Flat-Files implementiert sind, sind entweder unstrukturiert (Abb.1) oder mittels textueller Bezeichner (line type) stukturiert (Abb.2). Es gibt keinen einheitlichen Satz an solchen Bezeichnern, der in den meisten (oder vielen) Bioinformatikdatenbanken verwendet wird. Sowohl die Kodierung von Begriffen mit "line types" wie auch die Begriffe selbst können sich zwischen Bioinformatikdatenbanken erheblich unterscheiden.

Sehr viele Bioinformatikdatenbanken sind immer noch als Sammlungen von Flat-Files implementiert: ca.40% der von uns untersuchten Bioinformatikdatenbanken sind Flat-File-Sammlungen. Zudem sind Flat-Files der De-facto-Standard zum Datenaustausch in der Bioinformatik.

Relationale und Objektdatenmodelle

Etwa 35% der untersuchten Bioinformatikdatenbanken werden von einem herkömmlichen (relationalen, objektorientierten oder objektrelationalen) Datenbanksystem verwaltet .Ihre Daten werden folglich unter Verwendung des relationalen oder des Objektdatenmodells repräsentiert. Mit dem Objektdatenmodell werden die (meist weitgehend strukturierten) Molekularbiologiedaten gut repräsentiert. Mit dem relationalen Modell werden die Daten meist unübersichtlich und wenig intuitiv repräsentiert.

Object-Protocol-Modell (OPM)

OPM wurde zur Repräsentation von wissenschaftlichen (Labor-)Experimenten entwickelt. Es eignet sich besonders gut zur Repräsentation der zeitlichen Bedingungen und des Datenflusses zwischen Teilexperimenten. Folglich eignet sich OPM gut zur Repräsentation von Phänotypdaten, d.h. Daten über die Dynamik von biologischen Prozessen. OPM weist viele Merkmale von SDM und dem Datenmodell von O 2 auf.

ACEDB-Datenmodell

ACEDB (mit großem "E") ist ein Datenbankmanagementsystem mit einem eigenen, speziellen Datenmodell, das ursprünglich für die Bioinformatikdatenbank ACeDB (mit kleinem "e") entwickelt wurde (ACeDB ist das Kürzel von "A C.elegans Database"). ACEDB findet in den Bioinformatikdatenbanken breite Anwendung zur Repräsentation von genetischen Daten. Grund dafür ist die Flexibilität des Datenmodells, das viele Aspekte des semistrukturierten Ansatzes zur Datenmodellierung besitzt.

Datenbankmanagement

Viele (über 30% der in untersuchten) Bioinformatikdatenbanken werden mit einem relationalen Datenbankmanagementsystem (DBMS) verwaltet, obwohl das relationale Datenmodell zur Repräsentation von molekularbiologischen Daten wenig geeignet ist. Nur wenige (ca.9% der in untersuchten) Bioinformatikdatenbanken werden mit einem objektorientierten DBMS verwaltet, obwohl die objektorientierte Modellierung von molekularbiologischen Daten sehr passend ist. Diese Lage ist sicherlich auch auf die rasche Entwicklung der Bioinformatik, auf das extrem schnelle Wachstum der Bioinformatikdatenbanken sowie auf den beschränkten Erfolg der objektorientierten DBMS zurückzuführen. Das speziell für die Bioinformatik entwickelte DBMS ACEDB wird zur Verwaltung von noch wenigeren (ca.4% der in untersuchten) Bioinformatikdatenbanken eingesetzt.

Querverweise

Oft verweisen Datensätze von Bioinformatikdatenbanken auf Beschreibungen der Experimente, durch die die Daten gewonnen wurden, und/oder auf ähnliche Daten in derselben Datenbank oder in anderen Bioinformatikdatenbanken. Meist werden diese Verweise mittels (künstlicher) Primärschlüssel realisiert und als Hypertextlinks implementiert.

Die Hypertextverlinkung ist ein besonders auffälliges Merkmal der Bioinformatikdatenbanken.

Anfragen und Crawling

Die meisten Bioinformatikdatenbanken bieten (oft hierarchisch organisierte) Webformulare, womit Anfragen an die Datenbank gestellt werden können. Solche Schnittstellen sind leicht zu benutzen, ermöglichen aber meist nur begrenzte Anfragen.

Anfragesprachen im herkömmlichen Sinn werden selten zur Verfügung gestellt, u.a.weil ihre Verwendung Fachkenntnisse erfordert, über die nur wenige Benutzer von Bioinformatikdatenbanken verfügen. Zusätzlich stellen fast alle Bioinformatikdatenbanken ihre Daten in den unterschiedlichsten Formaten als Flat-Files zum Herunterladen zur Verfügung.

Das System SRS zur Integration von Bioinformatikdatenbanken bietet eine originelle Anfragesprache. Mit dieser Anfragesprache kann eine Navigation durch Datenbanken und Datensätze spezifiziert werden. Auffällig originell sind die Crawling-Konstrukte der SRS-Anfragesprache zur Verfolgung von Hypertextlinks. Interessanterweise bietet keine Anfragesprache für XML solche Crawling-Konstrukte.

Datenanalyse und -integration

Auch bei der Datenanalyse gibt es überwiegend Gemeinsamkeiten zwischen den Bioinformatikdatenbanken, unabhängig von der Art der gespeicherten Daten. Viele Werkzeuge zur Datenanalyse sind zwar tendenziell eher einer gewissen Art von Daten zu zuordnen, dennoch werden sie oft auch für Daten anderer Art angeboten und benutzt.

Datenbanken, Datenanalyse und Data-Mining

Die meisten Bioinformatikdatenbanken stellen Bioinformatiksoftware für die Datenanalyse zur Verfügung. Diese Software sind entweder Implementierungen von verbreiteten Bioinformatikalgorithmen (z.B. dem Smith-Watermann-Algorithmus) oder Werkzeuge (z.B. BLAST), die auf bekannten und/oder weniger bekannten Algorithmen und Verfahren beruhen. Einige dieser Werkzeuge (z.B. 3Dee) beziehen sich auf Datenbanken, sodass die Unterscheidung zwischen einer Methode zur Datenanalyse, die eine bestimmte Datenbank verwendet, und einer Datenbank, die eine bestimmte Methode zur Datenanalyse anbietet, schwierig sein kann. Viele Bioinformatikdatenbanken bieten auch elementare Computerlinguistiksoftware zur Schlagwortsuche und Übersetzungen zwischen den geläufigsten Datenformaten von Bioinformatikdatenbanken.- Einen Überblick über die verbreitesten Methoden und Werkzeuge gibt der Database Digest.

Mit dem raschen und stetigen Wachstum der Bioinformatikdatenbanken sind Verfahren zum Knowledge-Discovery und Data-Mining unabdingbar geworden. Sie sind Gegenstand aktueller Forschung.

Datenintegration

Die Integration von Daten unterschiedlicher Art und/oder aus unterschiedlichen Bioinformatikdatenbanken ist ein akutes Problem. Es treten semantische Konflikte auf, z.B. werden grundlegende Begriffe wie "Gen" in verschiedenen Datenbanken unterschiedlich ausgelegt. Frühe Systeme zur Datenintegration in der Bioinformatik (wie Bio-Kleisli und SRS) berücksichtigen semantische Konflikte nicht. Neuere Ansätze (wie Tambis) versuchen semantische Konflikte meist mit Ontologien zu lösen.

Das Problem, dass Daten unterschiedlicher (insbesondere auch sehr schlechter) Qualität integriert werden, ist bisher von keinem Integrationsansatz zufrieden stellend behandelt worden.

Literatur

  1. ACEDB Dokumentationssammlung: 
    http://genome.cornell.edu/acedocs/
  2. Backofen, R., Bry, F., Clote, P., Kriegel, H.-P., Seidl, T., Schulz, K.: Bioinformatik. Informatik Spektrum 22(9), 376-378 (1999). Auch im Informatik-Lexikon der GI: www.gi-ev.de/informatik/lexikon/inf-lex-bioinformatik.shtml
  3. Bancilhon, F., Delobel, C., Kanellakis, P.: Building an object-oriented database system: The story of O2. San Francisco: Morgan Kaufmann 1992
  4. Bry, F., Kröger, P.: A computational biology database digest: data, data analysis, and data management. Research Report PMS-FB-2002-8, Institut für Informatik, Universität München, http://www.pms.informatik.uni-muenchen.de/publikationen/ #PMS-FB-2002-8 wird erscheinen in: International Journal on Distributed and Parallel Data-bases, Kluwer Academic Press
  5. Bry, F., Kraus, M., Olteanu, D., Schaffert, S.: Semistrukturierte Daten. Informatik Spek-trum 24(4), 230-233 (2001). Auch im Informatik-Lexikon der GI: www.gi-ev.de/informatik/lexikon/inf-lex-semistrukturierte-daten.shtml
  6. Chen, I.-M., Markowitz, V.: An overview of the object protocol model (OPM) and the OPM data management tools. Information Systems 20(5), 393-418 (1995)
  7. Hammer, M., McLeod, D.: Database description with SDM: A semantic database model. ACM Transactions on Database Systems 6(3), 1981

Hinweis: Die URLs entsprechen dem Stand bei der Veröffentlichung des Artikels und werden nicht aktualisiert.

Autor und Copyright

François Bry · Peer Kröger 
Institut für Informatik, 
Ludwig-Maximilians-Universität München, 
http://www.pms.informatik.uni-muenchen.de

© 2002 Informatik Spektrum, Springer-Verlag Berlin Heidelberg