Zum Inhalt springen

6.8 Profil-Hidden-Markov-Modelle und biologische Anwendungen

6.8 Profil-Hidden-Markov-Modelle und biologische Anwendungen

Abschnitt betitelt „6.8 Profil-Hidden-Markov-Modelle und biologische Anwendungen“

In den vorherigen Abschnitten haben wir Hidden-Markov-Modelle als allgemeinen Rahmen zur Modellierung biologischer Sequenzen entwickelt. Wir haben ihre Struktur eingeführt, die fundamentalen rechnerischen Probleme diskutiert und gezeigt, wie sich Parameter aus Daten lernen lassen.

Nun gehen wir den letzten Schritt und verbinden diese Ideen mit einer der wichtigsten praktischen Anwendungen in der Bioinformatik:

der Modellierung von Sequenzfamilien und Motiven mithilfe von Profil-Hidden-Markov-Modellen.


6.8.1 Vom paarweisen Vergleich zu Familienmodellen

Abschnitt betitelt „6.8.1 Vom paarweisen Vergleich zu Familienmodellen“

In früheren Kapiteln haben wir Sequenzvergleich durch paarweises Alignment betrachtet. Dadurch konnten wir Ähnlichkeit zwischen zwei Sequenzen erkennen und mögliche evolutionäre Beziehungen ableiten.

Viele biologische Fragestellungen gehen jedoch über paarweise Vergleiche hinaus. Häufig fragen wir nicht, ob zwei Sequenzen ähnlich sind, sondern:

  • Gehört eine Sequenz zu einer bekannten Proteinfamilie?
  • Enthält sie ein bekanntes funktionelles Motiv?
  • Ist sie evolutiv mit einer Gruppe von Sequenzen verwandt, auch wenn die Ähnlichkeit schwach ist?

In solchen Fällen vergleichen wir nicht eine Sequenz mit einer anderen, sondern eine Sequenz mit einer Familie von Sequenzen.

Eine natürliche Repräsentation einer solchen Familie ist ein Multiple Sequence Alignment (MSA).


Ein multiples Sequenzalignment fasst konservierte und variable Regionen über eine Menge von Sequenzen hinweg zusammen. Es liefert wertvolle Einsichten in:

  • konservierte Reste
  • variable Positionen
  • Muster von Insertionen und Deletionen

Als rechnerisches Modell besitzt ein Alignment jedoch Grenzen:

  • es ist eine statische Darstellung
  • es definiert keinen expliziten generativen Prozess
  • es kann neuen Sequenzen nicht ohne Weiteres Wahrscheinlichkeiten zuweisen
  • es behandelt Insertionen und Deletionen nicht auf wirklich prinzipielle Weise

Um diese Grenzen zu überwinden, überführen wir das Alignment in ein probabilistisches Modell.


Ein Profil-Hidden-Markov-Modell ist ein HMM, das aus einem multiplen Sequenzalignment abgeleitet wird. Es erfasst sowohl die Zusammensetzung konservierter Regionen als auch die in dem Alignment beobachtete Variabilität.

Die Konstruktion erfolgt in mehreren Schritten.

Nicht alle Spalten eines Alignments sind gleichermaßen informativ. Manche enthalten viele Lücken und tragen nur wenig zur Definition des Motivs bei.

Ein gebräuchlicher Ansatz besteht darin, einen Schwellenwert festzulegen:

  • Spalten mit zu vielen Lücken werden entfernt
  • die verbleibenden Spalten definieren die Kernpositionen des Modells

Diese Kernpositionen entsprechen Match-Zuständen im HMM.

Jede konservierte Spalte im Alignment wird zu einem Match-Zustand MiM_i.

Für jeden Match-Zustand schätzen wir Emissionswahrscheinlichkeiten, indem wir zählen, wie oft jedes Symbol in dieser Spalte auftritt, und die Zählungen normieren.

Dieser Schritt ist eng mit der Konstruktion von Position Probability Matrices verwandt, wird nun jedoch in ein umfassenderes probabilistisches Modell eingebettet.

Biologische Sequenzen enthalten häufig Insertionen relativ zum Konsensusmotiv. Um dies zu modellieren, führen wir Insertionszustände ein.

Insertionszustände erlauben:

  • die Emission von Symbolen, die nicht zu Kernpositionen aligniert sind
  • Insertionen variabler Länge zwischen Match-Zuständen

Ihre Emissionswahrscheinlichkeiten spiegeln typischerweise eine allgemeinere Sequenzzusammensetzung wider.

Deletionen werden anders behandelt. Deletionszustände sind stille Zustände:

  • sie emittieren kein Symbol
  • sie erlauben dem Modell, Match-Zustände zu überspringen

Dadurch kann das Modell Sequenzen repräsentieren, in denen bestimmte konservierte Positionen fehlen.

Schließlich definieren wir Übergänge zwischen den Zuständen:

  • Match → Match (Fortsetzung des Motivs)
  • Match → Insertion (Einführung von Variabilität)
  • Insertion → Insertion (Verlängerung einer Insertion)
  • Insertion → Match (Rückkehr in das Motiv)
  • Match → Deletion (Überspringen einer Position)
  • Deletion → Match (Wiederaufnahme des Motivs)

Diese Übergänge kodieren die erlaubten strukturellen Variationen der Sequenz.


6.8.4 Interpretation: Evolutionäre Prozesse modellieren

Abschnitt betitelt „6.8.4 Interpretation: Evolutionäre Prozesse modellieren“

Ein zentraler konzeptioneller Vorteil von Profil-HMMs ist, dass sie nicht bloß ein Alignment beschreiben. Stattdessen modellieren sie die evolutionären Prozesse, die Sequenzvariation erzeugen.

In dieser Sichtweise gilt:

  • Match-Zustände repräsentieren konservierte Positionen
  • Insertionszustände repräsentieren Insertionsereignisse
  • Deletionszustände repräsentieren Deletionsereignisse

Ein Profil-HMM lässt sich daher als probabilistisches Modell dafür verstehen, wie sich eine Sequenzfamilie im Laufe der Evolution verändert.

Dies erklärt auch, warum Profil-HMMs beim Nachweis entfernter Homologe häufig sensitiver sind als reine alignmentbasierte Verfahren.


Es ist aufschlussreich, Profil-HMMs mit klassischen Alignment-Verfahren wie Needleman–Wunsch oder Smith–Waterman zu vergleichen.

AspektAlignment-VerfahrenProfil-HMMs
Repräsentationpaarweises oder multiples Alignmentprobabilistisches Modell
Insertionen/Deletionenüber Bewertungsschema behandeltexplizit über Zustände modelliert
Scoringheuristisch oder Substitutionsmatrizenprobabilistische Likelihood
Sensitivitätbegrenzt bei entfernten Homologenhöhere Sensitivität

Der entscheidende Unterschied besteht darin, dass Profil-HMMs

  • positionsspezifische Information,
  • Übergangsstruktur
  • und probabilistische Bewertung

in einem einheitlichen Rahmen zusammenführen.


Profil-HMMs werden in der Bioinformatik breit eingesetzt, insbesondere in der großskaligen Sequenzanalyse.

Eine der wichtigsten Anwendungen ist die Zuordnung von Proteinen zu Familien.

Die Schwierigkeit besteht darin, dass:

  • bekannte Familienmitglieder wenige sein können
  • evolutionäre Divergenz groß sein kann
  • paarweise Ähnlichkeit schwach sein kann

Profil-HMMs begegnen diesem Problem, indem sie Information über alle bekannten Familienmitglieder hinweg aggregieren.

Selbst wenn eine neue Sequenz nur schwache Ähnlichkeit zu einem einzelnen Mitglied der Familie besitzt, kann sie dennoch gut zum Gesamtprofil passen.

Hidden-Markov-Modelle können auch zu komplexeren Modellen für Genvorhersage erweitert werden.

In diesem Rahmen können Zustände etwa repräsentieren:

  • Exons
  • Introns
  • intergene Regionen
  • Start- und Stopcodons

Durch die Modellierung von Übergängen zwischen diesen Zuständen können HMMs Genstrukturen in genomischen Sequenzen identifizieren.

Eine weitere Anwendung ist die Vorhersage von Proteinsekundärstruktur.

Hier entsprechen die verborgenen Zustände Strukturelementen wie:

  • α-Helices
  • β-Faltblätter
  • Schleifen

Die Emissionswahrscheinlichkeiten spiegeln dann wider, welche Aminosäuren bevorzugt in welchem strukturellen Kontext auftreten.


Profil-HMMs führen alle zentralen Ideen dieses Kapitels zusammen:

  • probabilistische Modellierung biologischer Sequenzen
  • verborgene Zustände als Repräsentation biologischen Kontexts
  • dynamische Programmierungsalgorithmen für Inferenz
  • Parameterschätzung aus Daten

Sie zeigen, wie sich abstrakte Modelle in leistungsfähige Werkzeuge für reale biologische Probleme übersetzen lassen.


Hidden-Markov-Modelle liefern einen flexiblen Rahmen zur Modellierung biologischer Sequenzen. Profil-HMMs erweitern diesen Rahmen auf Sequenzfamilien, indem sie

  • konservierte Positionen
  • Insertionen und Deletionen
  • und evolutionäre Variation

integrieren.

Dadurch bilden sie die Grundlage vieler moderner Werkzeuge zur Sequenzanalyse und Annotation.


  1. Warum reichen Multiple Sequence Alignments als probabilistische Modelle nicht aus?
  2. Welche Rollen spielen Match-, Insertions- und Deletionszustände in einem Profil-HMM?
  3. Wie modellieren Profil-HMMs evolutionäre Prozesse?
  4. Warum sind Profil-HMMs sensitiver als paarweise Alignment-Verfahren?
  5. Für welche Arten biologischer Probleme sind Profil-HMMs besonders nützlich?

Damit haben wir die Entwicklung von Hidden-Markov-Modellen als Rahmen für Sequenzmodellierung abgeschlossen.

Im nächsten Kapitel werden wir diese Ideen weiter ausbauen und untersuchen, wie probabilistische Modelle eingesetzt werden können, um evolutionäre Beziehungen zwischen Sequenzen zu rekonstruieren.