6.8 Profil-Hidden-Markov-Modelle und biologische Anwendungen
6.8 Profil-Hidden-Markov-Modelle und biologische Anwendungen
Abschnitt betitelt „6.8 Profil-Hidden-Markov-Modelle und biologische Anwendungen“In den vorherigen Abschnitten haben wir Hidden-Markov-Modelle als allgemeinen Rahmen zur Modellierung biologischer Sequenzen entwickelt. Wir haben ihre Struktur eingeführt, die fundamentalen rechnerischen Probleme diskutiert und gezeigt, wie sich Parameter aus Daten lernen lassen.
Nun gehen wir den letzten Schritt und verbinden diese Ideen mit einer der wichtigsten praktischen Anwendungen in der Bioinformatik:
der Modellierung von Sequenzfamilien und Motiven mithilfe von Profil-Hidden-Markov-Modellen.
6.8.1 Vom paarweisen Vergleich zu Familienmodellen
Abschnitt betitelt „6.8.1 Vom paarweisen Vergleich zu Familienmodellen“In früheren Kapiteln haben wir Sequenzvergleich durch paarweises Alignment betrachtet. Dadurch konnten wir Ähnlichkeit zwischen zwei Sequenzen erkennen und mögliche evolutionäre Beziehungen ableiten.
Viele biologische Fragestellungen gehen jedoch über paarweise Vergleiche hinaus. Häufig fragen wir nicht, ob zwei Sequenzen ähnlich sind, sondern:
- Gehört eine Sequenz zu einer bekannten Proteinfamilie?
- Enthält sie ein bekanntes funktionelles Motiv?
- Ist sie evolutiv mit einer Gruppe von Sequenzen verwandt, auch wenn die Ähnlichkeit schwach ist?
In solchen Fällen vergleichen wir nicht eine Sequenz mit einer anderen, sondern eine Sequenz mit einer Familie von Sequenzen.
Eine natürliche Repräsentation einer solchen Familie ist ein Multiple Sequence Alignment (MSA).
6.8.2 Grenzen multipler Sequenzalignments
Abschnitt betitelt „6.8.2 Grenzen multipler Sequenzalignments“Ein multiples Sequenzalignment fasst konservierte und variable Regionen über eine Menge von Sequenzen hinweg zusammen. Es liefert wertvolle Einsichten in:
- konservierte Reste
- variable Positionen
- Muster von Insertionen und Deletionen
Als rechnerisches Modell besitzt ein Alignment jedoch Grenzen:
- es ist eine statische Darstellung
- es definiert keinen expliziten generativen Prozess
- es kann neuen Sequenzen nicht ohne Weiteres Wahrscheinlichkeiten zuweisen
- es behandelt Insertionen und Deletionen nicht auf wirklich prinzipielle Weise
Um diese Grenzen zu überwinden, überführen wir das Alignment in ein probabilistisches Modell.
6.8.3 Konstruktion eines Profil-HMM
Abschnitt betitelt „6.8.3 Konstruktion eines Profil-HMM“Ein Profil-Hidden-Markov-Modell ist ein HMM, das aus einem multiplen Sequenzalignment abgeleitet wird. Es erfasst sowohl die Zusammensetzung konservierter Regionen als auch die in dem Alignment beobachtete Variabilität.
Die Konstruktion erfolgt in mehreren Schritten.
Schritt 1: Informative Spalten identifizieren
Abschnitt betitelt „Schritt 1: Informative Spalten identifizieren“Nicht alle Spalten eines Alignments sind gleichermaßen informativ. Manche enthalten viele Lücken und tragen nur wenig zur Definition des Motivs bei.
Ein gebräuchlicher Ansatz besteht darin, einen Schwellenwert festzulegen:
- Spalten mit zu vielen Lücken werden entfernt
- die verbleibenden Spalten definieren die Kernpositionen des Modells
Diese Kernpositionen entsprechen Match-Zuständen im HMM.
Schritt 2: Match-Zustände definieren
Abschnitt betitelt „Schritt 2: Match-Zustände definieren“Jede konservierte Spalte im Alignment wird zu einem Match-Zustand .
Für jeden Match-Zustand schätzen wir Emissionswahrscheinlichkeiten, indem wir zählen, wie oft jedes Symbol in dieser Spalte auftritt, und die Zählungen normieren.
Dieser Schritt ist eng mit der Konstruktion von Position Probability Matrices verwandt, wird nun jedoch in ein umfassenderes probabilistisches Modell eingebettet.
Schritt 3: Insertionszustände einführen
Abschnitt betitelt „Schritt 3: Insertionszustände einführen“Biologische Sequenzen enthalten häufig Insertionen relativ zum Konsensusmotiv. Um dies zu modellieren, führen wir Insertionszustände ein.
Insertionszustände erlauben:
- die Emission von Symbolen, die nicht zu Kernpositionen aligniert sind
- Insertionen variabler Länge zwischen Match-Zuständen
Ihre Emissionswahrscheinlichkeiten spiegeln typischerweise eine allgemeinere Sequenzzusammensetzung wider.
Schritt 4: Deletionszustände einführen
Abschnitt betitelt „Schritt 4: Deletionszustände einführen“Deletionen werden anders behandelt. Deletionszustände sind stille Zustände:
- sie emittieren kein Symbol
- sie erlauben dem Modell, Match-Zustände zu überspringen
Dadurch kann das Modell Sequenzen repräsentieren, in denen bestimmte konservierte Positionen fehlen.
Schritt 5: Übergänge definieren
Abschnitt betitelt „Schritt 5: Übergänge definieren“Schließlich definieren wir Übergänge zwischen den Zuständen:
- Match → Match (Fortsetzung des Motivs)
- Match → Insertion (Einführung von Variabilität)
- Insertion → Insertion (Verlängerung einer Insertion)
- Insertion → Match (Rückkehr in das Motiv)
- Match → Deletion (Überspringen einer Position)
- Deletion → Match (Wiederaufnahme des Motivs)
Diese Übergänge kodieren die erlaubten strukturellen Variationen der Sequenz.
6.8.4 Interpretation: Evolutionäre Prozesse modellieren
Abschnitt betitelt „6.8.4 Interpretation: Evolutionäre Prozesse modellieren“Ein zentraler konzeptioneller Vorteil von Profil-HMMs ist, dass sie nicht bloß ein Alignment beschreiben. Stattdessen modellieren sie die evolutionären Prozesse, die Sequenzvariation erzeugen.
In dieser Sichtweise gilt:
- Match-Zustände repräsentieren konservierte Positionen
- Insertionszustände repräsentieren Insertionsereignisse
- Deletionszustände repräsentieren Deletionsereignisse
Ein Profil-HMM lässt sich daher als probabilistisches Modell dafür verstehen, wie sich eine Sequenzfamilie im Laufe der Evolution verändert.
Dies erklärt auch, warum Profil-HMMs beim Nachweis entfernter Homologe häufig sensitiver sind als reine alignmentbasierte Verfahren.
6.8.5 Vergleich mit Alignment-Methoden
Abschnitt betitelt „6.8.5 Vergleich mit Alignment-Methoden“Es ist aufschlussreich, Profil-HMMs mit klassischen Alignment-Verfahren wie Needleman–Wunsch oder Smith–Waterman zu vergleichen.
| Aspekt | Alignment-Verfahren | Profil-HMMs |
|---|---|---|
| Repräsentation | paarweises oder multiples Alignment | probabilistisches Modell |
| Insertionen/Deletionen | über Bewertungsschema behandelt | explizit über Zustände modelliert |
| Scoring | heuristisch oder Substitutionsmatrizen | probabilistische Likelihood |
| Sensitivität | begrenzt bei entfernten Homologen | höhere Sensitivität |
Der entscheidende Unterschied besteht darin, dass Profil-HMMs
- positionsspezifische Information,
- Übergangsstruktur
- und probabilistische Bewertung
in einem einheitlichen Rahmen zusammenführen.
6.8.6 Anwendungen in der Bioinformatik
Abschnitt betitelt „6.8.6 Anwendungen in der Bioinformatik“Profil-HMMs werden in der Bioinformatik breit eingesetzt, insbesondere in der großskaligen Sequenzanalyse.
Klassifikation von Proteinfamilien
Abschnitt betitelt „Klassifikation von Proteinfamilien“Eine der wichtigsten Anwendungen ist die Zuordnung von Proteinen zu Familien.
Die Schwierigkeit besteht darin, dass:
- bekannte Familienmitglieder wenige sein können
- evolutionäre Divergenz groß sein kann
- paarweise Ähnlichkeit schwach sein kann
Profil-HMMs begegnen diesem Problem, indem sie Information über alle bekannten Familienmitglieder hinweg aggregieren.
Selbst wenn eine neue Sequenz nur schwache Ähnlichkeit zu einem einzelnen Mitglied der Familie besitzt, kann sie dennoch gut zum Gesamtprofil passen.
Genvorhersage
Abschnitt betitelt „Genvorhersage“Hidden-Markov-Modelle können auch zu komplexeren Modellen für Genvorhersage erweitert werden.
In diesem Rahmen können Zustände etwa repräsentieren:
- Exons
- Introns
- intergene Regionen
- Start- und Stopcodons
Durch die Modellierung von Übergängen zwischen diesen Zuständen können HMMs Genstrukturen in genomischen Sequenzen identifizieren.
Vorhersage von Proteinstruktur
Abschnitt betitelt „Vorhersage von Proteinstruktur“Eine weitere Anwendung ist die Vorhersage von Proteinsekundärstruktur.
Hier entsprechen die verborgenen Zustände Strukturelementen wie:
- α-Helices
- β-Faltblätter
- Schleifen
Die Emissionswahrscheinlichkeiten spiegeln dann wider, welche Aminosäuren bevorzugt in welchem strukturellen Kontext auftreten.
6.8.7 Konzeptionelle Integration
Abschnitt betitelt „6.8.7 Konzeptionelle Integration“Profil-HMMs führen alle zentralen Ideen dieses Kapitels zusammen:
- probabilistische Modellierung biologischer Sequenzen
- verborgene Zustände als Repräsentation biologischen Kontexts
- dynamische Programmierungsalgorithmen für Inferenz
- Parameterschätzung aus Daten
Sie zeigen, wie sich abstrakte Modelle in leistungsfähige Werkzeuge für reale biologische Probleme übersetzen lassen.
6.8.8 Konzeptionelle Zusammenfassung
Abschnitt betitelt „6.8.8 Konzeptionelle Zusammenfassung“Hidden-Markov-Modelle liefern einen flexiblen Rahmen zur Modellierung biologischer Sequenzen. Profil-HMMs erweitern diesen Rahmen auf Sequenzfamilien, indem sie
- konservierte Positionen
- Insertionen und Deletionen
- und evolutionäre Variation
integrieren.
Dadurch bilden sie die Grundlage vieler moderner Werkzeuge zur Sequenzanalyse und Annotation.
Fragen zur Selbstkontrolle
Abschnitt betitelt „Fragen zur Selbstkontrolle“- Warum reichen Multiple Sequence Alignments als probabilistische Modelle nicht aus?
- Welche Rollen spielen Match-, Insertions- und Deletionszustände in einem Profil-HMM?
- Wie modellieren Profil-HMMs evolutionäre Prozesse?
- Warum sind Profil-HMMs sensitiver als paarweise Alignment-Verfahren?
- Für welche Arten biologischer Probleme sind Profil-HMMs besonders nützlich?
Kapitelübergang
Abschnitt betitelt „Kapitelübergang“Damit haben wir die Entwicklung von Hidden-Markov-Modellen als Rahmen für Sequenzmodellierung abgeschlossen.
Im nächsten Kapitel werden wir diese Ideen weiter ausbauen und untersuchen, wie probabilistische Modelle eingesetzt werden können, um evolutionäre Beziehungen zwischen Sequenzen zu rekonstruieren.