6.2 Die Markov-Eigenschaft und Sequenzabhängigkeiten
6.2 Die Markov-Eigenschaft und Sequenzabhängigkeiten
Abschnitt betitelt „6.2 Die Markov-Eigenschaft und Sequenzabhängigkeiten“Im vorherigen Abschnitt haben wir zwei grundlegende Grenzen positionsspezifischer Modelle identifiziert: die Annahme der Unabhängigkeit zwischen Positionen und die Unfähigkeit, strukturelle Variation wie Insertionen und Deletionen zu behandeln. Beide Einschränkungen haben denselben tieferen Ursprung: Das Modell beschreibt nicht, wie Sequenzen entlang ihrer Länge erzeugt werden. Es behandelt jede Position isoliert.
Um dies zu überwinden, wenden wir uns nun Modellen zu, die Abhängigkeiten zwischen benachbarten Positionen explizit erfassen. Die zentrale Idee besteht darin, unserem probabilistischen Rahmen eine Vorstellung von sequentieller Struktur hinzuzufügen.
Von vollständiger Abhängigkeit zu handhabbaren Modellen
Abschnitt betitelt „Von vollständiger Abhängigkeit zu handhabbaren Modellen“Ein natürlicher Ausgangspunkt ist der allgemeinste Fall. Angenommen, wir möchten eine biologische Sequenz modellieren. Im vollständig allgemeinen Fall könnte die Wahrscheinlichkeit, an Position ein bestimmtes Symbol zu beobachten, von der gesamten vorhergehenden Sequenz abhängen:
Aus biologischer Sicht ist dies keineswegs unplausibel. In Proteinen können Wechselwirkungen zwischen Aminosäuren infolge der Faltung große Sequenzdistanzen überbrücken. Auch regulatorische Elemente in DNA können komplexe Abhängigkeiten zeigen.
Ein solches vollständiges Modell ist jedoch rechnerisch nicht handhabbar. Die Zahl möglicher Abhängigkeiten wächst exponentiell mit der Sequenzlänge. Sowohl die Schätzung als auch die Auswertung eines solchen Modells würden eine unrealistische Menge an Daten und Rechenaufwand erfordern.
Deshalb führen wir eine vereinfachende Annahme ein.
Die Markov-Annahme
Abschnitt betitelt „Die Markov-Annahme“Die zentrale Idee ist, dass sich die Abhängigkeit einer Position von ihrer gesamten Vorgeschichte dadurch annähern lässt, dass nur ein begrenzter Kontext berücksichtigt wird. Die einfachste und am weitesten verbreitete Variante ist die Markov-Annahme erster Ordnung:
In Worten:
Die Wahrscheinlichkeit, das nächste Symbol zu beobachten, hängt nur vom unmittelbar vorhergehenden Symbol ab.
Diese Annahme reduziert die Komplexität des Modells drastisch und erlaubt es zugleich, lokale Abhängigkeiten zwischen Sequenzpositionen zu erfassen.
Prozesse mit dieser Eigenschaft nennt man Markov-Ketten.
Interpretation in biologischen Sequenzen
Abschnitt betitelt „Interpretation in biologischen Sequenzen“Die Markov-Annahme lässt sich als Kompromiss zwischen biologischem Realismus und rechnerischer Handhabbarkeit verstehen.
- Sie anerkennt, dass Sequenzpositionen nicht unabhängig sind.
- Sie beschränkt diese Abhängigkeiten auf eine lokale Nachbarschaft.
Beim Durchlaufen einer Sequenz ist dies oft sinnvoll. Benachbarte Nukleotide oder Aminosäuren zeigen aufgrund biochemischer Randbedingungen, Codonstruktur oder evolutionärer Prozesse häufig Korrelationen.
Gleichzeitig bleibt das Modell rechnerisch überschaubar. Anstatt alle denkbaren Vorgeschichten zu modellieren, müssen wir nur noch Übergänge zwischen benachbarten Symbolen berücksichtigen.
Ein einfaches Beispiel
Abschnitt betitelt „Ein einfaches Beispiel“Betrachten wir eine DNA-Sequenz und ein einfaches Markov-Modell erster Ordnung, das durch Übergangswahrscheinlichkeiten zwischen Nukleotiden definiert ist. Zum Beispiel:
- , und so weiter
Unter einem solchen Modell lässt sich die Wahrscheinlichkeit einer Sequenz schreiben als:
Dies erinnert an die Likelihood-Berechnung, die wir bereits kennengelernt haben, allerdings mit einem wesentlichen Unterschied:
Die Wahrscheinlichkeit an jeder Position hängt nun vom vorhergehenden Symbol ab und nicht nur von der absoluten Position in der Sequenz.
Vergleich mit positionsspezifischen Modellen
Abschnitt betitelt „Vergleich mit positionsspezifischen Modellen“Es ist aufschlussreich, diese Formulierung mit der zuvor eingeführten Position Probability Matrix zu vergleichen.
- In einer PPM besitzt jede Position ihre eigene Verteilung, unabhängig von allen anderen Positionen.
- In einem Markov-Modell hängt die Verteilung an einer Position vom vorhergehenden Symbol ab, aber nicht von der absoluten Position in der Sequenz.
Daraus ergeben sich unterschiedliche Modellierungsmöglichkeiten:
| Modell | Erfasst Positionsspezifität | Erfasst Abhängigkeiten | Erlaubt variable Länge |
|---|---|---|---|
| PPM | Ja | Nein | Nein |
| Markov-Kette | Nein | Ja (lokal) | Ja |
Jedes Modell erfasst also einen anderen Aspekt biologischer Sequenzen, doch keines von beiden genügt allein für realistische Motivmodellierung.
Grenzen beobachtbarer Markov-Modelle
Abschnitt betitelt „Grenzen beobachtbarer Markov-Modelle“Obwohl Markov-Ketten Abhängigkeiten einführen, bleiben sie in einer wichtigen Hinsicht unzureichend. Die Zustände des Modells sind direkt mit den beobachteten Symbolen verknüpft. Das Modell beschreibt also Übergänge zwischen Nukleotiden oder Aminosäuren selbst.
Daraus ergibt sich eine wesentliche Einschränkung:
- Unterschiedliche Kontexte, die dasselbe beobachtete Symbol erzeugen, lassen sich nicht unterscheiden.
- Latente biologische Prozesse wie „Promotorregion“ versus „Hintergrundsequenz“ können nicht explizit dargestellt werden.
Mit anderen Worten: Dem Modell fehlt eine explizite Darstellung verborgener Struktur.
Hin zu verborgenen Zuständen
Abschnitt betitelt „Hin zu verborgenen Zuständen“Um diese Einschränkung zu überwinden, fügen wir dem Modell eine zusätzliche Ebene hinzu.
Anstatt anzunehmen, dass die beobachteten Symbole selbst eine Markov-Kette bilden, nehmen wir an:
- Es existiert eine zugrunde liegende Folge verborgener Zustände
- diese Zustände folgen einem Markov-Prozess
- jeder Zustand emittiert beobachtbare Symbole gemäß einer Wahrscheinlichkeitsverteilung
Damit erhalten wir ein zweistufiges Modell:
- Eine verborgene Zustandssequenz, die sich gemäß der Markov-Eigenschaft entwickelt
- Eine beobachtete Sequenz, die von diesen Zuständen erzeugt wird
Diese Trennung erlaubt es uns, Situationen zu modellieren, in denen dasselbe beobachtete Symbol aus verschiedenen biologischen Kontexten hervorgehen kann.
Konzeptionelle Brücke zu Hidden-Markov-Modellen
Abschnitt betitelt „Konzeptionelle Brücke zu Hidden-Markov-Modellen“Damit sind wir in der Lage, die bisher entwickelten Ideen zusammenzuführen:
- Aus Motivmodellen behalten wir die Idee der probabilistischen Emission von Symbolen
- aus Markov-Ketten übernehmen wir die Idee der Zustandsübergänge mit lokalen Abhängigkeiten
Indem wir verborgene Zustände einführen, die die Emission beobachteter Symbole steuern, erhalten wir ein Modell, das:
- Abhängigkeiten zwischen Positionen erfasst
- zwischen unterschiedlichen biologischen Regimen unterscheidet
- Sequenzen als durch Wechsel zwischen diesen Regimen erzeugt beschreibt
Genau dies ist die Grundidee Hidden-Markov-Modelle.
Im nächsten Abschnitt formalisieren wir dieses Modell und beschreiben seine Komponenten im Detail.
Fragen zur Selbstkontrolle
Abschnitt betitelt „Fragen zur Selbstkontrolle“- Warum ist es nicht praktikabel, vollständige Abhängigkeiten zwischen allen Positionen einer Sequenz zu modellieren?
- Was ist die Markov-Annahme, und wie vereinfacht sie die Sequenzmodellierung?
- Worin unterscheidet sich eine Markov-Kette von einer Position Probability Matrix?
- Warum reichen beobachtbare Markov-Modelle für die Modellierung biologischer Sequenzstruktur nicht aus?
- Welcher konzeptionelle Schritt führt von Markov-Ketten zu Hidden-Markov-Modellen?