Erweiterung zu 6.1 — Quantitative Grenzen positionsspezifischer Modelle

Wenn Unabhängigkeit künstliche Muster erzeugt

Eine zentrale Annahme der Position Probability Matrix lautet, dass Positionen statistisch unabhängig sind. Diese Annahme vereinfacht die Berechnung, kann aber zu systematisch falschen Schlussfolgerungen führen.

Um dies zu sehen, betrachten wir ein vereinfachtes Motiv über Aminosäuren mit starker Konservierung an bestimmten Positionen. Nehmen wir an, dass in einem Alignment an zwei Positionen immer die folgenden Kombinationen beobachtet werden:

$R$ wird immer von $D$ gefolgt
$Q$ wird immer von $H$ gefolgt

Die beobachteten Paare sind also:

(R, D), \quad (Q, H)

Wichtig ist, dass die Kombinationen

(R, H), \quad (Q, D)

in den Daten niemals vorkommen.

Wie repräsentiert nun eine Position Probability Matrix diese Situation? Sie erfasst nur die marginalen Häufigkeiten an jeder Position:

An Position 1:
- $P(R) = 0.6$ , $P(Q) = 0.4$
An Position 2:
- $P(D) = 0.6$ , $P(H) = 0.4$

Unter der Unabhängigkeitsannahme weist das Modell den Paaren Wahrscheinlichkeiten per Multiplikation zu:

P(R, H) = P(R) \cdot P(H) = 0.6 \cdot 0.4 = 0.24

P(Q, D) = P(Q) \cdot P(D) = 0.4 \cdot 0.6 = 0.24

Beide Kombinationen treten in Wirklichkeit jedoch nie auf.

Gleichzeitig erhalten die tatsächlich gültigen Kombinationen:

P(R, D) = 0.6 \cdot 0.6 = 0.36, \quad P(Q, H) = 0.4 \cdot 0.4 = 0.16

Damit entsteht ein grundlegender Widerspruch:

Das Modell weist biologisch unmöglichen Kombinationen eine beträchtliche Wahrscheinlichkeitsmasse zu.

Dies ist nicht bloß eine biologische Unannehmlichkeit, sondern eine strukturelle Grenze des Modells: Indem Abhängigkeiten ignoriert werden, erzeugt es scheinbare Sequenzmuster, die in der Realität gar nicht existieren und nachgelagerte Analysen in die Irre führen können.

Insertionen und der Zusammenbruch der Likelihood

Eine zweite Einschränkung wird sichtbar, wenn man Insertionen betrachtet.

Nehmen wir an, wir hätten ein Motivmodell der Länge fünf und eine Sequenz, die gut zu diesem Motiv passt. Wie zuvor gezeigt, kann eine solche Sequenz unter dem Modell eine relativ hohe Likelihood erreichen.

Betrachten wir nun eine leicht veränderte Sequenz, in die ein zusätzliches Symbol eingefügt wurde:

\text{Original: } S = \text{WEIRD}

\text{Modifiziert: } S' = \text{WETIRD}

Auch wenn das eingefügte Symbol biologisch plausibel ist, besitzt das Modell keinen Mechanismus, um es sinnvoll zu berücksichtigen. Stattdessen wird die Sequenz gegen fest vorgegebene Positionen ausgewertet.

Dies führt zu einem drastischen Effekt. Die Likelihood wird zu:

P(S' \mid M) = P(W) \cdot P(E) \cdot P(T) \cdot P(I) \cdot P(R) \cdot P(D)

Wenn das eingefügte Symbol an der ihm zugewiesenen Position nur eine geringe Wahrscheinlichkeit besitzt, bestraft dies effektiv die gesamte Sequenz. Da Wahrscheinlichkeiten multipliziert werden, kann schon ein einziger kleiner Faktor das Ergebnis dominieren.

Wenn zum Beispiel eine Position eine Wahrscheinlichkeit von $0.01$ beiträgt, kann die Gesamt-Likelihood um mehrere Größenordnungen absinken:

P(S' \mid M) \ll P(S \mid M)

Dadurch entsteht ein kritisches Problem:

Eine biologisch gültige Motivinstanz mit einer kleinen Insertion kann deutlich unwahrscheinlicher erscheinen als eine nicht verwandte Sequenz ohne Insertion.

Aus Sicht der Modellierung ist dies unbefriedigend. Insertionen und Deletionen sind in biologischen Sequenzen häufig, und ein realistisches Modell muss damit umgehen können.

Interpretation: Warum diese Fehler wichtig sind

Diese beiden Beispiele machen komplementäre Schwächen sichtbar:

Unabhängigkeitsannahme → erzeugt Kombinationen, die biologisch nicht vorkommen
Annahme fester Länge → bestraft gültige Sequenzen mit struktureller Variation

Gemeinsam zeigen sie ein tieferes Problem:

Positionsspezifische Modelle beschreiben nicht, wie Sequenzen erzeugt werden. Sie beschreiben nur, wie einzelne Positionen aussehen.

Um diese Einschränkungen zu überwinden, benötigen wir ein Modell, das:

Abhängigkeiten über Positionen hinweg erfasst
flexible Sequenzstruktur erlaubt
explizit darstellt, wie sich Sequenzen entlang ihrer Länge entwickeln

Genau dies motiviert den Übergang zu Hidden-Markov-Modellen, die wir in den folgenden Abschnitten entwickeln.

(Optional) Fragen zur Selbstkontrolle

Warum führt die Unabhängigkeitsannahme dazu, dass nicht existente Sequenzkombinationen eine von null verschiedene Wahrscheinlichkeit erhalten?
Wie beeinflusst schon eine einzelne Position mit geringer Wahrscheinlichkeit die Gesamt-Likelihood einer Sequenz?
Warum sind Insertionen für Modelle fester Länge besonders problematisch?
In welchem Sinn zeigen diese Fehler, dass das Modell nicht wirklich generativ ist?