7.4 Distanzbasierte phylogenetische Rekonstruktion
7.4 Distanzbasierte phylogenetische Rekonstruktion
Abschnitt betitelt „7.4 Distanzbasierte phylogenetische Rekonstruktion“Lernziele
Abschnitt betitelt „Lernziele“Nach diesem Abschnitt sollten Sie in der Lage sein:
- zu erklären, warum Sequenzdaten in paarweise Distanzen überführt werden
- zu verstehen, wie eine Distanzmatrix evolutionäre Beziehungen zusammenfasst
- zwischen beobachteten Distanzen und baumbasierten Distanzen zu unterscheiden
- zu beschreiben, wie ein phylogenetischer Baum an Distanzdaten angepasst wird
- distanzbasierte Rekonstruktion als geometrisches Approximationsproblem zu interpretieren
Von Charakteren zu quantitativen Zusammenfassungen
Abschnitt betitelt „Von Charakteren zu quantitativen Zusammenfassungen“Im vorherigen Abschnitt haben wir Sequenzalignments als Sammlungen von Charakteren interpretiert, die jeweils Informationen über evolutionäre Variation enthalten. Diese Darstellung ist konzeptionell reichhaltig, bringt jedoch auch eine gewisse Komplexität mit sich. Jedes Alignment liefert viele einzelne Signale, die zu einer konsistenten Gesamtstruktur zusammengeführt werden müssen.
Distanzbasierte Methoden begegnen dieser Schwierigkeit durch eine gezielte Vereinfachung. Anstatt alle Charaktere gleichzeitig zu berücksichtigen, werden die Informationen des Alignments in paarweise Vergleiche überführt.
Für jedes Sequenzpaar wird eine Zahl berechnet, die angibt, wie stark sich die beiden Sequenzen unterscheiden. Diese Zahl wird als Maß für die evolutionäre Divergenz interpretiert. Auf diese Weise wird die komplexe Struktur eines Alignments auf eine kompakte numerische Darstellung reduziert.
Die Distanzmatrix
Abschnitt betitelt „Die Distanzmatrix“Das Ergebnis dieses Schrittes ist eine sogenannte Distanzmatrix. Für ( n ) Sequenzen enthält sie Einträge ( D_{ij} ), die jeweils die Distanz zwischen den Sequenzen ( i ) und ( j ) angeben.
Diese Matrix ist symmetrisch und hat auf der Diagonalen nur Nullen. Wichtiger ist jedoch ihre inhaltliche Bedeutung: Sie fasst alle paarweisen Beziehungen in kompakter Form zusammen. Anstelle einzelner Charaktere arbeiten wir nun mit einer Struktur, die sich geometrisch interpretieren lässt.
Damit verschiebt sich auch die zentrale Fragestellung. Anstatt zu überlegen, wie einzelne Charaktere entstanden sind, fragen wir nun:
Lassen sich diese Distanzen konsistent durch einen Baum darstellen?
Beobachtete Distanzen und ihre Grenzen
Abschnitt betitelt „Beobachtete Distanzen und ihre Grenzen“Die Werte ( D_{ij} ) werden direkt aus dem Alignment abgeleitet. In der einfachsten Form entsprechen sie dem Anteil der Positionen, an denen sich zwei Sequenzen unterscheiden.
Dieses Maß ist intuitiv, aber nicht direkt identisch mit der tatsächlichen evolutionären Distanz. Wie wir im nächsten Abschnitt sehen werden, können mehrere Mutationen an derselben Position auftreten und dabei frühere Veränderungen überdecken.
Die beobachteten Distanzen sind daher nur Näherungen. Sie liefern einen ersten Zugang zur Struktur der Daten, müssen jedoch vorsichtig interpretiert werden.
Vom Distanzraum zum Baum
Abschnitt betitelt „Vom Distanzraum zum Baum“Ausgehend von einer Distanzmatrix besteht das Ziel darin, einen phylogenetischen Baum zu konstruieren, der diese Distanzen möglichst gut widerspiegelt.
Dabei unterscheiden wir zwei Größen. Die beobachtete Distanz ( D_{ij} ) stammt aus den Daten. Die baumbasierte Distanz ( d_{ij} ) ergibt sich aus einem Kandidatenbaum und ist definiert als die Summe der Astlängen entlang des Pfades, der die Taxa ( i ) und ( j ) verbindet.
Ein phylogenetischer Baum liefert somit ein vollständiges System von Distanzen zwischen allen Paaren von Taxa. Das Rekonstruktionsproblem lässt sich daher so formulieren:
Finde einen Baum, dessen interne Distanzen die beobachteten Distanzen möglichst gut approximieren
Anpassung eines Baums an Distanzdaten
Abschnitt betitelt „Anpassung eines Baums an Distanzdaten“In realen Daten ist es selten möglich, alle beobachteten Distanzen exakt durch einen Baum darzustellen. Messfehler, Modellvereinfachungen und die inhärente Komplexität evolutionärer Prozesse führen dazu, dass die Distanzen nicht vollständig konsistent sind.
Daher wird das Problem als Optimierungsaufgabe formuliert. Wir suchen einen Baum, der die Abweichung zwischen beobachteten und baumbasierten Distanzen minimiert.
Ein häufig verwendetes Kriterium ist die Summe der quadrierten Abweichungen:
[ Q = \sum_{i < j} (D_{ij} - d_{ij})^2 ]
Je kleiner dieser Wert ist, desto besser passt der Baum zu den Daten.
Kasten 7.2 — Interpretation der kleinsten-Quadrate-Anpassung
Abschnitt betitelt „Kasten 7.2 — Interpretation der kleinsten-Quadrate-Anpassung“Die Größe
[ Q = \sum_{i < j} (D_{ij} - d_{ij})^2 ]
misst für jedes Sequenzpaar die Differenz zwischen beobachteter und durch den Baum erklärter Distanz.
Jede dieser Differenzen beschreibt einen Fehler. Durch das Quadrieren wird sichergestellt, dass alle Beiträge positiv sind und größere Abweichungen stärker gewichtet werden.
Die Minimierung von ( Q ) bedeutet daher, die Astlängen so zu wählen, dass der Baum die beobachteten Distanzen insgesamt möglichst gut reproduziert.
Der Baum fungiert dabei als eingeschränktes geometrisches Modell, das alle paarweisen Beziehungen gleichzeitig darstellen muss.
Eine geometrische Perspektive
Abschnitt betitelt „Eine geometrische Perspektive“Distanzbasierte phylogenetische Rekonstruktion lässt sich auch geometrisch interpretieren.
Die Distanzmatrix definiert Beziehungen zwischen Taxa, die sich als Abstände in einem abstrakten Raum auffassen lassen. Der phylogenetische Baum stellt eine spezielle Struktur dar, in der diese Abstände durch Wege entlang von Ästen realisiert werden.
Die Rekonstruktion eines Baums entspricht somit dem Versuch, die gegebenen Distanzen in eine Baumgeometrie einzubetten.
Diese Sichtweise macht sowohl die Stärke als auch die Einschränkung distanzbasierter Methoden deutlich. Sie liefern eine klare und effiziente Zusammenfassung der Daten, verlieren jedoch Informationen, da komplexe Muster auf paarweise Distanzen reduziert werden.
Konzeptionelle Zusammenfassung
Abschnitt betitelt „Konzeptionelle Zusammenfassung“Distanzbasierte Methoden transformieren Sequenzalignments in paarweise Distanzen und konstruieren Bäume, die diese Distanzen approximieren. Das Problem wird damit zu einer geometrischen Anpassungsaufgabe.
Dieser Ansatz ist rechnerisch effizient und konzeptionell klar, basiert jedoch auf Vereinfachungen, die durch geeignete Evolutionsmodelle korrigiert werden müssen.
Selbstüberprüfungsfragen
Abschnitt betitelt „Selbstüberprüfungsfragen“- Warum werden Sequenzalignments in paarweise Distanzen überführt?
- Welche Information enthält eine Distanzmatrix?
- Worin unterscheiden sich beobachtete und baumbasierte Distanzen?
- Warum können beobachtete Distanzen nicht immer exakt durch einen Baum dargestellt werden?
- Was misst das Kriterium der kleinsten Quadrate?
- Wie lässt sich phylogenetische Rekonstruktion geometrisch interpretieren?