7.1 Von beobachteten Sequenzen zur evolutionären Geschichte

Lernziele

Nach diesem Abschnitt sollten Sie in der Lage sein:

zu erklären, warum phylogenetische Rekonstruktion grundsätzlich ein Inferenzproblem ist
die Schwierigkeit zu verstehen, einen dynamischen Prozess aus statischen Daten zu rekonstruieren
phylogenetische Bäume als Modelle zu interpretieren
zu beschreiben, wie Sequenzähnlichkeit mit evolutionärer Verwandtschaft zusammenhängt

Eine Frage jenseits direkter Beobachtung

Eine der grundlegendsten Fragen der Biologie lautet, wie die Vielfalt des Lebens entstanden ist und wie Organismen im Laufe der Evolution miteinander verwandt sind. Auf den ersten Blick scheint diese Frage den Problemen zu ähneln, die wir in den vorherigen Kapiteln behandelt haben. Dort konnten Sequenzen direkt analysiert und miteinander verglichen werden. Die betrachteten Objekte waren unmittelbar zugänglich, und rechnerische Methoden arbeiteten direkt auf beobachtbaren Daten.

Die phylogenetische Rekonstruktion unterscheidet sich hiervon grundlegend. Der eigentliche Gegenstand unseres Interesses, die evolutionäre Geschichte, ist nicht direkt beobachtbar. Wir sehen keine Mutationsereignisse in dem Moment, in dem sie stattfinden, und wir haben keinen Zugang zu den Sequenzen längst ausgestorbener Vorfahren. Stattdessen steht uns lediglich das Ergebnis dieser Prozesse zur Verfügung: heutige Sequenzen, gemessen zu einem einzigen Zeitpunkt.

Damit verändert sich die Natur des Problems. Wir beschreiben nicht länger das, was wir unmittelbar beobachten, sondern versuchen zu rekonstruieren, was in der Vergangenheit geschehen sein muss, um die beobachteten Daten hervorzubringen. In diesem Sinne ist die Phylogenetik ein Inferenzproblem in besonders ausgeprägter Form.

Ein konkretes biologisches Szenario

Um diese Perspektive greifbarer zu machen, betrachten wir ein Szenario aus der Praxis. Während eines viralen Ausbruchs werden Proben aus unterschiedlichen Regionen gesammelt und die Genome der Viren sequenziert. Beim Vergleich dieser Sequenzen treten kleine Unterschiede zutage. Einige Genome teilen bestimmte Mutationen, andere unterscheiden sich an spezifischen Positionen.

Die zentrale Frage lautet, ob diese Infektionen auf eine gemeinsame Quelle zurückgehen oder ob mehrere unabhängige Einträge vorliegen. Eine direkte Beobachtung der Übertragungsketten ist nicht möglich. Es existiert kein vollständiges Protokoll aller Infektionsereignisse. Stattdessen verfügen wir lediglich über Sequenzen, die jeweils den aktuellen Zustand des Virus in einem Wirt repräsentieren.

Aus diesen Sequenzen versuchen wir, eine Geschichte zu rekonstruieren: Welche Proben sind eng verwandt? Wo haben sich Linien getrennt? Wie hat sich der Erreger möglicherweise ausgebreitet? In diesem Kontext sind Sequenzen nicht nur biologische Objekte. Sie sind Spuren eines bereits abgelaufenen Prozesses.

Von der evolutionären Idee zum Baum-Modell

Die Vorstellung, evolutionäre Beziehungen als Baum darzustellen, hat eine lange Tradition. Bereits frühe konzeptionelle Skizzen, die häufig mit Darwin in Verbindung gebracht werden, verdeutlichen die Idee, dass Arten sich aus gemeinsamen Vorfahren heraus verzweigen . Die moderne Phylogenetik formalisiert diese Intuition.

Ein phylogenetischer Baum stellt eine strukturierte Form dar, Hypothesen über gemeinsame Abstammung und Divergenz auszudrücken. Solche Bäume spielen in vielen Bereichen der Biologie eine zentrale Rolle. Sie unterstützen die Klassifikation von Organismen, ermöglichen die Nachverfolgung von Krankheitserregern und dienen der funktionellen Interpretation von Genen. Wenn ein unbekanntes Gen eng mit gut charakterisierten Genen gruppiert, liefert dies einen starken Hinweis darauf, dass es eine ähnliche Funktion besitzen könnte .

Statische Daten und dynamische Prozesse

Im Kern der phylogenetischen Rekonstruktion steht ein grundlegender Spannungsbogen. Wir verfügen über statische Daten, nämlich Sequenzen, die zu einem bestimmten Zeitpunkt beobachtet wurden, und versuchen daraus einen dynamischen Prozess zu rekonstruieren, der sich über evolutionäre Zeiträume hinweg abgespielt hat.

Diese Umkehr der zeitlichen Perspektive bringt sowohl konzeptionelle als auch praktische Schwierigkeiten mit sich. Mehrere unterschiedliche evolutionäre Verläufe können die gleichen Beobachtungen erklären. Manche Ereignisse hinterlassen keine sichtbaren Spuren, während andere frühere Signale überlagern oder überschreiben. Die Rekonstruktion der evolutionären Geschichte ist daher notwendigerweise mit Unsicherheit behaftet.

Sequenzen als unvollständige Aufzeichnungen

Trotz dieser Einschränkungen enthalten Sequenzen Informationen über die Vergangenheit. Mutationen akkumulieren im Laufe der Zeit, und diese Veränderungen spiegeln sich in den Sequenzen wider, die wir heute beobachten. Wenn zwei Sequenzen sehr ähnlich sind, ist es wahrscheinlich, dass sie einen relativ jungen gemeinsamen Vorfahren haben. Große Unterschiede deuten hingegen auf eine weiter zurückliegende Divergenz hin.

Diese Beziehung zwischen Ähnlichkeit und Verwandtschaft bildet die Grundlage phylogenetischer Analysen. Gleichzeitig muss sie mit Vorsicht interpretiert werden. Mehrfache Mutationen können an derselben Position auftreten, und manche Veränderungen können wieder rückgängig gemacht werden. Sequenzen stellen daher keine vollständige, sondern eine teilweise verzerrte Aufzeichnung der evolutionären Geschichte dar.

Phylogenetische Bäume als Modelle

An dieser Stelle ist es entscheidend zu klären, was ein phylogenetischer Baum eigentlich repräsentiert. Eine verbreitete Fehlvorstellung besteht darin, solche Bäume als direkte Abbildung der tatsächlichen evolutionären Geschichte zu interpretieren. Dies ist jedoch nicht der Fall.

Ein phylogenetischer Baum ist ein Modell. Genauer gesagt handelt es sich um eine strukturierte Hypothese, die versucht, die beobachteten Daten unter bestimmten Annahmen zu erklären. Wir beobachten Sequenzen, konstruieren daraus einen Baum und beurteilen anschließend, wie gut dieser Baum die Muster in den Daten erklärt.

Diese Sichtweise hat eine wichtige Konsequenz. In wissenschaftlichen Modellen geht es nicht primär darum, ob sie absolut wahr sind. Da die tatsächliche evolutionäre Geschichte nicht direkt zugänglich ist, existiert kein unmittelbarer Maßstab im Sinne einer „Ground Truth“. Stattdessen werden Modelle nach ihrer Nützlichkeit bewertet. Ein phylogenetischer Baum ist dann nützlich, wenn er beobachtete Muster erklärt, mit biologischem Wissen vereinbar ist und sinnvolle Interpretationen ermöglicht .

Von der Intuition zur formalen Problemstellung

Wir können das phylogenetische Rekonstruktionsproblem nun präziser formulieren. Gegeben ist eine Menge von Sequenzen, die heutige Beobachtungen darstellen. Gesucht ist ein Baum, der die evolutionären Beziehungen zwischen diesen Sequenzen beschreibt und ihre Ähnlichkeiten und Unterschiede erklärt.

Um dieses Ziel zu erreichen, müssen wir die Variation in Sequenzen mit evolutionären Prozessen verknüpfen, eine geeignete Repräsentation für Beziehungen wählen, Algorithmen zur Konstruktion von Bäumen entwickeln und Kriterien definieren, anhand derer wir beurteilen können, wie gut ein Baum die Daten erklärt. Jeder dieser Schritte beruht auf Annahmen und beeinflusst das resultierende Modell.

In den folgenden Abschnitten werden wir die notwendigen Werkzeuge entwickeln, um diese Rekonstruktion durchzuführen. Dabei bleibt eine zentrale Idee leitend:

Phylogenetische Rekonstruktion ist der Prozess, Modelle zu entwickeln, die erklären, wie heutige Sequenzen entstanden sind.

Selbstüberprüfungsfragen

Warum kann die evolutionäre Geschichte nicht direkt beobachtet werden, und welche Konsequenzen hat dies für die phylogenetische Rekonstruktion?
Worin unterscheidet sich phylogenetische Rekonstruktion von der reinen Analyse von Sequenzähnlichkeiten?
Warum stellen Sequenzen nur unvollständige Aufzeichnungen der evolutionären Geschichte dar?
In welchem Sinne ist ein phylogenetischer Baum ein Modell?
Warum ist „Nützlichkeit“ ein sinnvolleres Kriterium als „Wahrheit“ bei der Bewertung von Modellen?
Was ist die zentrale Schwierigkeit bei der Rekonstruktion eines dynamischen Prozesses aus statischen Daten?