3.7 Interpretation von Alignments

Lernziele

Nach der Bearbeitung dieses Abschnitts sollten Sie in der Lage sein:

klar zwischen Ähnlichkeit und Homologie zu unterscheiden
Alignment-Scores in einem biologischen Kontext zu interpretieren
die Grenzen des Sequenzalignments zu verstehen
zu erkennen, wann ein Alignment biologisch wahrscheinlich bedeutsam ist
typische Fallstricke bei der Interpretation von Alignment-Ergebnissen zu identifizieren

Von der Berechnung zurück zur Biologie

An diesem Punkt haben wir einen vollständigen rechnerischen Rahmen für Sequenzalignment entwickelt:

Wir können Ähnlichkeit über Bewertungsschemata definieren
Wir können optimale Alignments mit dynamischer Programmierung berechnen
Wir können das Modell an globalen oder lokalen Vergleich anpassen

Daraus ergibt sich ganz natürlich eine kritische Frage:

Was sagt uns ein Alignment tatsächlich über die biologische Realität?

Es ist verlockend, ein Alignment als unmittelbare Antwort zu betrachten. Schließlich sind die von uns entwickelten Algorithmen mathematisch rigoros und garantieren Optimalität unter dem gewählten Bewertungssystem.

Diese Garantie ist jedoch subtil:

Ein Alignment ist nur relativ zu dem Modell optimal, das wir definiert haben.

Es spiegelt nicht notwendigerweise die tatsächliche Evolutionsgeschichte oder die wahre funktionelle Beziehung zwischen den Sequenzen wider.

Ähnlichkeit ist nicht Homologie

Eines der häufigsten Missverständnisse in der Bioinformatik ist die Verwechslung von Ähnlichkeit und Homologie.

Ähnlichkeit ist eine messbare Größe. Sie wird über Alignment-Scores, prozentuale Identität oder andere Metriken definiert und kann direkt aus Sequenzdaten berechnet werden.

Homologie dagegen ist eine biologische Aussage. Sie bedeutet, dass zwei Sequenzen einen gemeinsamen evolutionären Ursprung teilen.

Dieser Unterschied ist grundlegend:

Ähnlichkeit ist quantitativ
Homologie ist qualitativ

Ein Alignment kann hohe Ähnlichkeit zeigen, aber Homologie nicht im strengen logischen Sinn beweisen. Stattdessen liefert Ähnlichkeit Evidenz für Homologie.

Präziser ist daher die Formulierung:

Auf der Grundlage signifikanter Ähnlichkeit wird auf Homologie geschlossen.

Was repräsentiert ein Alignment?

Ein Alignment lässt sich als Hypothese darüber interpretieren, wie zwei Sequenzen miteinander in Beziehung stehen.

Genauer schlägt es vor:

welche Reste einander entsprechen
wo Insertionen und Deletionen stattgefunden haben
welche Regionen konserviert und welche variabel sind

Aus dieser Perspektive ist das Alignment nicht bloß ein Ergebnis, sondern ein Modell evolutiver Transformation.

Diese Interpretation knüpft direkt an die zuvor eingeführten Edit-Operationen an:

Substitutionen repräsentieren Punktmutationen
Lücken repräsentieren Insertionen oder Deletionen
alignierte Reste deuten auf gemeinsame Abstammung oder funktionelle Zwänge hin

Gleichzeitig muss man im Blick behalten, dass dieses Modell vereinfacht ist. Reale evolutionäre Prozesse sind komplexer und werden durch das Bewertungssystem möglicherweise nur unvollständig erfasst.

Alignment-Scores und ihre Bedeutung

Der Alignment-Score quantifiziert, wie gut zwei Sequenzen unter einem gegebenen Modell zusammenpassen. Höhere Scores zeigen eine bessere Übereinstimmung mit den im Bewertungssystem kodierten Annahmen an.

Der absolute Wert eines Scores ist für sich genommen jedoch schwer zu interpretieren.

Zum Beispiel:

ein Score von 50 kann für kurze Sequenzen hoch signifikant sein
derselbe Score kann für längere Sequenzen wenig bemerkenswert sein

Der Grund dafür ist, dass längere Sequenzen mehr Möglichkeiten sowohl für Matches als auch für Mismatches bieten.

Deshalb erfordert die Interpretation von Alignment-Scores Kontext. In der Praxis bedeutet das häufig:

den Vergleich mit Zufallssequenzen
die Normalisierung von Scores
die Abschätzung statistischer Signifikanz

Eine vollständige Behandlung statistischer Signifikanz liegt außerhalb des Rahmens dieses Kapitels. Wichtig ist jedoch die Einsicht:

Rohe Alignment-Scores sind über unterschiedliche Sequenzlängen oder Bewertungssysteme hinweg nicht direkt vergleichbar.

Die Rolle des lokalen Alignments

Lokales Alignment spielt für die Interpretation eine besonders wichtige Rolle.

Wie wir gesehen haben, sind biologische Sequenzen oft modular aufgebaut. Konservierte Domänen können in ansonsten nicht verwandte Sequenzen eingebettet sein.

Lokales Alignment erlaubt es uns, solche Regionen hoher Ähnlichkeit zu erkennen, ohne von nicht verwandten flankierenden Bereichen abgelenkt zu werden.

In der Praxis bedeutet das:

ein starkes lokales Alignment kann auf eine konservierte funktionelle Domäne hinweisen
schwache oder fehlende globale Ähnlichkeit schließt biologische Verwandtschaft nicht aus

Diese Einsicht ist besonders wichtig bei der Analyse komplexer Proteine wie NRPS-Enzymen, bei denen funktionelle Module zwischen verschiedenen Organismen umgeordnet und wiederverwendet werden.

Wenn Alignments in die Irre führen

Trotz ihres Nutzens können Alignments auch irreführend sein, wenn sie unkritisch interpretiert werden.

Ein wichtiges Problem besteht darin, dass Alignment-Algorithmen immer ein Ergebnis liefern, selbst für nicht verwandte Sequenzen. Mit genügend Flexibilität bei der Platzierung von Lücken lassen sich Alignments erzeugen, die strukturiert wirken, obwohl sie rein zufällig entstanden sind.

Daraus ergibt sich eine praktische Warnung:

Wenn ein Alignment „falsch aussieht“, ist es das oft auch.

Eine weitere Fehlerquelle sind ungeeignete Bewertungssysteme. Wenn das gewählte Bewertungsschema die zugrunde liegende Biologie nicht widerspiegelt, kann das resultierende Alignment formal optimal, biologisch aber bedeutungslos sein.

Beispiele dafür sind:

die Verwendung einer Protein-Substitutionsmatrix für DNA-Sequenzen
Gap-Strafen, die unrealistische Fragmentierung begünstigen
der Vergleich von Sequenzen, die evolutionär zu weit voneinander entfernt sind

Diese Probleme verdeutlichen, wie wichtig die Modellwahl beim Alignment ist.

Abhängigkeit von Annahmen

Jedes Alignment ist das Ergebnis einer Menge von Annahmen:

die Bewertungsmatrix kodiert Präferenzen für Substitutionen
Gap-Strafen spiegeln strukturelle Randbedingungen wider
die Wahl zwischen globalem und lokalem Alignment legt den Umfang des Vergleichs fest

Schon die Änderung einer dieser Annahmen kann zu einem anderen Alignment führen.

Damit wird ein zentrales Thema dieses Buches erneut sichtbar:

Bioinformatische Methoden offenbaren nicht direkt die Wahrheit. Sie erzeugen Interpretationen unter spezifischen Modellen.

Vom paarweisen zum multiplen Alignment

Schließlich ist zu beachten, dass paarweises Alignment oft nur der erste Schritt einer umfassenderen Analyse ist.

In vielen Anwendungen wollen wir mehrere Sequenzen gleichzeitig vergleichen, zum Beispiel um:

konservierte Motive innerhalb einer Proteinfamilie zu identifizieren
evolutionäre Beziehungen zu erschließen
Konsensussequenzen zu konstruieren

Die Erweiterung des Alignments von zwei auf viele Sequenzen bringt jedoch zusätzliche Schwierigkeiten mit sich:

paarweise Optimalität garantiert keine globale Konsistenz
Fehler können sich in progressiven Alignment-Verfahren fortpflanzen
die Ergebnisse hängen stark von den Ausgangsannahmen ab

Auf diese Fragen werden wir später zurückkommen, wenn wir Multiple-Sequence-Alignment behandeln.

Konzeptionelle Zusammenfassung

Sequenzalignment liefert einen leistungsfähigen Rahmen zum Vergleich biologischer Sequenzen, doch seine Ergebnisse müssen mit Vorsicht interpretiert werden.

Ähnlichkeit ist eine messbare Größe, Homologie dagegen eine Inferenz
Alignments repräsentieren Hypothesen über Sequenzbeziehungen
Scores hängen vom gewählten Modell ab und sind keine absoluten Größen
ungeeignete Annahmen können zu irreführenden Schlussfolgerungen führen

Diese Grenzen zu verstehen ist entscheidend, wenn Alignment als wissenschaftliches Werkzeug und nicht als Black Box eingesetzt werden soll.

Fragen zur Selbstkontrolle

Warum ist Ähnlichkeit nicht dasselbe wie Homologie?
In welchem Sinn ist ein Alignment eine Hypothese und keine Tatsache?
Warum sind rohe Alignment-Scores zwischen unterschiedlichen Sequenzen schwer vergleichbar?
Wie kann lokales Alignment die biologische Interpretation verbessern?
Was sind häufige Quellen irreführender Alignments?