3.7 Interpretation von Alignments
3.7 Interpretation von Alignments
Abschnitt betitelt „3.7 Interpretation von Alignments“Lernziele
Abschnitt betitelt „Lernziele“Nach der Bearbeitung dieses Abschnitts sollten Sie in der Lage sein:
- klar zwischen Ähnlichkeit und Homologie zu unterscheiden
- Alignment-Scores in einem biologischen Kontext zu interpretieren
- die Grenzen des Sequenzalignments zu verstehen
- zu erkennen, wann ein Alignment biologisch wahrscheinlich bedeutsam ist
- typische Fallstricke bei der Interpretation von Alignment-Ergebnissen zu identifizieren
Von der Berechnung zurück zur Biologie
Abschnitt betitelt „Von der Berechnung zurück zur Biologie“An diesem Punkt haben wir einen vollständigen rechnerischen Rahmen für Sequenzalignment entwickelt:
- Wir können Ähnlichkeit über Bewertungsschemata definieren
- Wir können optimale Alignments mit dynamischer Programmierung berechnen
- Wir können das Modell an globalen oder lokalen Vergleich anpassen
Daraus ergibt sich ganz natürlich eine kritische Frage:
Was sagt uns ein Alignment tatsächlich über die biologische Realität?
Es ist verlockend, ein Alignment als unmittelbare Antwort zu betrachten. Schließlich sind die von uns entwickelten Algorithmen mathematisch rigoros und garantieren Optimalität unter dem gewählten Bewertungssystem.
Diese Garantie ist jedoch subtil:
Ein Alignment ist nur relativ zu dem Modell optimal, das wir definiert haben.
Es spiegelt nicht notwendigerweise die tatsächliche Evolutionsgeschichte oder die wahre funktionelle Beziehung zwischen den Sequenzen wider.
Ähnlichkeit ist nicht Homologie
Abschnitt betitelt „Ähnlichkeit ist nicht Homologie“Eines der häufigsten Missverständnisse in der Bioinformatik ist die Verwechslung von Ähnlichkeit und Homologie.
Ähnlichkeit ist eine messbare Größe. Sie wird über Alignment-Scores, prozentuale Identität oder andere Metriken definiert und kann direkt aus Sequenzdaten berechnet werden.
Homologie dagegen ist eine biologische Aussage. Sie bedeutet, dass zwei Sequenzen einen gemeinsamen evolutionären Ursprung teilen.
Dieser Unterschied ist grundlegend:
- Ähnlichkeit ist quantitativ
- Homologie ist qualitativ
Ein Alignment kann hohe Ähnlichkeit zeigen, aber Homologie nicht im strengen logischen Sinn beweisen. Stattdessen liefert Ähnlichkeit Evidenz für Homologie.
Präziser ist daher die Formulierung:
Auf der Grundlage signifikanter Ähnlichkeit wird auf Homologie geschlossen.
Was repräsentiert ein Alignment?
Abschnitt betitelt „Was repräsentiert ein Alignment?“Ein Alignment lässt sich als Hypothese darüber interpretieren, wie zwei Sequenzen miteinander in Beziehung stehen.
Genauer schlägt es vor:
- welche Reste einander entsprechen
- wo Insertionen und Deletionen stattgefunden haben
- welche Regionen konserviert und welche variabel sind
Aus dieser Perspektive ist das Alignment nicht bloß ein Ergebnis, sondern ein Modell evolutiver Transformation.
Diese Interpretation knüpft direkt an die zuvor eingeführten Edit-Operationen an:
- Substitutionen repräsentieren Punktmutationen
- Lücken repräsentieren Insertionen oder Deletionen
- alignierte Reste deuten auf gemeinsame Abstammung oder funktionelle Zwänge hin
Gleichzeitig muss man im Blick behalten, dass dieses Modell vereinfacht ist. Reale evolutionäre Prozesse sind komplexer und werden durch das Bewertungssystem möglicherweise nur unvollständig erfasst.
Alignment-Scores und ihre Bedeutung
Abschnitt betitelt „Alignment-Scores und ihre Bedeutung“Der Alignment-Score quantifiziert, wie gut zwei Sequenzen unter einem gegebenen Modell zusammenpassen. Höhere Scores zeigen eine bessere Übereinstimmung mit den im Bewertungssystem kodierten Annahmen an.
Der absolute Wert eines Scores ist für sich genommen jedoch schwer zu interpretieren.
Zum Beispiel:
- ein Score von 50 kann für kurze Sequenzen hoch signifikant sein
- derselbe Score kann für längere Sequenzen wenig bemerkenswert sein
Der Grund dafür ist, dass längere Sequenzen mehr Möglichkeiten sowohl für Matches als auch für Mismatches bieten.
Deshalb erfordert die Interpretation von Alignment-Scores Kontext. In der Praxis bedeutet das häufig:
- den Vergleich mit Zufallssequenzen
- die Normalisierung von Scores
- die Abschätzung statistischer Signifikanz
Eine vollständige Behandlung statistischer Signifikanz liegt außerhalb des Rahmens dieses Kapitels. Wichtig ist jedoch die Einsicht:
Rohe Alignment-Scores sind über unterschiedliche Sequenzlängen oder Bewertungssysteme hinweg nicht direkt vergleichbar.
Die Rolle des lokalen Alignments
Abschnitt betitelt „Die Rolle des lokalen Alignments“Lokales Alignment spielt für die Interpretation eine besonders wichtige Rolle.
Wie wir gesehen haben, sind biologische Sequenzen oft modular aufgebaut. Konservierte Domänen können in ansonsten nicht verwandte Sequenzen eingebettet sein.
Lokales Alignment erlaubt es uns, solche Regionen hoher Ähnlichkeit zu erkennen, ohne von nicht verwandten flankierenden Bereichen abgelenkt zu werden.
In der Praxis bedeutet das:
- ein starkes lokales Alignment kann auf eine konservierte funktionelle Domäne hinweisen
- schwache oder fehlende globale Ähnlichkeit schließt biologische Verwandtschaft nicht aus
Diese Einsicht ist besonders wichtig bei der Analyse komplexer Proteine wie NRPS-Enzymen, bei denen funktionelle Module zwischen verschiedenen Organismen umgeordnet und wiederverwendet werden.
Wenn Alignments in die Irre führen
Abschnitt betitelt „Wenn Alignments in die Irre führen“Trotz ihres Nutzens können Alignments auch irreführend sein, wenn sie unkritisch interpretiert werden.
Ein wichtiges Problem besteht darin, dass Alignment-Algorithmen immer ein Ergebnis liefern, selbst für nicht verwandte Sequenzen. Mit genügend Flexibilität bei der Platzierung von Lücken lassen sich Alignments erzeugen, die strukturiert wirken, obwohl sie rein zufällig entstanden sind.
Daraus ergibt sich eine praktische Warnung:
Wenn ein Alignment „falsch aussieht“, ist es das oft auch.
Eine weitere Fehlerquelle sind ungeeignete Bewertungssysteme. Wenn das gewählte Bewertungsschema die zugrunde liegende Biologie nicht widerspiegelt, kann das resultierende Alignment formal optimal, biologisch aber bedeutungslos sein.
Beispiele dafür sind:
- die Verwendung einer Protein-Substitutionsmatrix für DNA-Sequenzen
- Gap-Strafen, die unrealistische Fragmentierung begünstigen
- der Vergleich von Sequenzen, die evolutionär zu weit voneinander entfernt sind
Diese Probleme verdeutlichen, wie wichtig die Modellwahl beim Alignment ist.
Abhängigkeit von Annahmen
Abschnitt betitelt „Abhängigkeit von Annahmen“Jedes Alignment ist das Ergebnis einer Menge von Annahmen:
- die Bewertungsmatrix kodiert Präferenzen für Substitutionen
- Gap-Strafen spiegeln strukturelle Randbedingungen wider
- die Wahl zwischen globalem und lokalem Alignment legt den Umfang des Vergleichs fest
Schon die Änderung einer dieser Annahmen kann zu einem anderen Alignment führen.
Damit wird ein zentrales Thema dieses Buches erneut sichtbar:
Bioinformatische Methoden offenbaren nicht direkt die Wahrheit. Sie erzeugen Interpretationen unter spezifischen Modellen.
Vom paarweisen zum multiplen Alignment
Abschnitt betitelt „Vom paarweisen zum multiplen Alignment“Schließlich ist zu beachten, dass paarweises Alignment oft nur der erste Schritt einer umfassenderen Analyse ist.
In vielen Anwendungen wollen wir mehrere Sequenzen gleichzeitig vergleichen, zum Beispiel um:
- konservierte Motive innerhalb einer Proteinfamilie zu identifizieren
- evolutionäre Beziehungen zu erschließen
- Konsensussequenzen zu konstruieren
Die Erweiterung des Alignments von zwei auf viele Sequenzen bringt jedoch zusätzliche Schwierigkeiten mit sich:
- paarweise Optimalität garantiert keine globale Konsistenz
- Fehler können sich in progressiven Alignment-Verfahren fortpflanzen
- die Ergebnisse hängen stark von den Ausgangsannahmen ab
Auf diese Fragen werden wir später zurückkommen, wenn wir Multiple-Sequence-Alignment behandeln.
Konzeptionelle Zusammenfassung
Abschnitt betitelt „Konzeptionelle Zusammenfassung“Sequenzalignment liefert einen leistungsfähigen Rahmen zum Vergleich biologischer Sequenzen, doch seine Ergebnisse müssen mit Vorsicht interpretiert werden.
- Ähnlichkeit ist eine messbare Größe, Homologie dagegen eine Inferenz
- Alignments repräsentieren Hypothesen über Sequenzbeziehungen
- Scores hängen vom gewählten Modell ab und sind keine absoluten Größen
- ungeeignete Annahmen können zu irreführenden Schlussfolgerungen führen
Diese Grenzen zu verstehen ist entscheidend, wenn Alignment als wissenschaftliches Werkzeug und nicht als Black Box eingesetzt werden soll.
Fragen zur Selbstkontrolle
Abschnitt betitelt „Fragen zur Selbstkontrolle“- Warum ist Ähnlichkeit nicht dasselbe wie Homologie?
- In welchem Sinn ist ein Alignment eine Hypothese und keine Tatsache?
- Warum sind rohe Alignment-Scores zwischen unterschiedlichen Sequenzen schwer vergleichbar?
- Wie kann lokales Alignment die biologische Interpretation verbessern?
- Was sind häufige Quellen irreführender Alignments?