4.7 Interpretation von Ergebnissen der Ähnlichkeitssuche

Lernziele

Nach diesem Abschnitt sollten Sie in der Lage sein:

Trefferlisten der Ähnlichkeitssuche sowohl statistisch als auch biologisch zu interpretieren
zu erklären, warum der beste Treffer allein oft keine belastbare biologische Schlussfolgerung erlaubt
zu beurteilen, wie Alignment-Länge, Gaps und konservierte Positionen die Interpretation beeinflussen
zwischen Sequenzidentität und Sequenzähnlichkeit zu unterscheiden
Ergebnisse der Ähnlichkeitssuche als Evidenz und nicht als endgültigen Beweis für Homologie zu bewerten

Nach der Durchführung einer Ähnlichkeitssuche und ihrer statistischen Bewertung erhalten wir eine Liste möglicher Treffer. Auf den ersten Blick wirkt dieser Output oft einfach: Sequenzen werden nach Score oder E-Wert geordnet, und die obersten Treffer scheinen die relevantesten zu sein. In der Praxis verlangt ihre Interpretation jedoch sorgfältiges biologisches und statistisches Urteil.

Ähnlichkeitssuche liefert keine endgültigen Antworten. Sie liefert Evidenz, die in einen angemessenen biologischen Kontext eingeordnet werden muss.

Vom Suchergebnis zur biologischen Einsicht

Ein typisches Suchergebnis umfasst

eine Rangliste von Treffern,
zugehörige Scores und E-Werte,
sowie ein oder mehrere Alignments zu jedem Treffer.

Die Rangfolge gibt an, welche Treffer unter statistischen Gesichtspunkten am stärksten erscheinen. Niedrige E-Werte sprechen für hohe Signifikanz. Doch gerade daraus folgt noch nicht automatisch, dass der oberste Treffer bereits die biologisch beste Interpretation darstellt.

Die eigentliche Frage lautet:

Wann ist eine beobachtete Ähnlichkeit stark genug, um biologisch ernst genommen zu werden?

Die Antwort hängt nicht nur von der Statistik, sondern auch von der Struktur des Alignments und vom biologischen Kontext ab.

Mehr als nur der beste Treffer

Es liegt nahe, sich ausschließlich auf den obersten Treffer zu konzentrieren. In vielen Fällen ist dies tatsächlich ein sinnvoller erster Schritt. Dennoch birgt diese Perspektive mehrere Gefahren.

Erstens repräsentiert der beste Treffer nicht immer den gesamten biologischen Kontext. Eine Query kann mehrere Domänen enthalten, die unterschiedliche evolutionäre Ursprünge besitzen. Dann können verschiedene Abschnitte der Query zu unterschiedlichen Datenbanksequenzen passen.

Zweitens treten nahe verwandte Sequenzen in Suchergebnissen häufig als Gruppen ähnlicher Treffer auf. Ein konsistentes Muster über mehrere hochrangige Treffer hinweg kann sehr viel aussagekräftiger sein als ein einzelner Spitzenwert.

Daraus folgt ein wichtiges Prinzip:

Belastbare biologische Interpretation stützt sich auf Muster über mehrere Treffer hinweg, nicht allein auf den besten Hit.

Die Struktur des Alignments zählt

Score und E-Wert fassen ein Alignment in einer einzigen Zahl zusammen. Für eine fundierte Interpretation genügt das jedoch nicht. Man muss das Alignment selbst betrachten.

Besonders aufschlussreich sind dabei:

Länge der alignierten Region Kurze Alignments können auch zufällig hohe Scores erreichen, insbesondere in großen Datenbanken.
Verteilung von Treffern und Fehlpaarungen Echte homologe Beziehungen zeigen oft strukturierte Erhaltung statt zufällig verteilter Übereinstimmungen.
Vorhandensein von Gaps Insertionen und Deletionen können reale evolutionäre Ereignisse widerspiegeln.
Erhaltung funktionell wichtiger Positionen Katalytische oder strukturell kritische Reste sind häufig besonders konserviert.

Solche Merkmale liefern eine Art Kontextinformation, die keine einzelne Kennzahl vollständig erfassen kann.

Identität, Ähnlichkeit und ihre Bedeutung

Zwei häufig berichtete Kenngrößen sind:

Sequenzidentität: der Anteil exakt übereinstimmender Positionen
Sequenzähnlichkeit: der Anteil von Positionen mit günstigen Substitutionswerten

Beide Größen hängen vom konkreten Alignment und vom verwendeten Scoring-System ab. Sie sind nützliche Zusammenfassungen, müssen jedoch mit Vorsicht interpretiert werden.

So kann

eine sehr hohe Identität über eine sehr kurze Region biologisch weniger aussagekräftig sein als
eine moderate Identität über eine lange funktionell relevante Domäne.

Zudem ist Ähnlichkeit matrixabhängig und kann biochemische Austauschbarkeit widerspiegeln, ohne dass exakte Übereinstimmung vorliegt.

Damit gilt: Identität und Ähnlichkeit sind wertvolle Deskriptoren, aber keine hinreichenden Beweise für biologische Beziehung.

Falsch positive Treffer und Regionen geringer Komplexität

Eine häufige Quelle irreführender Treffer sind Sequenzen geringer Komplexität.

Biologische Sequenzen enthalten oft repetitive oder kompositionell verzerrte Bereiche, etwa

Mikrosatelliten,
einfache Aminosäurewiederholungen,
oder andere repetitive Elemente.

Solche Regionen können auch zwischen nicht verwandten Sequenzen hohe Scores erzeugen. Sie erscheinen dann als scheinbar signifikante Treffer, obwohl ihnen keine belastbare biologische Beziehung zugrunde liegt.

Moderne Suchwerkzeuge versuchen, solche Regionen zu maskieren oder in ihrer Gewichtung abzuschwächen. Dennoch bleibt ihre Interpretation eine Aufgabe des Anwenders.

Ähnlichkeit ist nicht transitiv

Ein besonders subtiler Interpretationsfehler besteht in der Annahme von Transitivität.

Angenommen,

Sequenz $A$ ist ähnlich zu Sequenz $B$ ,
und Sequenz $A$ ist ebenfalls ähnlich zu Sequenz $C$ .

Daraus folgt keineswegs zwangsläufig, dass auch $B$ und $C$ ähnlich sein müssen.

Der Grund liegt darin, dass die zugrunde liegenden Alignments unterschiedliche Regionen betreffen können. Zwei Sequenzen können jeweils mit einer dritten verwandt erscheinen, ohne dass sie untereinander signifikante Ähnlichkeit zeigen.

Die wichtige Konsequenz lautet:

Ähnlichkeitsbeziehungen sind lokal und kontextabhängig; sie bilden keine transitive globale Relation.

Von Ähnlichkeit zu Homologie

In vielen Anwendungen besteht das eigentliche Ziel der Ähnlichkeitssuche darin, Homologie zu inferieren, also gemeinsame Abstammung. Doch wie mehrfach betont, ist Homologie nicht direkt beobachtbar. Sie muss aus verschiedenen Evidenzquellen erschlossen werden.

Ein typischer Schlussweg sieht so aus:

Ein statistisch signifikanter Treffer wird gefunden.
Das Alignment ist hinreichend lang und strukturiert plausibel.
Funktionell oder strukturell wichtige Positionen sind konserviert.
Mehrere verwandte Treffer stützen dieselbe Interpretation.

Erst wenn diese Evidenzen zusammenpassen, wird der Schluss auf Homologie überzeugend.

Deshalb gilt:

Ähnlichkeitssuche liefert Hypothesen, keine fertigen Schlussfolgerungen.

Ein praktisches Beispiel

Betrachten wir eine Query, die folgende Ergebnisse liefert:

mehrere Treffer mit E-Werten kleiner als $10^{-20}$ ,
Alignments über eine konservierte katalytische Domäne,
und Erhaltung funktionell zentraler Aminosäuren.

In einem solchen Fall spricht die Evidenz stark dafür, dass die Query zu derselben funktionellen Klasse gehört wie die annotierten Treffer.

Demgegenüber betrachten wir einen anderen Fall:

ein einzelner Treffer mit E-Wert nahe $1$ ,
ein Alignment nur über eine kurze repetitive Region,
und kein konsistentes Muster über weitere Treffer hinweg.

Hier wäre die Evidenz schwach, und eine biologische Interpretation müsste mit großer Zurückhaltung erfolgen.

Zusammenfassung

Die Interpretation von Ergebnissen der Ähnlichkeitssuche erfordert die Integration mehrerer Ebenen von Information:

statistische Signifikanz,
Struktur des Alignments,
Sequenzidentität und Sequenzähnlichkeit,
Konsistenz über mehrere Treffer,
und biologischer Kontext.

Keine einzelne Kennzahl genügt für sich allein. Aussagekraft entsteht erst aus der Kombination von Evidenzen.

Fragen zur Selbstkontrolle

Warum genügt es nicht, nur den obersten Treffer einer Ähnlichkeitssuche zu betrachten?
Welche Merkmale eines Alignments liefern zusätzliche Information jenseits des rohen Scores?
Warum können Regionen geringer Komplexität zu falsch positiven Treffern führen?
Was bedeutet es, dass Ähnlichkeit nicht transitiv ist?
Wie gelangt man von beobachteter Ähnlichkeit zu einer belastbaren Homologiehypothese?