5.1 Biologische Motivation: Was ist ein Motiv?

Lernziele

Nach der Bearbeitung dieses Abschnitts sollten Sie in der Lage sein:

zu erklären, was ein biomolekulares Motiv ist und warum Motive biologisch wichtig sind
zwischen exakten Sequenzmustern und probabilistischen Motivrepräsentationen zu unterscheiden
zu verstehen, warum Motive typischerweise degeneriert und nicht als feste Sequenzen auftreten
zu beschreiben, warum Motivsuche ein nichttriviales Inferenzproblem ist

Biologische Sequenzen sind keine zufälligen Zeichenketten. Obwohl sich DNA, RNA und Proteine als Sequenzen über relativ kleinen Alphabeten darstellen lassen, spiegelt ihre Organisation funktionelle Randbedingungen wider, die durch Evolution geformt wurden. Innerhalb solcher Sequenzen treten bestimmte Muster in verschiedenen Molekülen wiederholt auf, häufig weil sie mit spezifischen biologischen Rollen verknüpft sind. Diese wiederkehrenden Muster bezeichnet man als Motive.

Ein biomolekulares Motiv lässt sich als kurzes Sequenzmuster verstehen, das in mehreren biologischen Sequenzen vorkommt und mit einer gemeinsamen Funktion verbunden ist. In DNA entsprechen Motive häufig regulatorischen Elementen wie Promotorregionen oder Bindungsstellen für Transkriptionsfaktoren. Diese Regionen spielen eine zentrale Rolle bei der Steuerung der Genexpression, indem sie Wechselwirkungen zwischen DNA und Proteinen vermitteln. In RNA können Motive auf Spleißstellen oder strukturelle Elemente hinweisen, während Motive in Proteinen oft funktionellen Regionen wie aktiven Zentren von Enzymen oder Stellen posttranslationaler Modifikationen entsprechen. Phosphorylierungsmotive definieren zum Beispiel Sequenzkontexte, in denen bestimmte Kinasen Proteine erkennen und modifizieren und dadurch zelluläre Signalprozesse regulieren.

Auf den ersten Blick könnte man erwarten, dass sich solche Motive durch bloße Inspektion leicht identifizieren lassen. Wenn eine bestimmte Funktion mit einem Sequenzmuster verknüpft ist, warum sollte man dann nicht einfach nach einem exakten Match suchen? Diese Intuition erinnert an die Art, wie wir in den vorangegangenen Kapiteln Ähnlichkeit betrachtet haben, nämlich durch direkten Vergleich von Sequenzen, um gemeinsame Struktur zu erkennen.

Die biologische Realität ist jedoch subtiler. Motive sind nur selten exakte, starre Sequenzen. Stattdessen sind sie typischerweise degeneriert: Manche Positionen sind stark konserviert, andere lassen Variation zu. Diese Variabilität entsteht, weil biologische Funktion Substitutionen an manchen Positionen toleriert, an anderen jedoch nicht. Daher versteht man Motive besser nicht als feste Zeichenketten, sondern als Familien verwandter Sequenzen mit gemeinsamer statistischer Struktur.

Um dies greifbarer zu machen, betrachten wir eine Menge von DNA-Sequenzen, die bekanntermaßen eine Bindungsstelle für einen bestimmten Transkriptionsfaktor enthalten. Wenn diese Sequenzen aligniert werden, kann man beobachten, dass manche Positionen konsistent bestimmte Nukleotide bevorzugen, während andere deutlich variabler erscheinen. So kann an einer Position fast immer Guanin auftreten, während eine andere zwischen Adenin und Thymin wechselt. Dies legt nahe, dass das Motiv nicht durch exakte Identität definiert wird, sondern durch positionsspezifische Präferenzen.

Dieser Perspektivwechsel ist fundamental. Anstatt zu fragen, ob eine Sequenz exakt zu einem Motiv passt, beginnen wir zu fragen, wie wahrscheinlich eine Sequenz unter einem gegebenen Motivmodell ist. Mit anderen Worten: Motive laden zu einer probabilistischen Beschreibung ein. Ein Motiv ist nicht länger eine einzelne Sequenz, sondern ein strukturiertes Muster, das jeder Position Wahrscheinlichkeiten für mögliche Symbole zuweist. Manche Symbole werden stark bevorzugt und tragen wesentlich zur Identität des Motivs bei, andere sind weniger informativ.

Diese probabilistische Sichtweise erlaubt uns auch, zwischen starken und schwachen Motiven zu unterscheiden. Ein starkes Motiv zeigt an mehreren Positionen klare Präferenzen und lässt sich deshalb zuverlässig über verschiedene Sequenzen hinweg erkennen. Ein schwaches Motiv weist dagegen nur geringe Abweichungen von der Hintergrundsequenz auf und ist daher wesentlich schwerer zu entdecken. Diese Unterscheidung wird später mithilfe von Begriffen aus der Informationstheorie präzisiert werden.

Trotz dieser konzeptionellen Fortschritte bleibt eine grundlegende Schwierigkeit bestehen. In realen biologischen Daten werden Motive nicht bereits in alignierter Form präsentiert. Typischerweise erhalten wir lange Sequenzen, in denen Motivvorkommen an unbekannten Positionen eingebettet sind. Wir wissen weder, wo das Motiv beginnt, wie oft es auftritt, noch welche genaue Struktur es besitzt.

Die Aufgabe besteht also nicht nur darin, ein Motiv zu beschreiben, sondern darin, es aus Daten zu entdecken.

An diesem Punkt tritt eine kritische Schwierigkeit zutage. Um ein Modell des Motivs konstruieren zu können, bräuchten wir idealerweise alignierte Beispiele von Motivinstanzen. Um solche Alignments zu erhalten, müssten wir jedoch zunächst wissen, wo das Motiv überhaupt vorkommt. Das Modell hängt von den Positionen ab, und die Positionen hängen vom Modell ab.

Diese zirkuläre Abhängigkeit ist kein Artefakt der Formulierung, sondern spiegelt eine grundlegende Eigenschaft vieler biologischer Inferenzprobleme wider. Wichtige Aspekte des Systems sind verborgen und müssen indirekt aus beobachtbaren Daten erschlossen werden. Im Fall der Motivsuche sind sowohl die Struktur des Motivs als auch seine Vorkommen in den Sequenzen unbekannt und müssen gleichzeitig gelernt werden.

In den folgenden Abschnitten entwickeln wir einen probabilistischen Rahmen zur Darstellung von Motiven und zur Quantifizierung ihrer Stärke. Damit wird das Problem der Motivsuche präziser fassbar, und zugleich wird sichtbar, warum klassische, rein vergleichsbasierte Ansätze nicht ausreichen. Letztlich wird uns diese Perspektive zu einer allgemeinen Strategie für Lernen in Gegenwart verborgener Struktur führen.

Fragen zur Selbstkontrolle

Was ist ein biomolekulares Motiv, und warum sind Motive in biologischen Systemen wichtig?
Warum ist es unzureichend, Motive als exakte Sequenzmuster zu repräsentieren?
Was bedeutet es, dass ein Motiv degeneriert ist?
Worin unterscheidet sich ein probabilistisches Motiv von einer Konsensussequenz?
Warum führt Motivsuche auf natürliche Weise zu einem zirkulären Inferenzproblem?