Der RAST-Server: Rapid Annotations using Subsystems Technology / BMC Genomics

Subsystems: an Overview

Es wird allgemein angenommen, dass eine zentrale Rolle der Bioinformatik darin besteht, einen relativ kleinen Satz von Behauptungen der Gen-und Proteinfunktion aus der Literatur (dh aus Nasslaborcharakterisierungen) auf Gene anderer Genome zu projizieren., Dies fängt einen Kern der Wahrheit ein (dass letztendlich neue Behauptungen der Funktion auf Nasslaborcharakterisierungen basieren), erhöht aber vielleicht die Rolle der Bioinformatik über das hinaus, was zu erwarten ist. Im Gegensatz dazu betrachten wir die Projektion als einen zweistufigen Prozess:

1. In einer Anfangsphase integriert ein Experte für ein biologisches Thema das, was aus der Literatur bekannt ist, und erzeugt eine Reihe von Expertenaussagen, zu denen die Behauptungen aus der Literatur gehören, sowie eine weit breitere Gruppe, die auf Urteilen und Extrapolation basiert.

2., Bioinformatik-Tools werden entwickelt, um strukturierte Sammlungen von Expertenaussagen (und nicht nur die in der Literatur erfassten Nasslaborergebnisse) auf neue Genome zu projizieren.

Der Prozess der Integration des aus der Literatur Bekannten in eine Reihe von Expertenaussagen beinhaltet hochkomplexe Entscheidungen und geht weit über die meisten gängigen Bioinformatik-Tools hinaus. Andererseits gibt es allen Grund zu der Annahme, dass vollautomatische Tools entwickelt werden können, um diese Expertenaussagen zu projizieren., Je umfassender und strukturierter die Sammlung von Expertenaussagen ist, desto schneller wird eine genauere Projektionstechnologie entwickelt. Hier ist es erwähnenswert, dass wir von „gut strukturierten“ Expertenaussagen sprechen, da die entwickelten Tools mit ziemlicher Sicherheit zahlreiche Regeln für Sonderfälle enthalten müssen und eine sorgfältige Abgrenzung dieser Regeln am besten von Domänenexperten erreicht werden kann.

Im Rahmen des Projekts zur Annotation von 1000 Genomen wurde eine Technologie zur Erstellung und Pflege von Expertenaussagen entwickelt .,

Diese Technologie beinhaltet einen erfahrenen Kurator, der ein Subsystem als eine Reihe abstrakter funktionaler Rollen definiert. Abbildung 1A zeigt einen sehr einfachen Fall, in dem ein Teilsystem mit der Bezeichnung „Tricarballylatnutzung“ aus vier funktionellen Rollen besteht. Das Subsystem wird aufgefüllt, indem diese funktionellen Rollen mit bestimmten Genen in bestimmten Genomen verbunden werden, wodurch eine Tabelle des Subsystems erstellt wird, in der jede Zeile ein Genom darstellt und jede Spalte einer funktionellen Rolle entspricht, wie in Abbildung 1B gezeigt., Die Proteine, die von den Genen in einer Spalte kodiert werden, werden verwendet, um die subsystembasierten FIGfams zu konstruieren (siehe unten). Die kooperativen Bemühungen zur Entwicklung von Subsystemen haben einen öffentlich zugänglichen Satz solcher besiedelten Subsysteme hervorgebracht, der jetzt über 600 Subsysteme umfasst. Diese Subsysteme umfassen Funktionsaussagen für weit über 500.000 proteinkodierende Gene in über 500 Bakterien-und Archaealgenomen (bezogen auf über 6200 funktionelle Rollen). Diese manuell kuratierte Sammlung stellt Sätze von co-kuratierten Proteinfamilien dar., Es stimmt zwar, dass die Qualität der Assertionen erheblich variiert, aber es stimmt auch, dass diese strukturierten Assertionssätze eine wichtige Ressource beim Aufbau automatisierter Annotationssysteme darstellen.

FIGfams: Eine weitere Gruppe von Proteinfamilien

Eine Reihe von Gruppen hat erhebliche Anstrengungen unternommen, um Proteinfamilien aufzubauen, die jetzt Ressourcen darstellen, die von der Community weit verbreitet und geschätzt werden. RAST nutzt eine neue Kollektion von Proteinfamilien. Diese Sammlung wird als der Satz von FIGfams bezeichnet, und die Veröffentlichung eines detaillierten Berichts über sie ist in Vorbereitung. Jedes FIGfam kann als 3-Tupel betrachtet werden, das aus einer Reihe von Proteinen, einer Familienfunktion und einem Entscheidungsverfahren besteht., Es wird angenommen, dass die Menge der Proteine global ähnlich (und vermutlich homolog) ist und die Mitglieder alle eine gemeinsame Funktion haben. Das Entscheidungsverfahren nimmt eine Proteinsequenz als Eingabe und gibt eine Entscheidung darüber zurück, ob das Protein der Familie hinzugefügt werden kann oder nicht (dh ob das Protein den Mitgliedern global ähnlich ist oder nicht und die gemeinsame Funktion teilt).

Daher sind die grundlegenden Prinzipien, die FIGfams zugrunde liegen, denen der niedrigsten PIR-Familien oder der TIGRfam-Äquivalenz ziemlich ähnlich .,

Die Konstruktion von FIGfams erfolgt konservativ: Es wird darauf geachtet, dass zwei Proteine, die im selben Satz enthalten sind, tatsächlich eine gemeinsame Funktion haben, aber wenn eine erhebliche Unsicherheit darüber besteht, ob zwei Proteine tatsächlich dieselbe Funktion haben oder nicht, werden sie in verschiedenen Familien gehalten. Zwei Proteine werden in derselben Familie platziert:

1. Wenn beide in derselben Spalte einer manuell kuratierten Subsystemtabelle vorkommen (dh wenn sie dieselbe funktionale Rolle implementieren), deckt der von den beiden Sequenzen gemeinsam genutzte Ähnlichkeitsbereich über 70% jeder Sequenz ab.

2., Wenn sie aus eng verwandten Genomen stammen (z. B. Genome von zwei Stämmen derselben Spezies), die Ähnlichkeit hoch ist (normalerweise größer als 90% Identität) und der Kontext auf dem Chromosom (d. H. Den benachbarten Genen) leicht zu korrespondieren ist, dann können sie in derselben Familie platziert werden (auch wenn die Funktion, die sie implementieren, noch nicht bestimmt ist).

Dies sind die beiden Fälle, in denen wir zuversichtlich sind, eine gemeinsame Funktion zwischen zwei Proteinen zu behaupten; Der erste spiegelt eine Expertenaussage wider, und der zweite eine Instanz, in der die Divergenz minimal ist., Die Konstruktion von FIGfams unter Verwendung dieser beiden Gruppierungsprinzipien hat zu einer Sammlung von etwa 17.000 FIGfams geführt, die Proteine enthalten, die mit Subsystemen in Verbindung stehen (dies sind die FIGfams, die wir als subsystembasiert bezeichnen), und über 80.000, die nur Proteine enthalten, die nach dem zweiten Prinzip gruppiert sind (dh die nicht-subsystembasierten FIGfams). Viele der nicht-Subsystem-basierten FIGfams enthalten nur 2, 3 oder 4 Proteine.

Im Laufe der Zeit erwarten wir, dass die nicht-Subsystem-basierten FIGfams zusammengeführt werden., Dies geschieht durch die Schaffung neuer, manuell kuratierter Subsysteme; Diese bilden Kernel neuer Familien, die die isolierten Familien gruppieren, die jetzt existieren.

Es ist erwähnenswert, dass die vorhandene Sammlung von FIGfams den größten Teil der zentralen zellulären Maschinerie mit Familien abdeckt, die aus Subsystemen stammen, und die zahlreichen kleinen, nicht auf Subsystemen basierenden FIGfams die Erkennung von Genen in engen Stämmen effizient unterstützen., Es stimmt zwar, dass wir einen begrenzten Prozentsatz von Genen in neu sequenzierten divergenten Genomen abdecken, aber wir erkennen weit über 90% der Gene in neu sequenzierten Stämmen, die in der Nähe bestehender annotierter Genome liegen. Es scheint wahrscheinlich, dass ein großer Prozentsatz neu sequenzierter Genome in der Nähe bestehender Genome liegen wird (z. B. Projekte zur Sequenzierung von Zehn und bald Hunderten eng verwandter pathogener Stämme), und die FIGfams stellen in solchen Fällen bereits einen wirksamen Erkennungsrahmen dar.,

Die grundlegenden Schritte zur Annotation eines Genoms mit RAST

Die grundlegenden Schritte zur Annotation eines Genoms mit RAST sind in den folgenden Unterabschnitten beschrieben. Eingabe in den Prozess ist ein prokaryotisches Genom in Form einer Reihe von Contigs im FASTA-Format. Wie unten beschrieben, ermöglicht der eigentliche RAST-Server einem Benutzer, eine Reihe von Genaufrufen anzugeben, aber im üblichen Fall führt RAST eigene Anrufe durch. Wir beschreiben nun die grundlegenden Schritte in einer RAST Annotation im Detail.,

Rufen Sie die tRNA-und rRNA-Gene auf

Wir verwenden vorhandene Tools, die von anderen Forschungsteams erstellt wurden, um zuerst sowohl die tRNA-als auch die rRNA-kodierenden Gene zu identifizieren. Für die tRNA-Gene verwenden wir tRNAscan-SE und um die rRNA-kodierenden Gene zu identifizieren, verwenden wir ein von Niels Larsen entwickeltes Tool „search_for_rnas“ (verfügbar vom Autor). Wir beginnen den Prozess, indem wir diese Gene aufrufen, von denen wir glauben, dass sie zuverlässig bestimmt werden können. Dann wird der Server nicht in Betracht ziehen, ein proteinkodierendes Gen beizubehalten, das eine dieser Regionen signifikant überlappt., Leider enthalten die öffentlichen Archive mutmaßliche proteinkodierende Gene, die in rRNAs eingebettet sind. Diese Genaufrufe sind mit ziemlicher Sicherheit Artefakte der Zeit, in der Gruppen lernten, wie man richtige Anmerkungen entwickelt, und RAST versucht, die Verbreitung dieser Fehler zu vermeiden.

Bemühen Sie sich zunächst, proteinkodierende Gene aufzurufen

Sobald die tRNA-und rRNA-genkodierenden Regionen aus der Betrachtung entfernt sind, führen wir einen ersten Aufruf mit GLIMMER2 durch . An dieser Stelle suchen wir eine vernünftige Schätzung der wahrscheinlichen Gene, und GLIMMER2 ist ein ausgezeichnetes Werkzeug für diesen Zweck., In diesem Stadium macht sich RAST keine Sorgen, falsche Gene anzurufen oder genau genannt zu werden. Was benötigt wird, ist, dass die meisten der tatsächlichen proteinkodierenden Gene in der anfänglichen Schätzung mutmaßlicher Gene dargestellt werden.

Phylogenetischer Kontext etablieren

Sobald ein anfänglicher Satz von proteinkodierenden Genen etabliert ist, nehmen wir repräsentative Sequenzen aus einem kleinen Satz von FIGfams, die die Eigenschaft haben, dass sie universell oder fast universell in Prokaryoten sind. Dieser Satz umfasst beispielsweise die tRNA-Synthetasen.,

Mit diesem kleinen Satz von Vertretern suchen wir die proteinkodierenden Gene aus dem neuen Genom nach Vorkommen dieser FIGfams. Es ist anzumerken, dass dies ein sehr schneller Schritt ist, da nur das neue Genom durchsucht wird und es mit einem kleinen Satz repräsentativer Proteinsequenzen durchsucht wird. Das Ergebnis dieses ersten Scans ist ein kleiner Satz (normalerweise 8-15 Gene), mit dem die nächsten phylogenetischen Nachbarn des neu sequenzierten Genoms geschätzt werden können. Dies kann getan werden, indem jedes lokalisierte Gen genommen und gegen die Gene aus dem entsprechenden FIGfam gesprengt wird., Normalerweise versuchen wir, die zehn nächsten Nachbarn zu lokalisieren, aber der Ansatz ist eindeutig unempfindlich gegen die genaue gesuchte Anzahl. Für jedes nachgewiesene Gen passen wir seine Ausgangsposition an und verschieben es aus dem Satz mutmaßlicher Gene in einen Satz bestimmter Gene, und die dem Gen zugewiesene Funktion (dh der Produktname) wird dem FIGfam entnommen.

Eine gezielte Suche basierend auf FIGfams, die in eng verwandten Genomen vorkommen

Sobald die „benachbarten Genome“ bestimmt wurden, können wir den Satz von FIGfams bilden, die in diesen Genomen vorhanden sind., Dies stellt eine Reihe von FIGfams dar, die wahrscheinlich im neuen Genom zu finden sind. Für jedes dieser FIGfams suchen wir das neue Genom. Beachten Sie, dass wir erwarten, dass diese Suchanfragen eine relativ hohe Erfolgsrate haben. Wann immer wir ein Gen finden, passen wir seine Ausgangsposition an und verschieben das Gen aus dem Satz mutmaßlicher Gene in den Satz bestimmter Gene. Die Rechenkosten, die erforderlich sind, um diese Gene zu lokalisieren, sind niedrig (da wir einen sehr kleinen Satz mutmaßlicher Gene suchen).,

Proteinkodierende Gene abrufen

Zu diesem Zeitpunkt haben wir eine Reihe von bestimmten Genen innerhalb des neuen Genoms angesammelt und können jetzt dieses hervorragende Trainingsset verwenden, um die proteinkodierenden Gene abzurufen. Im Falle eines Genoms, das ein eng verwandter Stamm eines oder mehrerer vorhandener Genome ist, kann dieser Trainingssatz weit über 90% der tatsächlichen proteinkodierenden Gene umfassen.

Verarbeitung der verbleibenden Gene gegen die gesamte FIGfam-Sammlung

Die verbleibenden mutmaßlichen Gene können zur Suche gegen die gesamte Sammlung von FIGfams verwendet werden., Dies geschieht durch Strahlen gegen einen repräsentativen Satz von Sequenzen aus den FIGfams, um potenzielle Familien zu bestimmen, die überprüft werden müssen, und dann gegen jede Familie zu überprüfen. Während rechnerisch teurer als die fokussierten Suchen in den vorherigen Schritten, ist es immer noch weit, weit billiger als Strahlen gegen eine große nicht redundante Proteindatenbank. Derzeit umfasst die Sammlung repräsentativer Proteinsequenzen aus FIGfams, die zur Berechnung potenziell relevanter FIGfams verwendet werden, etwas mehr als 100.000 Proteinsequenzen.,

Dieser Schritt führt zu einer umfassenden Suche der FIGfams nach jedem der verbleibenden mutmaßlichen Gene. Sobald es abgeschlossen ist, wurden alle Gene verarbeitet, die mit FIGfams verarbeitet werden konnten.

Restliche Genaufrufe bereinigen (Überlappungen entfernen und Startpositionen anpassen)

Die verbleibenden mutmaßlichen Proteine werden verarbeitet, um Probleme im Zusammenhang mit überlappenden Genaufrufen, Starts, die angepasst werden müssen, usw. zu lösen., Im Fall des RAST-Servers sprengen wir die verbleibenden mutmaßlichen Gene gegen eine große, nicht redundante Proteindatenbank, um festzustellen, ob es ähnlichkeitsbasierte Beweise gibt, die zur Lösung von Konflikten verwendet werden könnten.

Verarbeiten Sie die verbleibenden, nicht annotierten proteinkodierenden Gene

Zu diesem Zeitpunkt werden die verbleibenden mutmaßlichen Gene endgültig zugewiesen. Wenn im vorhergehenden Schritt Ähnlichkeiten berechnet wurden, können auf diese Ähnlichkeiten zugegriffen und Funktionen geltend gemacht werden., Optional kann eine der üblicherweise verwendeten Pipeline-Technologien verwendet werden, um eine Reihe von Tools auszuführen und eine genauere Schätzung zu erstellen. Die mit diesem Ansatz verarbeiteten Gene stellen den größten Teil des Overheads in einer RAST-Annotation dar. Durch die erste Verarbeitung eines Großteils der Gene mit FIGfam-basierter Technologie und fokussierter Suche werden diese Kosten durch RAST minimiert, ohne (wie wir glauben) die Genauigkeit zu verringern.

Konstruieren Sie eine anfängliche metabolische Rekonstruktion

Sobald Funktionszuweisungen vorgenommen wurden, wird eine anfängliche metabolische Rekonstruktion gebildet., Für unsere Zwecke bedeutet dies, Gene im neuen Genom mit funktionellen Rollen in Subsystemen zu verbinden, zu bestimmen, wann eine Reihe von Verbindungen zu einem bestimmten Subsystem ausreicht, um eine aktive Variante des Subsystems zu unterstützen, und den vollständigen Satz aktiver Varianten zu tabellieren. Da die Subsysteme selbst in groben Kategorien angeordnet sind, die grundlegende Funktionsbereiche widerspiegeln, können wir eine detaillierte Schätzung des Genominhalts erstellen, der erfolgreich mit Subsystemen verbunden wurde (siehe Abbildung 2)., Im Falle eines Genoms wie Buchnera aphidicula fallen mehr als 82% der Gene in diese Kategorie; für Escherichia coli O157: H7 sinkt der Prozentsatz auf 76%, während in einem relativ divergierten Genom wie Methanocaldococcus jannaschii DSM 2661 der Prozentsatz, der verbunden werden kann (zu diesem Zeitpunkt), nur 22% beträgt. Abbildung 2 bietet einen kurzen Überblick über die Art der Anzeige, die ein Benutzer verwenden kann, um den Inhalt des neuen Genoms schnell zu erkunden.,

Es sollte betont werden, dass die Subsysteme alle Module zellulärer Maschinen abdecken – nicht nur die Stoffwechselwege., Daher wird das, was wir eine metabolische Rekonstruktion nennen (eine Sammlung der aktiven Varianten von Subsystemen, die identifiziert wurden), besser als eine Gruppierung von Genen in Module gedacht als die Rekonstruktion des metabolischen Netzwerks. Neben der einfachen Zusammenstellung der aktiven Varianten von Subsystemen verwendet der RAST-Server eine Reihe von Szenarien, die in metabolischen Subsystemen codiert sind, um ein metabolisches Reaktionsnetzwerk für den Organismus zusammenzustellen . Diese Szenarien stellen Komponenten des metabolischen Netzwerks dar, in denen bestimmte Verbindungen als Inputs und Outputs (d.h., sie können als gerichtete Module des metabolischen Netzwerks betrachtet werden). Das metabolische Netzwerk wird unter Verwendung von biochemischen Reaktionsinformationen zusammengesetzt, die funktionellen Rollen in Subsystemen zugeordnet sind, um Pfade durch Szenarien von Inputs zu Outputs zu finden. Szenarien, die durch verknüpfte Ein-und Ausgänge verbunden sind, können zu größeren Blöcken des Stoffwechselnetzwerks zusammengesetzt werden, die Prozesse überspannen, die transportierte Nährstoffe in Biomassekomponenten umwandeln., Bei neu sequenzierten Genomen, die denen nahe kommen, die unser Team manuell kuratiert, ist es möglich, direkt abzuschätzen, welcher Prozentsatz des Reaktionsnetzwerks, das typischerweise in einer metabolischen Rekonstruktion im Genommaßstab enthalten ist, automatisch generiert werden kann. Heute produziert der RAST-Server 70-95% des Reaktionsnetzwerks, abhängig von der spezifischen Spezies und dem Genom.