Subsystems: en översikt
det är vanligt att en central roll för bioinformatik är att projicera en relativt liten uppsättning påståenden om Gen-och proteinfunktion från litteraturen (dvs. från våta laboratoriekarakteriseringar) till gener från andra genom., Detta fångar en kärna av sanning (att i slutändan nya påståenden om funktion är baserade på våta lab karakteriseringar), men kanske höjer bioinformatikens roll utöver vad som är rimligt att förvänta sig. Däremot ser vi projektion som en 2-stegs process:
1. I ett första skede integrerar en expert i ett biologiskt ämne vad som är känt från litteraturen som producerar en uppsättning expertuppdrag, som inkluderar påståenden från litteraturen, samt en mycket bredare uppsättning baserad på bedömning och extrapolering.
2., Bioinformatics verktyg utvecklas för att projicera strukturerade samlingar av expert påståenden (snarare än bara de våta lab resultat som fångats i litteraturen) till nya genom.
processen att integrera det som är känt från litteraturen i en uppsättning expertuppdrag innebär mycket komplexa beslut och ligger långt bortom de flesta vanliga bioinformatikverktygen. Å andra sidan finns det all anledning att tro att helt automatiserade verktyg kan utvecklas för att projicera dessa expert påståenden., Ju mer omfattande och välstrukturerade insamlingen av expert påståenden, desto snabbare exakt projektionsteknik kommer att utvecklas. Här är det värt att notera att vi talar om ”välstrukturerade” uppsättningar av expertuppdrag, eftersom de utvecklade verktygen nästan säkert kommer att behöva inkapsla många regler som täcker speciella fall, och en noggrann avgränsning av dessa regler kan bäst uppnås av domänexperter.
en teknik för att skapa och upprätthålla expert påståenden utvecklades inom ramen för projektet för att kommentera 1000 Genom .,
denna teknik innefattar en expertkurator som definierar ett delsystem som en uppsättning abstrakta funktionella roller. Figur 1A visar ett mycket enkelt fall där ett delsystem med namnet ”Trikarballylatutnyttjande” består av fyra funktionella roller. Delsystemet fylls i genom att dessa funktionella roller kopplas till specifika gener i specifika genom, vilket ger ett kalkylblad för delsystemet, där varje rad representerar ett genom och varje kolumn motsvarar en funktionell roll som visas i Figur 1B., Proteinerna kodade av generna i en kolumn används för att konstruera Delsystembaserade FIGfams (diskuteras nedan). Det kooperativa arbetet med att utveckla delsystem har skapat en offentligt tillgänglig uppsättning av sådana befolkade delsystem som nu omfattar över 600 delsystem. Dessa delsystem innefattar påståenden om funktion för över 500 000 proteinkodningsgener i över 500 bakteriella och archaeala genomer (relaterade till över 6200 funktionella roller). Denna manuellt kurerade samling representerar uppsättningar av samhärdade proteinfamiljer., Även om det är sant att kvaliteten på påståendena varierar kraftigt, är det också sant att dessa strukturerade uppsättningar av påståenden utgör en stor resurs för att konstruera automatiserade annoteringssystem.
FIGfams: ännu en uppsättning Proteinfamiljer
ett antal grupper har spenderat stora ansträngningar att bygga proteinfamiljer som nu representerar resurser som används och värderas av samhället ; se för en mer utökad diskussion. RAST använder en ny samling proteinfamiljer. Denna samling kallas uppsättningen FIGfams, och publiceringen av en detaljerad redogörelse för dem är under förberedelse. Varje FIGfam kan ses som en 3-tupel bestående av en uppsättning proteiner, en familjefunktion och ett beslutsförfarande., Uppsättningen proteiner tros vara globalt likartade (och förmodligen homologa) och medlemmarna delar alla en gemensam funktion. Beslutsförfarandet tar som ingång en proteinsekvens och returnerar ett beslut om huruvida proteinet skulle kunna läggas till familjen (dvs huruvida proteinet är globalt lik medlemmarna och delar den gemensamma funktionen).
de grundläggande principer som ligger till grund för FIGfams är därför ganska lika de som motsvarar de lägsta PIR-familjerna eller TIGRfam-ekvivalogarna .,
konstruktionen av FIGfams görs konservativt: försiktighet vidtas för att se till att två proteiner som ingår i samma uppsättning faktiskt delar en gemensam funktion, men om det finns stor osäkerhet om huruvida två proteiner faktiskt delar samma funktion som de hålls i olika familjer. Två proteiner kommer att placeras i samma familj:
1. Om båda förekommer i samma kolumn i ett manuellt kurerat delsystem kalkylblad (dvs. om de genomför samma funktionella roll) och den likhetsregion som delas av de två sekvenserna täcker över 70% av varje sekvens.
2., Om de kommer från närbesläktade genom (t.ex. genom från två stammar av samma art) är likheten hög (vanligtvis större än 90% identitet), och sammanhanget på kromosomen (dvs de intilliggande generna) kan lätt ses för att motsvara, då kan de placeras i samma familj (även om den funktion de implementerar ännu inte är bestämd).
det här är de två fallen där vi känner oss säkra på att hävda en gemensam funktion mellan två proteiner.den första återspeglar ett expertinstrument och den andra en instans där divergensen är minimal., Konstruktion av FIGfams med hjälp av dessa två grupperingsprinciper har lett till en samling av cirka 17 000 FIGfams som innehåller proteiner relaterade till delsystem (de är de FIGfams som vi kallar delsystembaserade) och över 80 000 som innehåller endast proteiner grupperade med den andra principen (dvs. de icke-delsystembaserade FIGfams). Många av de icke-subsystembaserade Figfamerna innehåller bara 2, 3 eller 4 proteiner.
med tiden förväntar vi oss att sammanfoga de icke-subsystembaserade FIGfams., Detta kommer att göras genom att skapa nya, manuellt kurerade delsystem; dessa kommer att bilda kärnor av nya familjer som kommer att gruppera de isolerade familjer som nu finns.
det är värt att notera att den befintliga samlingen av FIGfams täcker de flesta av de centrala cellulära maskinerna med familjer som härrör från delsystem, och de många små icke-subsystembaserade FIGfams stöder effektivt erkännande av gener i nära stammar., Även om det är sant att vi täcker en begränsad andel av gener i nyligen sekvenserade divergerande genomer, vi känner igen väl över 90% av generna i nyligen sekvenserade stammar som är nära befintliga kommenterade genomer. Det verkar troligt att en stor andel av nysekvenserade genom kommer att ligga nära befintliga genom (t.ex. notera projekt för att sekvensera tiotals och snart hundratals närbesläktade patogena stammar), och FIGfams utgör redan en effektiv erkännanderam i sådana fall.,
de grundläggande stegen i att kommentera ett Genom med RAST
de grundläggande stegen som används för att kommentera ett Genom med RAST beskrivs i underavsnitten nedan. Ingång till processen är ett prokaryotiskt genom i form av en uppsättning contigs i FASTA-format. Som beskrivs nedan kommer den faktiska RAST-servern att tillåta en användare att ange en uppsättning gensamtal, men i vanligt fall kommer RAST att ringa egna samtal. Vi beskriver nu de grundläggande stegen i en RAST anteckning i detalj.,
Ring tRNA-och rRNA-generna
vi använder befintliga verktyg som byggts av andra forskargrupper för att först identifiera både tRNA-och rRNA-kodningsgenerna. För tRNA-generna använder vi tRNAscan-SE och för att identifiera rRNA-kodningsgener använder vi ett verktyg ”search_for_rnas” utvecklat av Niels Larsen (tillgängligt från författaren). Vi börjar processen genom att kalla dessa gener, som vi tror kan bestämmas på ett tillförlitligt sätt. Då kommer servern inte att överväga att behålla någon proteinkodningsgen som väsentligt överlappar någon av dessa regioner., Tyvärr innehåller de offentliga arkiven förmodade proteinkodningsgener som är inbäddade i rRNAs. Dessa genanrop är nästan säkert artefakter av den period då grupper lärde sig att utveckla riktiga anteckningar och RAST försöker undvika att sprida dessa fel.
gör ett första försök att kalla Proteinkodningsgener
När tRNA-och rRNA-genkodningsregionerna tas bort från övervägande gör vi ett första samtal med GLIMMER2 . Vid denna tidpunkt söker vi en rimlig uppskattning av sannolika gener, och GLIMMER2 är ett utmärkt verktyg för detta ändamål., I detta skede är RAST inte oroad över att ringa falska gener eller få börjar kallas exakt. Vad som behövs är att de flesta av de faktiska proteinkodningsgenerna representeras i den ursprungliga uppskattningen av putativa gener.
etablerar fylogenetiskt sammanhang
När en initial uppsättning proteinkodningsgener har upprättats tar vi representativa sekvenser från en liten uppsättning FIGfams som har egenskapen att de är universella eller nästan universella i prokaryoter. Denna uppsättning innehåller till exempel tRNA synthetases.,
med hjälp av denna lilla uppsättning representanter söker vi proteinkodningsgener från det nya genomet för förekomster av dessa FIGfams. Det bör noteras att detta är ett mycket snabbt steg, eftersom endast det nya genomet söks, och det söks med en liten uppsättning representativa proteinsekvenser. Resultatet av denna första genomsökning är en liten uppsättning (normalt 8-15 gener) som kan användas för att uppskatta de närmaste fylogenetiska grannarna till det nyligen sekvenserade genomet. Detta kan göras genom att ta varje placerad gen och spränga den mot generna från motsvarande FIGfam., Normalt försöker vi hitta de tio närmaste grannarna, men det är uppenbart att tillvägagångssättet är okänsligt för det exakta antalet som eftersträvas. För varje detekterad gen justerar vi startpositionen och flyttar den från uppsättningen putativa gener till en uppsättning bestämda gener och funktionen (dvs produktnamn) som tilldelats genen tas från FIGfam.
en riktad sökning baserad på FIGfams som förekommer i närbesläktade genom
När ”angränsande Genom” har bestämts kan vi bilda uppsättningen FIGfams som finns i dessa genom., Detta utgör en uppsättning FIGfams som sannolikt kommer att hittas i det nya genomet. För var och en av dessa FIGfams söker vi det nya genomet. Observera att vi förväntar oss att dessa sökningar har en relativt hög grad av framgång. När vi hittar en gen justerar vi startpositionen och flyttar genen från uppsättningen av putativa gener till uppsättningen bestämda gener. De beräkningskostnader som krävs för att lokalisera dessa gener är låga (eftersom vi söker en mycket liten uppsättning putative gener).,
minns Proteinkodningsgener
vid denna tidpunkt har vi samlat en uppsättning bestämda gener inom det nya genomet och kan nu använda denna utmärkta träningsuppsättning för att återkalla proteinkodningsgenerna. I fallet med ett genom som är en nära besläktad stam av ett eller flera befintliga genom kan denna utbildning uppsättning väl omfatta över 90% av de faktiska proteinkodande generna.
bearbeta de återstående generna mot hela FIGfam-samlingen
de putativa generna som kvarstår kan användas för att söka mot hela samlingen av FIGfams., Detta görs genom sprängning mot en representativ uppsättning sekvenser från FIGfams för att bestämma potentiella familjer som behöver kontrolleras och sedan kontrollera mot varje familj. Medan beräkningsmässigt dyrare än de fokuserade sökningarna i föregående steg är det fortfarande långt, mycket billigare än sprängning mot en stor icke-redundant proteindatabas. För närvarande innehåller samlingen av representativa proteinsekvenser från FIGfams som används för att beräkna potentiellt relevanta FIGfams något över 100 000 proteinsekvenser.,
detta steg innebär en omfattande sökning av FIGfams för var och en av de återstående putativa generna. När det har slutförts har alla gener som kan behandlas med FIGfams bearbetats.
rensa upp återstående Genanrop (ta bort överlappningar och justera startpositioner)
de putativa proteinerna som kvarstår behandlas för att försöka lösa problem som rör överlappande gensamtal, börjar som måste justeras och så vidare., När det gäller RAST-servern spränger vi de återstående putativa generna mot en stor icke-redundant proteindatabas i ett försök att avgöra om det finns likhetsbaserade bevis som kan användas för att lösa konflikter.
bearbeta de återstående, Oannoterade Proteinkodningsgenerna
vid denna tidpunkt görs slutliga uppdrag av funktion till de återstående putativa generna. Om likheter beräknades i föregående steg kan dessa likheter nås och funktioner kan hävdas., Eventuellt kan man använda någon av de allmänt använda rörledningsteknikerna för att köra en uppsättning verktyg och producera en mer exakt uppskattning. De gener som behandlas med detta tillvägagångssätt representerar det mesta av overhead i en RAST anteckning. Genom att först bearbeta en majoritet av generna med hjälp av FIGfam-baserad teknik och fokuserade sökningar minimeras denna kostnad av RAST utan att (vi tror) minska noggrannheten.
konstruera en Initial metabolisk rekonstruktion
När uppdrag av funktion har gjorts bildas en initial metabolisk rekonstruktion., För våra ändamål är detta att ansluta gener i det nya genomet till funktionella roller i delsystem, bestämma när en uppsättning anslutningar till ett specifikt delsystem är tillräckliga för att stödja en aktiv variant av delsystemet och tabuera den kompletta uppsättningen aktiva varianter. Eftersom delsystemen själva är ordnade i råkategorier som återspeglar grundläggande funktionsdivisioner kan vi producera en detaljerad uppskattning av genominnehållet som framgångsrikt har kopplats till delsystem (se Figur 2)., I fallet med en arvsmassa som Buchnera aphidicula, över 82% av de gener som faller in i denna kategori, för Escherichia coli O157:H7 andelen sjunker till 76%, medan den i en relativt skilde sig arvsmassan som Methanocaldococcus jannaschii DSM 2661 andelen som kan anslutas (vid denna tidpunkt) är endast 22%. Figur 2 ger en kort översikt över vilken typ av skärm en användare kan använda för att snabbt utforska innehållet i det nya genomet.,
det bör understrykas att delsystemen täcker alla moduler av cellulära maskiner – inte bara de metaboliska vägarna., Därför är vad vi kallar en metabolisk rekonstruktion (en samling av de aktiva varianterna av delsystem som har identifierats) mer korrekt tänkt på som en gruppering av gener i moduler, snarare än återuppbyggnaden av det metaboliska nätverket. Men förutom att helt enkelt sammanställa uppsättningen aktiva varianter av delsystem använder RAST-servern en uppsättning scenarier kodade i metaboliska delsystem för att montera ett metaboliskt reaktionsnätverk för organismen . Dessa scenarier representerar komponenter i det metaboliska nätverk där specifika föreningar är märkta som in-och utgångar (dvs.,, de kan tänkas som riktade moduler i det metaboliska nätverket). Det metaboliska nätverket monteras med hjälp av biokemisk reaktionsinformation i samband med funktionella roller i delsystem för att hitta vägar genom scenarier från ingångar till utgångar. Scenarier som är kopplade till länkade ingångar och utgångar kan bestå för att bilda större block i det metaboliska nätverket, som spänner över processer som omvandlar transporterade näringsämnen till biomassakomponenter., När det gäller nyligen sekvenserade genom som ligger nära de som vårt team manuellt curerar, är det möjligt att direkt uppskatta vilken procentandel av reaktionsnätet som vanligtvis ingår i en genomskala metabolisk rekonstruktion kan genereras automatiskt. Idag producerar RAST-servern 70-95% av reaktionsnätet, beroende på den specifika arten och genomet.