Site Overlay

RAST Server: Hurtig Annotationer ved hjælp af Delsystemer Teknologi

Delsystemer: en Oversigt

Det er en udbredt opfattelse, at en central rolle i bioinformatik er at projicere et relativt lille sæt af påstande af gen-og protein funktion fra litteraturen (dvs, fra våd lab beskrivelser) til gener fra andre genomer., Dette tager en kerne af sandhed (at, i sidste ende, nye påstande af funktion er baseret på våd lab beskrivelser), men måske hæver den rolle, bioinformatik, end hvad der er rimeligt at forvente. I modsætning hertil ser vi projektion som en 2-trins proces:

1. I en indledende fase integrerer en ekspert i et biologisk emne det, der er kendt fra litteraturen, og producerer et sæt ekspertpåstande, der inkluderer påstandene fra litteraturen, samt et langt bredere sæt baseret på Dom og ekstrapolering.

2., Bioinformatikværktøjer er udviklet til at projicere strukturerede samlinger af ekspertpåstande (snarere end blot de våde laboratorieresultater, der er fanget i litteraturen) til nye genomer.

processen med at integrere det, der er kendt fra litteraturen, i et sæt ekspertpåstande involverer meget komplekse beslutninger og ligger langt ud over de fleste af de fælles bioinformatikværktøjer. På den anden side er der al mulig grund til at tro, at fuldt automatiserede værktøjer kan udvikles til at projicere disse ekspertpåstande., Jo mere omfattende og velstruktureret samlingen af ekspertpåstande er, desto hurtigere vil nøjagtig projektionsteknologi blive udviklet. Her er det værd at bemærke, at vi taler om “velstrukturerede” sæt ekspertpåstande, da de udviklede værktøjer næsten helt sikkert skal indkapsle adskillige regler, der dækker særlige tilfælde, og en omhyggelig afgrænsning af disse regler kan bedst opnås af domæneeksperter.

en teknologi til oprettelse og vedligeholdelse af ekspertpåstande blev udviklet inden for rammerne af projektet for at kommentere 1000 genomer .,

denne teknologi involverer en ekspertkurator, der definerer et delsystem som et sæt abstrakte funktionelle roller. Figur 1A viser et meget simpelt tilfælde, hvor et delsystem med navnet “Tricarballylate utili .ation” består af fire funktionelle roller. Delsystemet er befolket ved at forbinde disse funktionelle roller til specifikke gener i bestemte genomer, der producerer et delsystem, regneark, hvor hver række repræsenterer et genom, og hver enkelt kolonne svarer til en funktionel rolle, som vist i Figur 1B., Proteinerne kodet af generne i en kolonne bruges til at konstruere de delsystembaserede FIGfams (diskuteret nedenfor). Den kooperative indsats for at udvikle delsystemer har produceret et offentligt tilgængeligt sæt af sådanne befolkede delsystemer, der nu omfatter over 600 delsystemer. Disse delsystemer omfatter påstande om funktion for langt over 500.000 protein-kodende gener i over 500 bakterielle og arkaeale genomer (vedrørende over 6200 funktionelle roller). Denne manuelt kuraterede samling repræsenterer sæt af co-kuraterede proteinfamilier., Selv om det er rigtigt, at kvaliteten af de påstande varierer betydeligt, er det også rigtigt, at disse strukturerede sæt af påstande udgør en vigtig ressource i opbygningen af automatiserede annotationssystemer.

Figur 1

Eksempel Tricarballylate Udnyttelse Delsystem. A) delsystemet består af 4 funktionelle roller., B) delsystemet regneark er befolket med gener fra 5 organismer (forenklet fra det oprindelige delsystem), hvor hver række repræsenterer en organisme og hver kolonne en funktionel rolle. Gener, der udfører den specifikke funktionelle rolle i den respektive organisme, befolker den respektive celle. Grå skygge af celler indikerer nærhed af de respektive gener på kromosomerne. Der er to forskellige varianter af delsystemet: variant 1, med alle 4 funktionelle roller og variant 2, hvor den 3.funktionelle rolle mangler.,

FIGfams: Endnu et Sæt af Protein Familier

En række af grupper, der har brugt betydelige kræfter på at opbygge protein familier, der nu repræsenterer ressourcer, der er meget udbredt og værdsat af samfundet ; se for en mere omfattende diskussion. RAST udnytter en ny samling af protein familier. Denne samling kaldes sæt FIGfams, og offentliggørelsen af en detaljeret redegørelse for dem er under forberedelse. Hver FIGfam kan betragtes som en 3-tupel sammensat af et sæt proteiner, en familiefunktion og en beslutningsprocedure., Sættet af proteiner antages at være globalt ens (og formodentlig homologe), og medlemmerne har alle en fælles funktion. Beslutningsproceduren tager som input en proteinsekvens og returnerer en beslutning om, hvorvidt proteinet kunne tilsættes til familien (dvs.om proteinet globalt ligner medlemmerne og deler den fælles funktion).

derfor er de grundlæggende principper, der ligger til grund for FIGfams, meget lig dem, der svarer til De laveste PIR-familier eller TIGRfam-e .uivaloger .,

opførelsen af FIGfams er udført konservativt: pleje er truffet for at sikre, at to proteiner, der indgår i det samme sæt faktisk deler en fælles funktion, men hvis betydelige usikkerhed om, hvorvidt eller ikke to proteiner faktisk deler den samme funktion, de er holdt i forskellige familier. To proteiner placeres i samme familie:

1. Hvis begge forekommer i den samme kolonne i et manuelt kurateret delsystem-regneark (dvs.hvis de implementerer den samme funktionelle rolle), og lighedsområdet, der deles af de to sekvenser, dækker over 70% af hver sekvens.

2., Hvis de kommer fra nært beslægtede genomer (fx, genomer fra to stammer af samme art), ligheden er høj (normalt større end 90% identitet), og en sammenhæng på kromosom (dvs, den tilstødende gener) kan let ses at svare, så kan de være placeret i samme familie (selv hvis den funktion, de gennemfører, er endnu ikke fastlagt).

Dette er de to tilfælde, hvor vi føler os sikre på at hævde en fælles funktion mellem to proteiner; den første afspejler en ekspertpåstand, og den anden et tilfælde, hvor divergens er minimal., Opførelsen af FIGfams ved hjælp af disse to gruppering principper har ført til en samling af omkring 17.000 FIGfams, der indeholder proteiner, der er relateret til delsystemer (disse er de FIGfams, at vi kalder delsystem-baseret), og over 80.000, der kun indeholder proteiner, der er grupperet ved hjælp af det andet princip (dvs ikke-delsystem-baseret FIGfams). Mange af de ikke-delsystembaserede FIGfams indeholder kun 2, 3 eller 4 proteiner.

Over tid forventer vi at samle de ikke-delsystembaserede FIGfams., Dette gøres ved at oprette nye, manuelt kuraterede delsystemer; disse vil danne kerner af nye familier, der grupperer de isolerede familier, der nu findes.

Det er værd at bemærke, at den eksisterende samling af FIGfams dækker de fleste af de centrale cellulære maskiner med familier, der stammer fra delsystemer, og de mange små ikke-delsystem-baseret FIGfams effektivt støtter en anerkendelse af gener i tæt stammer., Selvom det er sandt, at vi dækker en begrænset procentdel af gener i nyligt sekventerede divergerende genomer, genkender vi godt over 90% af generne i nyligt sekventerede stammer, der er tæt på eksisterende annoterede genomer. Det forekommer sandsynligt, at en stor procentdel af nyligt sekventeret genomer vil være tæt på eksisterende genomer (fx, bemærk projekter sekvens tiere og snart hundredvis af nært beslægtede stammer, der er patogene), og FIGfams allerede udgør en effektiv anerkendelse ramme i sådanne tilfælde.,

de grundlæggende trin i kommentering af et genom ved hjælp af RAST

de grundlæggende trin, der bruges til at kommentere et genom ved hjælp af RAST, er beskrevet i underafsnittene nedenfor. Input til processen er et prokaryotisk genom i form af et sæt contigs i FASTA-format. Som beskrevet nedenfor giver den faktiske RAST-server en bruger mulighed for at specificere et sæt genopkald, men i det sædvanlige tilfælde foretager RAST sine egne opkald. Vi beskriver nu de grundlæggende trin i en RAST-annotation i detaljer.,

ring til tRNA-og rRNA-generne

Vi bruger eksisterende værktøjer bygget af andre forskerteam til først at identificere både tRNA-og rRNA-kodningsgenerne. Til tRNA-generne bruger vi tRNAscan-SE og til at identificere rRNA-kodningsgenerne bruger vi et værktøj” search_for_rnas ” udviklet af Niels Larsen (tilgængelig fra forfatteren). Vi begynder processen ved at kalde disse gener, som vi mener kan bestemmes pålideligt. Derefter vil serveren ikke overveje at bevare noget proteinkodende gen, der signifikant overlapper nogen af disse regioner., Desværre indeholder de offentlige arkiver formodede proteinkodende gener, der er indlejret i rRNA ‘ er. Disse genopkald er næsten helt sikkert artefakter fra den periode, hvor grupper lærte at udvikle korrekte kommentarer, og RAST forsøger at undgå at udbrede disse fejl.

lav en indledende indsats for at kalde proteinkodende gener

Når tRNA-og rRNA-genkodningsregionerne er fjernet fra overvejelse, foretager vi et første opkald ved hjælp af GLIMMER2 . På dette tidspunkt søger vi et rimeligt skøn over sandsynlige gener, og GLIMMER2 er et fremragende værktøj til dette formål., På dette stadium er RAST ikke bekymret for at kalde falske gener eller Få starter kaldet præcist. Det, der er behov for, er, at de fleste af de faktiske proteinkodende gener er repræsenteret i det oprindelige skøn over formodede gener.

Om Fylogenetisk Sammenhæng

Når et første sæt af protein-kodning gener er blevet etableret, tager vi repræsentant sekvenser fra et lille sæt af FIGfams, der har den egenskab, at de er universelle eller næsten universel i prokaryotes. Dette sæt inkluderer for eksempel tRNA-syntetaserne.,

Ved hjælp af dette lille sæt repræsentanter søger vi de proteinkodende gener fra det nye genom for forekomster af disse FIGfams. Det skal bemærkes, at dette er et meget hurtigt skridt, da kun det nye genom søges, og det søges ved hjælp af et lille sæt repræsentative proteinsekvenser. Resultatet af denne indledende scanning er et lille sæt (normalt 8-15 gener), der kan bruges til at estimere de nærmeste fylogenetiske naboer af det nyligt sekventerede genom. Dette kan gøres ved at tage hvert lokaliseret gen og sprænge det mod generne fra den tilsvarende FIGfam., Normalt forsøger vi at finde de ti nærmeste naboer, men det er klart, at tilgangen er ufølsom over for det nøjagtige antal, der søges. For hvert detekteret gen justerer vi dets startposition og flytter det fra sæt formodede gener til et sæt bestemte gener, og funktionen (dvs.Produktnavn) tildelt genet er taget fra FIGfam.

En Målrettet Søgning Baseret på FIGfams, der Sker i Nært Beslægtet Genomer

Når den “tilstødende genomer” er blevet fastsat, kan vi danne det sæt af FIGfams, der er til stede i disse genomer., Dette udgør et sæt FIGfams, der sandsynligvis findes i det nye genom. For hver af disse FIGfams søger vi det nye genom. Bemærk, at vi forventer, at disse søgninger har en relativt høj succesrate. Hver gang vi finder et gen, justerer vi dets startposition og flytter genet fra sæt formodede gener til sæt af bestemte gener. Beregningsomkostningerne, der kræves for at lokalisere disse gener, er lave (da vi søger et meget lille sæt formodede gener).,

Recall Protein-Encoding gener

På dette tidspunkt har vi akkumuleret et sæt bestemte gener i det nye genom og kan nu bruge dette fremragende træningssæt til at huske de protein-kodende gener. I tilfælde af et genom, der er en nært beslægtet stamme af en eller flere eksisterende genomer, kan dette træningssæt godt omfatte over 90% af de faktiske proteinkodende gener.

behandling af de resterende gener mod hele FIGfam-samlingen

de formodede gener, der forbliver, kan bruges til at søge mod hele samlingen af FIGfams., Dette gøres ved sprængning mod et repræsentativt sæt sekvenser fra FIGfams at bestemme potentielle familier, der skal kontrolleres, og derefter kontrol mod hver familie. Mens beregningsmæssigt dyrere end de fokuserede søgninger i de foregående trin, er det stadig langt, langt billigere end sprængning mod en stor ikke-redundant protein database. I øjeblikket inkluderer samlingen af repræsentative proteinsekvenser fra FIGfams, der bruges til at beregne potentielt relevante FIGfams, noget over 100,000 proteinsekvenser.,

dette trin udgør en omfattende søgning af FIGfams for hvert af de resterende formodede gener. Når det er afsluttet, er alle de gener, der kunne behandles ved hjælp af FIGfams, blevet behandlet.

Ryd op resterende genopkald (Fjern overlapninger og juster startpositioner)

de formodede proteiner, der forbliver, behandles for at forsøge at løse problemer, der vedrører overlappende genopkald, starter, der skal justeres, og så videre., I tilfælde af RAST-serveren sprænger vi de resterende formodede gener mod en stor ikke-redundant proteindatabase i et forsøg på at afgøre, om der er lighedsbaserede beviser, der kan bruges til at løse konflikter.

behandle de resterende, ikke-annoterede proteinkodende gener

På dette tidspunkt foretages endelige funktionstildelinger til de resterende formodede gener. Hvis ligheder blev beregnet i det foregående trin, disse ligheder kan tilgås og funktioner kan hævdes., Valgfrit kan man anvende en af de almindeligt anvendte rørledningsteknologier til at køre en række værktøjer og producere et mere præcist skøn. Generne behandlet ved hjælp af denne fremgangsmåde repræsenterer det meste af overhead i en RAST annotation. Ved først at behandle et flertal af generne ved hjælp af FIGfam-baseret teknologi og fokuserede søgninger minimeres denne pris ved RAST uden (Vi tror) at reducere nøjagtigheden.

Konstruer en Initial metabolisk rekonstruktion

Når funktionstildelingen er udført, dannes en initial metabolisk rekonstruktion., Til vores formål svarer dette til at forbinde gener i det nye genom til funktionelle roller i delsystemer, bestemme, hvornår et sæt forbindelser til et specifikt delsystem er tilstrækkelige til at understøtte en aktiv variant af delsystemet og tabulere det komplette sæt aktive varianter. Da delsystemerne selv er arrangeret i rå kategorier, der afspejler grundlæggende funktioner, kan vi producere et detaljeret skøn over genomindholdet, der blev forbundet med delsystemer (se figur 2)., I tilfælde af en genom, som Buchnera aphidicula, på over 82% af de gener, der falder i denne kategori, Escherichia coli O157:H7 procentdelen falder til 76%, mens der i en relativt afveget genom som Methanocaldococcus jannaschii DSM 2661 den procentdel, der kan være forbundet med (på dette tidspunkt) er det kun 22%. Figur 2 giver en kort oversigt over den type skærm, en bruger kan anvende til hurtigt at udforske indholdet af det nye genom.,

Figur 2

Gener forbundet delsystemer og deres fordeling i de forskellige kategorier. Kategorierne kan udvides ned til det specifikke gen (se sekundær metabolisme).

det skal understreges, at delsystemerne dækker alle moduler af cellulære maskiner – ikke kun de metaboliske veje., Derfor, hvad vi kalder en metabolisk genopbygning (en samling af de aktive varianter af delsystemer, der er blevet identificeret) er mere korrekt tænkt som en gruppering af gener i moduler, snarere end genopbygningen af den metaboliske netværk. Udover blot at kompilere sæt af aktive varianter af delsystemer bruger RAST-serveren et sæt scenarier kodet i metaboliske delsystemer til at samle et metabolisk reaktionsnetværk for organismen . Disse scenarier repræsenterer komponenter i det metaboliske netværk, hvor specifikke stoffer er mærket som input og output (dvs .,, kan de betragtes som rettede moduler i det metaboliske netværk). Det metaboliske netværk samles ved hjælp af biokemisk reaktionsinformation forbundet med funktionelle roller i delsystemer for at finde stier gennem scenarier fra input til output. Scenarier, der er forbundet med forbundne input og output, kan sammensættes til at danne større blokke af det metaboliske netværk, der spænder over processer, der omdanner transporterede næringsstoffer til biomassekomponenter., I tilfælde af nyligt sekventeret genomer, der er tæt på dem, vores team manuelt kuraterer, er det muligt direkte at vurdere, hvad procent af den reaktion netværk, der typisk indgår i en genom-skala metaboliske genopbygning kan genereres automatisk. I dag producerer RAST-serveren 70-95% af reaktionsnetværket afhængigt af den specifikke art og genom.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *