Undersystemer: en Oversikt
Det er ofte hatt en sentral rolle i bioinformatikk er å projisere et relativt lite sett av påstander av gen og protein funksjon fra litteraturen (dvs., fra våte lab karakterisering) til gener fra andre genomer., Dette fanger opp en kjerne av sannhet (som, til slutt, nye påstander om funksjonen er basert på våt lab karakterisering), men, kanskje, løfter den rollen bioinformatikk utover det som er rimelig å forvente. I kontrast, som vi ser projeksjon som en 2-trinns prosess:
1. I en innledende fase, en ekspert i en biologisk emne integrerer det som er kjent fra litteraturen, som produserer et sett av sakkyndige erklæringer, som inkluderer påstander fra litteraturen, samt en langt bredere sett basert på skjønn og ekstrapolasjon.
2., Bioinformatikk-verktøy som er utviklet til prosjektet strukturert samlinger av sakkyndige erklæringer (snarere enn bare den våte lab resultater tatt i litteraturen) til nye genomer.
prosessen med å integrere det som er kjent fra litteraturen til et sett av sakkyndige erklæringer innebærer svært komplekse beslutninger og er langt mer enn de fleste vanlige bioinformatikk-verktøy. På den annen side, er det all grunn til å tro at fullt automatisert verktøy kan utvikles til å projisere disse sakkyndige erklæringer., Den er mer omfattende og godt strukturert innsamling av sakkyndige erklæringer, jo mer raskt og nøyaktig projeksjon teknologien vil bli utviklet. Her er det verdt å merke seg at vi snakker om «godt strukturert» sett med sakkyndige erklæringer, siden utviklet verktøy vil nesten helt sikkert trenger å kapsle mange regler som dekker spesielle tilfeller, og en grundig fremstilling av disse reglene kan best oppnås ved domene eksperter.
En teknologi for å lage og vedlikeholde ekspert påstander ble utviklet innenfor rammen av Prosjektet til å Kommentere 1000 Genomer .,
Denne teknologien innebærer en ekspert kurator definere et delsystem som et sett av abstrakte funksjonelle roller. Figur 1A viser en veldig enkel sak der et delsystem som heter «Tricarballylate Utnyttelse» er sammensatt av fire funksjonelle roller. Delsystemet er befolket av å koble disse funksjonelle roller til bestemte spesifikke gener i genomet, produsere et delsystem regneark, der hver rad representerer ett genom og hver kolonne tilsvarer en funksjonell rolle som vist i Figur 1B., Proteiner er kodet av gener i en kolonne brukes til å konstruere delsystemet-basert FIGfams (diskutert nedenfor). Den felles innsats for å utvikle undersystemer har produsert en offentlig tilgjengelig satt av slike befolket undersystemer som nå omfatter over 600 delsystemer. Disse undersystemer inkluderer påstander av funksjonen for godt over 500 000 protein-koding gener i over 500 bakteriell og archaeal genomer (relatert til over 6200 funksjonelle roller). Dette manuelt kuratert samling representerer setter av co-kuratert protein familier., Mens det er sant at kvaliteten på påstander varierer betydelig, det er også sant at disse strukturert sett av påstander representerer en viktig ressurs i å bygge automatiserte kommentar systemer.
FIGfams: Enda et Sett av Protein Familier
En rekke grupper har brukt betydelig innsats for å bygge protein familier som nå representerer ressurser som er mye brukt og verdsatt av samfunnet ; se for en mer utvidet diskusjon. RAST benytter en ny samling av protein familier. Denne samlingen er referert til som et sett av FIGfams, og publisering av en detaljert redegjørelse av dem er under utarbeidelse. Hver FIGfam kan være tenkt som en 3-tuple består av et sett av proteiner, en familie funksjon, og en avgjørelse prosedyre., Sett av proteiner antas å være globalt lignende (og, presumptivt, homologe), og alle medlemmer har en felles funksjon. Beslutningen om prosedyren tar som inndata et protein sekvens og returnerer en beslutning om hvorvidt eller ikke protein kan legges til familien (dvs., om ikke protein er globalt lignende til medlemmer og andeler felles funksjon).
Derfor, de grunnleggende prinsippene underliggende FIGfams er ganske lik de tilsvarende det laveste nivå PIR familier eller TIGRfam equivalogs .,
bygging av FIGfams er gjort konservativt: omsorg er tatt for å sørge for at to proteiner som inngår i samme sett faktisk deler en felles funksjon, men hvis det er betydelig usikkerhet eksisterer om hvorvidt eller ikke to proteiner faktisk dele samme funksjon de er holdt i forskjellige familier. To proteiner vil bli plassert i samme familie:
1. Hvis begge forekommer i samme kolonne av en manuelt kuratert delsystem regneark (dvs., hvis de gjennomfører de samme funksjonelle rolle) og den regionen i likhet deles av to sekvenser dekker over 70% av hver sekvens.
2., Hvis de kommer fra nært knyttet genomer (f.eks., genomer fra to stammer av samme art), likheten er høy (vanligvis større enn 90% identitet), og konteksten på kromosom (dvs., tilstøtende gener) kan lett bli sett på å svare, da de kan være plassert i samme familie (selv om den funksjonen de implementere er ennå ikke bestemt).
Dette er to tilfeller der vi føler oss trygge i å hevde en felles funksjon mellom to proteiner; det første reflekterer en ekspert påstand, og den andre et eksempel der forskjellene er minimale., Bygging av FIGfams ved hjelp av disse to gruppering prinsipper har ført til en samling av ca 17000 FIGfams som inneholder proteiner i slekt å undersystemer (de som er FIGfams som vi kaller subsystem-basert) og over 80 000 som bare inneholder proteiner gruppert med det andre prinsippet (dvs. ikke-delsystem-basert FIGfams). Mange av de ikke-delsystem-basert FIGfams inneholder bare 2, 3 eller 4 proteiner.
Over tid forventer vi å samle de ikke-delsystem-basert FIGfams., Dette vil bli gjort ved å lage nye, manuelt kuratert undersystemer, og disse vil danne kjerner av nye familier som vil gruppen isolerte familier som nå eksisterer.
Det er verdt å merke seg at den eksisterende samlingen av FIGfams dekker det meste av det sentrale mobile maskiner med familier som er avledet fra undersystemer, og de mange små ikke-delsystem-basert FIGfams effektivt støtte anerkjennelse av gener i nærheten stammer., Mens det er sant at vi dekker en begrenset andel av gener i nylig sekvensert divergerende genomer, kjenner vi godt over 90% av genene i nylig sekvensert stammer som er nær eksisterende forklart genomer. Det virker sannsynlig at en stor andel av nylig sekvensert genomet vil være nær eksisterende genomer (for eksempel, merk prosjekter for å sekvens tiere og snart hundrevis av nært beslektede patogene stammer), og FIGfams allerede utgjør en effektiv anerkjennelse rammeverk i slike tilfeller.,
De Grunnleggende Trinnene i legge tilmerknader et Genom ved Hjelp RAST
De grunnleggende trinnene som er brukt til å kommentere et genom ved hjelp RAST er beskrevet i underkategoriene nedenfor. Input til prosessen er en prokaryotic genom i form av et sett av contigs i FASTA-format. Som beskrevet nedenfor, kan den faktiske RAST server vil tillate en bruker å spesifisere et sett av genet samtaler, men i vanlig tilfelle RAST vil gjøre sine egne samtaler. Vi skal nå beskrive de grunnleggende trinnene i en RAST kommenteres i detalj.,
Ring tRNA og rRNA gener
Vi bruke eksisterende verktøy bygget av andre forskningsmiljøer for å først identifisere både tRNA og rRNA-koding gener. For tRNA-gener vi bruker tRNAscan-SE og å identifisere rRNA-koding gener vi bruke et verktøy «search_for_rnas» utviklet av Niels Larsen (tilgjengelig fra forfatteren). Vi begynner prosessen ved å ringe disse genene, som vi tror kan være pålitelig fast bestemt på. Så, serveren vil ikke vurdere å beholde noe protein-koding genet som i betydelig grad overlapper noen av disse regionene., Dessverre, det offentlige arkiver inneholder antatte protein-koding gener som er innebygd i rRNAs. Disse genet samtaler, er nesten helt sikkert gjenstander i den perioden hvor gruppene var å lære å utvikle riktig kommentarer, og RAST forsøk på å unngå å spre disse feilene.
Gjør et Første Forsøk på å Ringe Protein-Koding Gener
Når tRNA og rRNA gen-koding regioner er fjernet fra betraktning, kan vi gjøre en innledende samtale med GLIMMER2 . På dette punktet har vi søker en rimelig beregning av sannsynlige gener, og GLIMMER2 er et utmerket verktøy for dette formålet., På dette stadiet, RAST er ikke bekymret for å ringe falske gener eller få starter kalt nøyaktig. Hva som er nødvendig er at de fleste av de faktiske protein-koding gener er representert i den første estimat av mulige gener.
Etablere Fylogenetisk Kontekst
Når et første sett av protein-koding gener har blitt etablert, vi tar representant sekvenser fra et lite sett av FIGfams som har den egenskapen at de er universelle eller nesten universelt i prokaryotes. Dette settet inkluderer, for eksempel, tRNA synthetases.,
ved Hjelp av denne lille sett av representanter vi søker protein-koding gener fra den nye genom for forekomster av disse FIGfams. Det bør bemerkes at dette er en veldig rask trinn, siden det kun er den nye genom er som søkte, og det foretas ved hjelp av et lite sett av representant protein sekvenser. Utfallet av denne første skanningen er et lite sett (normalt, 8-15 turistinformasjon gener) som kan brukes til å anslå den nærmeste fylogenetisk naboer av den nylig sekvensert genomet. Dette kan gjøres ved å ta hvert som ligger genet og sprengningsarbeid det mot gener fra tilsvarende FIGfam., Normalt, vi forsøker å finne de ti nærmeste naboer, men klart tilnærming er upåvirkelig av det nøyaktige antallet søkt. Etter hvert oppdaget genet, vi justere sin startposisjon og flytte det fra settet av mulige gener til et bestemt sett av gener og funksjon (dvs., produktnavn) som er tilordnet genet er tatt fra FIGfam.
En Målrettet Søk Basert på FIGfams som Oppstår i Nært Knyttet Genomer
Når «nærliggende genomer» har blitt bestemt, kan vi danne sett av FIGfams som er til stede i disse genomer., Dette utgjør et sett av FIGfams som er sannsynlig å finne i den nye genom. For hver av disse FIGfams, søker vi ny genome. Vær oppmerksom på at vi forvente at disse søker å ha en relativt høy grad av suksess. Når vi finner et gen, kan vi justere sin startposisjon og flytte genet fra settet av mulige gener til bestemt sett av gener. Beregningsorientert kostnadene som kreves for å finne disse genene er lav (siden vi søker en svært lite sett av mulige gener).,
Tilbakekall Protein-Koding Gener
På dette punktet, vi har opparbeidet et bestemt sett av gener i genomet og kan nå bruke denne utmerket trening satt til å huske den protein-koding gener. I tilfelle av et genom som er nært i slekt belastning av en eller flere eksisterende genomer denne treningen sett kan også omfatte over 90% av den faktiske protein-koding gener.
Behandle de Resterende Gener Mot Hele FIGfam Collection
Den antatte gener som fortsatt kan brukes til å søke mot hele samlingen av FIGfams., Dette er gjort ved å skyte mot et representativt sett av sekvenser fra FIGfams å finne potensielle familier som trenger å bli sjekket, og så sjekke opp mot hver familie. Mens beregninger dyrere enn fokusert søk i de forrige trinnene, det er fortsatt langt, langt billigere enn sprengningsarbeid mot en stor non-redundant protein database. I dag, innsamling av representative protein sekvenser fra FIGfams som brukes for å beregne potensielt relevante FIGfams inneholder noe over 100 000 protein sekvenser.,
Dette trinnet utgjør et omfattende søk av FIGfams for hver av de gjenstående mulige gener. Når det har blitt fullført, vil alle av gener som kan bli behandlet ved hjelp av FIGfams har blitt behandlet.
Rydde Opp Gjenværende Genet Anrop (Fjern Overlapper og Justere Start posisjon)
Den antatte proteiner som fortsatt er behandlet for å forsøke å løse problemene knyttet til overlappende genet anrop, starter som må justeres, og så videre., I tilfelle av RAST server, må vi sprenge gjenværende antatte gener mot en stor non-redundant protein database i et forsøk på å finne ut om det er likheten-basert dokumentasjon som kan brukes for å løse konflikter.
Behandle de Resterende, Unannotated Protein-koding Gener
På dette punktet, siste oppdrag av funksjonen som er laget for de gjenværende antatte gener. Hvis likheter ble beregnet i forrige trinn, disse likhetene kan åpnes og funksjoner kan bli påberopt., Eventuelt kan man benytte noen av vanlig ansatt rørledning teknologier for å kjøre en suite av verktøy og skape et mer nøyaktig estimat. Genene som er behandlet ved hjelp av denne tilnærmingen representerer de fleste av kostnader i et VEKST-markering. Ved første behandling et flertall av gener ved hjelp av FIGfam-basert teknologi og fokusert søk, denne kostnaden er minimert ved RAST uten (tror vi) å redusere nøyaktighet.
Konstruere en Innledende Metabolske Rekonstruksjon
Når oppgaver til funksjonen som har blitt gjort, en innledende metabolske gjenoppbygging er dannet., For vårt formål, utgjør dette kobler gener i den nye genom til funksjonelle roller i undersystemer, å avgjøre når et sett av forbindelser til en bestemt subsystem er tilstrekkelig til å støtte en aktiv variant av delsystemet, og tabulerer den komplette settet av aktive varianter. Siden undersystemer i seg selv er ordnet i grove kategorier som reflekterer grunnleggende divisjoner av funksjon, kan vi produsere en detaljert beregning av genom innholdet som har blitt koblet til undersystemer (se Figur 2)., I tilfelle av et genom som Buchnera aphidicula, i overkant av 82% av genene faller i denne kategorien; for Escherichia coli O157:H7 andelen synker til 76%, mens det i et relativt skilte seg genom som Methanocaldococcus jannaschii DSM 2661 prosentandelen som kan være koblet (på dette tidspunktet) er bare 22%. Figur 2 gir en kort oversikt over type vises når en bruker kan bruke til raskt å utforske innholdet i den nye genom.,
Det bør understrekes at undersystemer som dekker alle moduler av mobile maskiner, ikke bare den metabolske veier., Derfor, hva vi kaller en metabolsk rekonstruksjon (en samling med de aktive variantene av delsystemer som har blitt identifisert) er mer riktig tenkt som en gruppering av gener inn i moduler, snarere enn rekonstruksjon av den metabolske nettverk. Imidlertid, i tillegg til rett og slett å lage et sett av aktive varianter av delsystemer, RAST server bruker et sett av scenarier som er kodet i metabolske undersystemer å montere en metabolsk reaksjon nettverk for organismen . Disse scenariene representerer komponenter av det metabolske nettverk i hvilke forbindelser er merket som innganger og utganger (dvs., de kan betraktes som anvist moduler av den metabolske nettverk). Metabolske nettverk er satt sammen ved hjelp av biokjemiske reaksjonen informasjon knyttet til funksjonelle roller i undersystemer å finne veier gjennom scenarier fra innganger utganger. Scenarier som er forbundet med knyttet innganger og utganger kan settes sammen for å danne større blokker av metabolske nettverk, som omfatter prosesser som omdanner næringsstoffer transporteres inn i biomasse komponenter., I tilfelle av nylig sekvensert genomet som er nær dem vårt team manuelt curates, er det mulig å direkte anslå hvor mange prosent av reaksjonen nettverk vanligvis er inkludert i en genome-scale metabolic gjenoppbygging kan genereres automatisk. I dag RAST serveren produserer 70-95% av reaksjonen nettverk, avhengig av den spesifikke arter og genom.