subsystemen: een overzicht
algemeen wordt aangenomen dat een centrale rol van Bioinformatica is om een relatief kleine set beweringen van gen-en eiwitfunctie uit de literatuur (d.w.z. van karakteriseringen in natte laboratoria) naar genen uit andere genomen te projecteren., Dit vangt een kern van waarheid (dat, uiteindelijk, nieuwe beweringen van de functie zijn gebaseerd op natte lab karakterisaties), maar, misschien, verheft de rol van Bioinformatica boven wat redelijkerwijs te verwachten. Daarentegen zien we projectie als een proces in twee stappen:
1. In een eerste fase integreert een expert in een biologisch onderwerp wat bekend is uit de literatuur en produceert een set van deskundige beweringen, waaronder de beweringen uit de literatuur, evenals een veel bredere set gebaseerd op oordeel en extrapolatie.
2., Bio-informatica tools worden ontwikkeld om gestructureerde collecties van deskundige beweringen (in plaats van alleen de natte lab resultaten vastgelegd in de literatuur) te projecteren naar nieuwe genomen.
het proces van het integreren van wat bekend is uit de literatuur in een reeks beweringen van deskundigen impliceert zeer complexe beslissingen en gaat veel verder dan de meeste gangbare Bioinformatica-instrumenten. Aan de andere kant is er alle reden om aan te nemen dat er volledig geautomatiseerde tools kunnen worden ontwikkeld om deze deskundige beweringen te projecteren., Hoe uitgebreider en beter gestructureerd de verzameling van deskundige beweringen, hoe sneller accurate projectietechnologie zal worden ontwikkeld. Hier is het vermeldenswaard dat we spreken van “goed gestructureerde” sets van deskundigen beweringen, omdat de ontwikkelde instrumenten bijna zeker nodig zal zijn om tal van regels die speciale gevallen omvatten, en een zorgvuldige afbakening van deze regels kan het best worden bereikt door domeindeskundigen.
in het kader van het Project werd een technologie ontwikkeld voor het creëren en onderhouden van beweringen van deskundigen om 1000 Genomen te annoteren .,
Deze technologie omvat een deskundige curator die een subsysteem definieert als een verzameling abstracte functionele rollen. Figuur 1A toont een zeer eenvoudig geval waarin een subsysteem met de naam “Tricarballylaatgebruik” bestaat uit vier functionele rollen. Het subsysteem wordt gevuld door deze functionele rollen te verbinden met specifieke genen in specifieke genomen, waardoor een subsysteem-spreadsheet ontstaat, waarbij elke rij één genoom vertegenwoordigt en elke kolom overeenkomt met één functionele rol zoals weergegeven in Figuur 1B., De proteã nen die door de genen in één kolom worden gecodeerd worden gebruikt om het subsysteem-gebaseerde FIGfams (hieronder besproken) te construeren. De gezamenlijke inspanning om subsystemen te ontwikkelen heeft geleid tot een publiek toegankelijke reeks van dergelijke bevolkte subsystemen die nu meer dan 600 subsystemen omvat. Deze subsystemen omvatten beweringen van functie voor ruim 500.000 eiwit-codeert genen in meer dan 500 bacteriële en archaeal genomen (met betrekking tot meer dan 6200 functionele rollen). Deze handmatig samengestelde inzameling vertegenwoordigt reeksen co-gecureerde eiwitfamilies., Het is waar dat de kwaliteit van de beweringen sterk varieert, maar het is ook waar dat deze gestructureerde reeksen beweringen een belangrijke bron vormen bij het construeren van geautomatiseerde annotatiesystemen.
FIGfams: nog een reeks Eiwitfamilies
een aantal groepen heeft aanzienlijke inspanningen geleverd om eiwitfamilies op te bouwen die nu hulpbronnen vertegenwoordigen die op grote schaal worden gebruikt en gewaardeerd door de gemeenschap ; zie voor een meer uitgebreide discussie. RAST maakt gebruik van een nieuwe collectie van eiwitfamilies. Deze collectie wordt aangeduid als de set van FIGfams, en de publicatie van een gedetailleerd verslag van hen is in voorbereiding. Elke FIGfam kan worden gezien als een 3-tupel samengesteld uit een reeks eiwitten, een familiefunctie, en een besluitvormingsprocedure., De reeks proteã nen wordt verondersteld om globaal gelijkaardig (en, vermoedelijk, homologe) te zijn en de leden allen delen een gemeenschappelijke functie. De besluitvormingsprocedure neemt als input een eiwitvolgorde en geeft een beslissing over of de proteã Ne aan de familie zou kunnen worden toegevoegd (d.w.z., of de proteã ne globaal gelijkaardig aan de leden is en de gemeenschappelijke functie deelt) terug.
daarom zijn de basisprincipes die aan FIGfams ten grondslag liggen vrij vergelijkbaar met die welke overeenkomen met de laagste PIR-families of de tigrfam-equivalogs .,
De constructie van FIGfams gebeurt op voorzichtige wijze: er wordt voor gezorgd dat twee eiwitten in dezelfde verzameling daadwerkelijk een gemeenschappelijke functie hebben, maar als er aanzienlijke onzekerheid bestaat over de vraag of twee eiwitten daadwerkelijk dezelfde functie hebben, worden ze in verschillende families gehouden. Twee eiwitten worden in dezelfde familie geplaatst:
1. Als beide voorkomen in dezelfde kolom van een handmatig samengesteld subsysteem spreadsheet (dat wil zeggen, als ze dezelfde functionele rol implementeren) en het gebied van gelijkenis gedeeld door de twee sequenties beslaat meer dan 70% van elke sequentie.
2., Als ze afkomstig zijn van nauw verwante genomen (bijvoorbeeld genomen van twee stammen van dezelfde soort), is de gelijkenis hoog (meestal groter dan 90% identiteit), en de context op het chromosoom (d.w.z. de aangrenzende genen) kan gemakkelijk worden gezien om overeen te komen, dan kunnen ze in dezelfde familie worden geplaatst (zelfs als de functie die ze implementeren nog moet worden bepaald).
Dit zijn de twee gevallen waarin we vertrouwen hebben in het bevestigen van een gemeenschappelijke functie tussen twee eiwitten; de eerste weerspiegelt een deskundige bewering, en de tweede een instantie waarin divergentie minimaal is., De bouw van FIGfams met behulp van deze twee groeperingsprincipes heeft geleid tot een verzameling van ongeveer 17.000 FIGfams die eiwitten bevatten gerelateerd aan subsystemen (dat zijn de FIGfams die we subsysteemgebaseerd noemen) en meer dan 80.000 die alleen eiwitten bevatten gegroepeerd volgens het tweede principe (dat wil zeggen de niet-subsysteemgebaseerde FIGfams). Veel van de niet-subsysteemgebaseerde FIGfams bevatten slechts 2, 3 of 4 eiwitten.
na verloop van tijd verwachten we de niet-subsysteemgebaseerde FIGfams samen te voegen., Dit zal gebeuren door het creëren van nieuwe, handmatig samengestelde subsystemen; deze zullen kernels vormen van nieuwe families die de geïsoleerde families die nu bestaan zullen groeperen.het is vermeldenswaard dat de bestaande verzameling FIGfams de meeste centrale cellulaire machines omvat met families die zijn afgeleid van subsystemen, en dat de talrijke kleine FIGfams die niet op subsystemen zijn gebaseerd, op efficiënte wijze de herkenning van genen in nauwe stammen ondersteunen., Hoewel het waar is dat we een beperkt percentage genen in Nieuw gesequenced divergente genomen behandelen, herkennen we ruim 90% van de genen in Nieuw gesequenced stammen die dicht bij bestaande geannoteerde genomen liggen. Het lijkt waarschijnlijk dat een groot percentage van nieuw gesequenced genomen dicht bij bestaande genomen zal zijn (bijvoorbeeld, noteer projecten om tientallen en binnenkort honderden nauw verwante pathogene stammen te sequencen), en de FIGfams vormen al een effectief herkenningskader in dergelijke gevallen.,
de basisstappen voor het annoteren van een genoom met behulp van RAST
de basisstappen die worden gebruikt om een genoom met behulp van RAST te annoteren, worden hieronder beschreven. De Input aan het proces is een prokaryotic genoom in de vorm van een reeks contigs in FASTA-formaat. Zoals hieronder beschreven, zal de werkelijke Rast server een gebruiker toestaan om een set gen calls te specificeren, maar in het gebruikelijke geval zal RAST zijn eigen calls maken. We beschrijven nu de basisstappen in een Rast-annotatie in detail.,
noem de tRNA-en rRNA-genen
we gebruiken bestaande tools die door andere onderzoeksteams zijn gebouwd om eerst zowel de tRNA-als rRNA-coderende genen te identificeren. Voor de tRNA genen gebruiken we tRNAscan-SE en om de rRNA codering genen te identificeren gebruiken we een tool “search_for_rnas” ontwikkeld door Niels Larsen (beschikbaar bij de auteur). We beginnen het proces door deze genen te noemen, waarvan we geloven dat ze betrouwbaar kunnen worden bepaald. Dan, zal de server niet overwegen om het even welk eiwit-codeert gen te behouden dat beduidend om het even welk van deze gebieden overlapt., Helaas, bevatten de openbare archieven vermeende eiwit-coderende genen die zijn ingebed in rRNAs. Deze genaanroepen zijn bijna zeker artefacten van de periode waarin de groepen leerden hoe te om juiste annotaties te ontwikkelen, en Rast-pogingen om het verspreiden van deze fouten te vermijden.
doe een eerste poging om Eiwitcoderende genen
aan te roepen zodra de tRNA-en rRNA-gencodeergebieden uit beschouwing zijn verwijderd, maken we een eerste oproep met behulp van GLIMMER2 . Op dit punt zijn we op zoek naar een redelijke schatting van waarschijnlijke genen, en GLIMMER2 is een uitstekend hulpmiddel voor dat doel., In dit stadium, RAST is niet bezorgd over het roepen van valse genen of het krijgen van starts genoemd nauwkeurig. Wat nodig is, is dat de meeste van de werkelijke eiwit-coderende genen worden weergegeven in de initiële schatting van vermeende genen.
vaststellen van fylogenetische Context
zodra een initiële set van eiwitcoderende genen is vastgesteld, nemen we representatieve sequenties uit een kleine set van FIGfams die de eigenschap hebben dat ze universeel of bijna universeel zijn in prokaryoten. Deze set bevat bijvoorbeeld de tRNA synthetases.,
met behulp van deze kleine set van vertegenwoordigers zoeken we de eiwitcoderende genen uit het nieuwe genoom op voorvallen van deze FIGfams. Opgemerkt moet worden dat dit een zeer snelle stap is, omdat alleen het nieuwe genoom wordt doorzocht, en het wordt doorzocht met behulp van een kleine reeks representatieve eiwitsequenties. Het resultaat van dit eerste aftasten is een kleine reeks (normaal, 8-15 genen) die kan worden gebruikt om de dichtste fylogenetische buren van het nieuw-gesequenced genoom te schatten. Dit kan worden gedaan door elk gelokaliseerd gen te nemen en het tegen de genen van het overeenkomstige FIGfam te stralen., Normaal gesproken proberen we de tien naaste buren te vinden, maar het is duidelijk dat de aanpak ongevoelig is voor het exacte aantal gezocht. Voor elk gedetecteerd gen passen we de uitgangspositie aan en verplaatsen we het van de set van veronderstelde genen naar een set van bepaalde genen en de functie (d.w.z., Productnaam) toegewezen aan het gen wordt uit de FIGfam genomen.
een gerichte zoekopdracht gebaseerd op FIGfams die voorkomen in nauw verwante genomen
zodra de “naburige genomen” zijn bepaald, kunnen we de verzameling FIGfams vormen die aanwezig zijn in deze genomen., Dit vormt een reeks FIGfams die waarschijnlijk in het nieuwe genoom worden gevonden. Voor elk van deze FIGfams zoeken we het nieuwe genoom. Merk op dat we verwachten dat deze zoekopdrachten een relatief hoge mate van succes hebben. Wanneer we een gen vinden, passen we zijn uitgangspositie aan en verplaatsen we het gen van de set van vermeende genen naar de set van bepaalde genen. De rekenkosten die nodig zijn om deze genen te lokaliseren zijn laag (omdat we op zoek zijn naar een zeer kleine set van vermeende genen).,
Recall Eiwitcoderende genen
Op dit moment hebben we een set van bepaalde genen binnen het nieuwe genoom verzameld en kunnen we deze uitstekende trainingsset nu gebruiken om de eiwitcoderende genen te herinneren. In het geval van een genoom dat een nauw verwante stam van één of meer bestaande genomen is, kan deze Opleidingsset meer dan 90% van de daadwerkelijke eiwit-coderende genen omvatten.
verwerking van de resterende genen tegen de gehele FIGfam-collectie
de vermeende genen die overblijven kunnen worden gebruikt om te zoeken tegen de gehele verzameling FIGfams., Dit wordt gedaan door te stralen tegen een representatieve reeks sequenties van de FIGfams om potentiële families te bepalen die moeten worden gecontroleerd, en vervolgens te controleren tegen elke familie. Hoewel computationeel duurder dan de gerichte zoekopdrachten in de vorige stappen, is het nog steeds veel, veel goedkoper dan het stralen tegen een grote niet-redundante eiwitdatabase. Momenteel omvat de inzameling van representatieve eiwitopeenvolgingen van FIGfams die worden gebruikt om potentieel relevante FIGfams te berekenen iets meer dan 100.000 eiwitopeenvolgingen.,
Deze stap komt neer op een uitgebreid onderzoek van de FIGfams voor elk van de resterende vermeende genen. Zodra het is voltooid, alle genen die kunnen worden verwerkt met behulp van FIGfams zijn verwerkt.
Reinig resterende Genuitroepen (Verwijder overlappingen en pas beginposities aan)
de veronderstelde eiwitten die overblijven worden verwerkt om problemen met betrekking tot overlappende genuitroepen, starts die moeten worden aangepast, enz.op te lossen., In het geval van de Rast server, we blasten de resterende vermeende genen tegen een grote niet-redundante eiwit database in een poging om te bepalen of er op gelijkenis gebaseerd bewijs dat kan worden gebruikt bij het oplossen van conflicten.
proces de resterende, niet-geannoteerde Eiwitcoderende genen
Op dit punt worden de laatste functies toegewezen aan de resterende vermeende genen. Als in de vorige stap overeenkomsten werden berekend, kunnen deze overeenkomsten worden benaderd en kunnen functies worden beweerd., Optioneel kan men gebruik maken van een van de veelgebruikte pijpleidingtechnologieën om een suite van tools uit te voeren en een nauwkeurigere schatting te produceren. De genen die worden verwerkt gebruikend deze benadering vertegenwoordigen het grootste deel van de overhead in een annotatie van RAST. Door de eerste verwerking van een meerderheid van de genen met behulp van FIGfam-gebaseerde technologie en gerichte zoekopdrachten, wordt deze kosten geminimaliseerd door RAST zonder (wij geloven) vermindering van de nauwkeurigheid.
construeer een initiële metabole reconstructie
zodra functies zijn toegewezen, wordt een initiële metabole reconstructie gevormd., Voor onze doeleinden komt dit neer op het verbinden van genen in het nieuwe genoom met functionele rollen in subsystemen, het bepalen wanneer een set van verbindingen met een specifiek subsysteem voldoende is om een actieve variant van het subsysteem te ondersteunen, en het tabelleren van de volledige set van actieve varianten. Aangezien de subsystemen zelf zijn gerangschikt in ruwe categorieën die de basisafdelingen van functie weerspiegelen, kunnen we een gedetailleerde schatting maken van de genoominhoud die met succes werd verbonden met subsystemen (zie Figuur 2)., In het geval van een genoom zoals Buchnera aphidicula valt meer dan 82% van de genen in deze categorie; voor Escherichia coli O157:H7 daalt het percentage tot 76%, terwijl in een relatief uiteenlopend genoom zoals Methanocaldococcus jannaschii DSM 2661 het percentage dat kan worden verbonden (op dit moment) slechts 22% is. Figuur 2 biedt een kort overzicht van het type vertoning een gebruiker kan gebruiken om snel de inhoud van het nieuwe genoom te onderzoeken.,
Er moet worden benadrukt dat de subsystemen alle modules van cellulaire machines omvatten – niet alleen de metabole routes., Vandaar dat wat we een metabolische reconstructie noemen (een verzameling van de actieve varianten van de geà dentificeerde subsystemen) beter wordt gezien als een groepering van genen in modules, in plaats van de reconstructie van het metabolische netwerk. Echter, naast het eenvoudig compileren van de reeks actieve varianten van subsystemen, gebruikt de Rast-server een reeks scenario ‘ s gecodeerd in metabolische subsystemen om een metabolisch reactienetwerk voor het organisme te assembleren . Deze scenario ‘ s vertegenwoordigen componenten van het metabolische netwerk waarin specifieke verbindingen worden geëtiketteerd als inputs en outputs (d.w.z.,, kunnen zij worden gedacht als gerichte modules van het metabolische netwerk). Het metabolische netwerk wordt geassembleerd gebruikend biochemische reactieinformatie verbonden aan functionele rollen in subsystemen om wegen door scenario ‘ s van input aan output te vinden. Scenario ‘ s die worden verbonden door gekoppelde in-en uitgangen kunnen worden samengesteld om grotere blokken van het metabolische netwerk te vormen, verspreid over processen die getransporteerde nutriënten omzetten in biomassacomponenten., In het geval van nieuw gesequenced genomen die dicht bij die ons team handmatig cureert, is het mogelijk om direct te schatten welk percentage van de reactie netwerk typisch opgenomen in een genoom-schaal metabolische reconstructie automatisch kan worden gegenereerd. Tegenwoordig produceert de Rast server 70-95% van het reactienetwerk, afhankelijk van de specifieke species en het genoom.