"Gene Ontology" ( eng. Gene Ontology tai GO ) on bioinformatiikkaprojekti , joka on omistettu yhtenäisen terminologian luomiseen kaikkien biologisten lajien geenien ja geenituotteiden merkitsemiseksi [1] .
Hankkeen tavoitteena on ylläpitää ja täydentää tiettyä geenien ja niiden tuotteiden attribuuttilistaa , koota geenien ja tuotteiden annotaatioita, kehittää työkaluja projektitietokannan kanssa työskentelyyn sekä uuden kokeellisen tiedon analysointiin, erityisesti analysointiin . geenien funktionaalisten ryhmien esitys . On syytä huomata, että GO-projekti loi merkintäkielen tietojen luokittelua varten (tiedot geeneistä ja niiden tuotteista, eli RNA:sta ja proteiineista sekä niiden toiminnoista), jonka avulla voit nopeasti löytää systemaattista tietoa geenituotteista [2 ] [3] [ 4] .
"Gene Ontology" on osa suurempaa luokitteluprojektia - "Open Biomedical Ontologies" ( OBO ) [5] .
Tietojenkäsittelytieteen ontologioita käytetään formalisoimaan tiettyjä tietoalueita käyttämällä tietojärjestelmää todellisen maailman objekteista ja niiden välisistä suhteista (ns. tietokanta ). Biologiassa ja siihen liittyvissä tieteenaloissa on noussut esiin ongelma yleisen terminologian standardin puutteesta. Termeillä , jotka ilmaisevat samanlaisia käsitteitä , mutta joita käytetään eri biologisista lajeista , eri tutkimusalueista tai jopa eri tutkijaryhmistä, voivat olla pohjimmiltaan erilaiset merkitykset, mikä vaikeuttaa tiedonvaihtoa. Tässä suhteessa Gene Ontology -projektin tehtävänä oli luoda ontologia termeistä, jotka kuvastavat geenien ja niiden tuotteiden ominaisuuksia ja ovat sovellettavissa kaikkiin organismeihin [2] [3] [4] .
"Geeniontologian" loi vuonna 1998 tiedemieskonsortio, joka tutki kolmen malliorganismin genomeja : Drosophila melanogaster (hedelmäkärpäs), Mus musculus (hiiri) ja Saccharomyces cerevisiae (leipurihiiva) [6] . Sen jälkeen GO Consortiumiin on liittynyt monia tietokantoja muille mallieliöille, mikä on osaltaan edistänyt merkintätietokannan laajentamisen lisäksi myös tietojen katselu- ja soveltamispalvelujen luomista.
GO Consortium ( GOC ) on joukko biologisia tietokantoja ja tutkimusryhmiä, jotka ovat aktiivisesti mukana Gene Ontology -projektissa [7] . Se sisältää useita tietokantoja erilaisille malliorganismeille, yleisiä proteiinitietokantoja, ohjelmistokehitysryhmiä ja Gene Ontology -editoreja.
Gene Ontology on laajamittainen ja nopeasti kehittyvä projekti. Syyskuussa 2011 geeniontologia sisälsi yli 33 tuhatta termiä ja noin 12 miljoonaa annotaatiota geenituotteista, jotka koskevat yli 360 tuhatta elävää organismia [2] . Vuoden 2016 jälkeen termien määrä ylitti 44 tuhatta kopiota, kun taas tähän tietokantaan merkittyjen organismien määrä ylitti 460 tuhatta yksilöä [3]
Muutaman viime vuoden aikana GO Consortium on toteuttanut useita ontologian muutoksia lisätäkseen GO-merkintöjen määrää, laatua ja spesifisyyttä. Vuoteen 2013 mennessä merkintöjen määrä ylitti 96 miljoonaa. Merkintöjen laatua on parannettu automaattisilla laaduntarkastuksilla. Myös GO-tietokannassa esitettyjen tietojen kommentointi on parantunut, uusia termejä on lisätty. [4] . Vuonna 2007 luotiin uusi palvelu InterMine [8] , jonka tavoitteena on integroida genomitietoa useista eri lähteistä ja helpottaa laskennallisia tehtäviä, kuten tiettyjen genomialueiden etsimistä ja tilastollisten testien suorittamista. Projekti luotiin alun perin integroimaan Drosophilan dataa, mutta nyt se sisältää suuren määrän malliorganismeja. Viime vuosina on ollut käynnissä LEGO-palvelun (Linked Expressions using the Gene Ontology) kehitystyö, jonka avulla voit tutkia GO-tietokannan erilaisten annotaatioiden vuorovaikutusta yhdistämällä niitä yleisemmiksi geenien ja niiden toimintojen malleiksi [3 ] .
On ymmärrettävä, että "geeniontologia" kuvaa monimutkaisia biologisia ilmiöitä, ei tiettyjä biologisia objekteja. Gene Ontology -tietokanta sisältää kolme itsenäistä sanakirjaa [1] [9] :
Jokaisella "Geeniontologian" termillä on useita attribuutteja: yksilöllinen digitaalinen tunniste, nimi, sanakirja, johon termi kuuluu, ja määritelmä. Termeillä voi olla synonyymejä, jotka on jaettu täsmälleen termin merkitystä vastaaviin, laajempiin, kapeampiin ja jollain tavalla suhteessa termiin. Myös attribuutteja, kuten linkkejä lähteisiin, muihin tietokantoihin ja kommentteja termin [1] [9] merkityksestä ja käytöstä, voi esiintyä .
Ontologia rakentuu suunnatun asyklisen graafin periaatteelle : kukin termi liittyy yhteen tai useampaan muuhun termiin erityyppisen suhteen kautta . On olemassa seuraavan tyyppisiä suhteita [1] :
Esimerkki yhdestä GO-projektin termistä [10] :
id: GO:0043417 nimi: luustolihaskudoksen regeneraation negatiivinen säätely nimiavaruus: biologinen_prosessi def: "Kaikki prosessit, jotka pysäyttävät, ehkäisevät tai vähentävät luurankolihasten regeneraation tiheyttä, nopeutta tai laajuutta." [GOC:jl] synonyymi: "luurankolihasten uusiutumisen säätely" TARKKA [] synonyymi: "luurankolihasten regeneraation hidastaminen" TARKKA [] synonyymi: "luurankolihasten regeneraation alasäätely" TARKKA [] synonyymi: "luurankolihasten regeneraation esto" KAPEA [] is_a:GO:0043416 ! luustolihaskudoksen regeneraation säätely is_a: GO:0048640 ! kehityksen kasvun negatiivinen säätely suhde: negatiivisesti_säätelee GO:0043403 ! luustolihaskudoksen regeneraatioGene Ontology -tietokantaa muokkaavat ja täydentävät jatkuvasti sekä GO-projektin kuraattorit että muut tutkijat. Projektitoimittajat tarkistavat ehdotetut käyttäjämuutokset ja soveltavat niitä, jos muutokset hyväksytään [9] .
Koko tietokannan sisältävä tiedosto [10] on saatavissa eri muodoissa viralliselta Gene Ontology -sivustolta, ja ehdot ovat saatavilla myös verkossa AmiGO Gene Ontology -selaimella. Lisäksi sitä voidaan käyttää tiettyyn termiin liittyvien geenituotteiden tietojoukon poimimiseen. Sivustolta voit myös ladata karttoja GO-termien vastaavuudesta muihin luokitusjärjestelmiin [11] .
Genomiannotaatiolla pyritään saamaan tietoa geenituotteiden ominaisuuksista. GO-merkinnöissä käytetään termiä "Geeniontologia". GO Consortiumin jäsenet julkaisevat huomautuksensa Gene Ontology -verkkosivustolla, josta ne ovat ladattavissa suoraan tai katsottavissa AmiGO-selaimessa [12] .
Geeniannotaatio sisältää seuraavat tiedot: geenituotteen nimi ja tunniste; vastaava GO-termi; tietotyyppi, johon huomautus perustuu ( todistekoodi ); linkki lähteeseen; sekä merkinnän luoja ja päivämäärä. Tietotyypeille, jotka osoittavat huomautuksen pätevyyden ( todistekoodi ), on olemassa erityinen OBO -projektiin liittyvä ontologia [13] . Se sisältää erilaisia merkintämenetelmiä, sekä manuaalisia että automaattisia. Esimerkiksi [1] :
Syyskuussa 2012 yli 99 % kaikista geeniontologiamerkinnöistä saatiin automaattisesti [4] . Koska tällaisia merkintöjä ei tarkisteta manuaalisesti, GO Consortium pitää niitä vähemmän luotettavina ja vain murto-osa niistä on saatavilla AmiGO-selaimessa. Täysi merkintöjen tietokanta on ladattavissa Gene Ontology -verkkosivustolta.
AmiGO [9] on verkkosovellus (GO-palvelu), jonka avulla käyttäjät voivat kysyä, etsiä ja visualisoida GO-termejä ja geenituotemerkintöjä. Lisäksi sovellus sisältää BLAST -työkalun (saatavilla AmiGO 1:ssä, poistettiin AmiGO 2:sta), palveluita, joiden avulla voit analysoida suuria tietojoukkoja ja käyttöliittymän suoraan GO-tietokannasta hakemiseen [14] . AmiGOa voidaan käyttää verkossa Gene Ontology -verkkosivustolla GO Consortiumin toimittamien tietojen saamiseksi, tai se voidaan ladata ja asentaa paikallista sovellusta varten mihin tahansa GO-tyyliseen tietokantaan. AmiGO 2 on avoimen lähdekoodin ja ilmainen ohjelmisto .
Visualisointi tarjoaa käyttäjälle mahdollisuuden rakentaa kaavio, joka kuvaa geeniontologiaa tietylle GO-termille. On olemassa kaksi syöttömuotoa [15] :
JSON-syöteesimerkki:
{"GO:0002244":{"title": "foo", "body": "baari", "fill": "#ccccf", "font": "#0000ff", "border":"punainen"}, "GO:0005575":{"title":"yksin", "body":""}, "GO:0033060":{}}Suhteen koodaaminen väriin:
Asenne | Väri |
---|---|
on | sininen |
osa | vaaleansininen |
kehittyy_ mistä | ruskea |
säätelee | musta |
negatiivisesti_säätelee | punainen |
positiivisesti_säätelee | vihreä |
Termien visualisointi koostuu graafin rakentamisesta alkuperäistä GO-termiä edustavasta solmusta juurisolmuun, jota edustaa yksi kolmesta pääsanastosta: biologiset prosessit , molekyylifunktiot ja solukomponentit [1] [9] .
Tietojen yleiskatsausSen lisäksi, että AmiGO pystyy luomaan kaavioita, jotka näyttävät termin GO-geeniontologian, se toteuttaa myös useita työkaluja, jotka voivat antaa käyttäjälle käsityksen projektin GO-tiedoista. Heidän joukossaan [14] :
GOOSE [16] on online- SQL - kyselyympäristö , joka on AmiGO-palvelun käyttäjien käytettävissä datajoukkojen luomiseen. Tämä palvelu käyttää SQL-syntaksia erilaisten kyselyjen tekemiseen GO-tietokantaan. EBI (Yhdistynyt kuningaskunta, Cambridge), Berkeley BOP ja Berkeley BOP (lite) -peilit (molemmat sijaitsevat Berkeleyssä, Kaliforniassa) ovat myös saatavilla vähentämään järjestelmän kuormitusta.
Sen lisäksi, että voit kirjoittaa kyselyn suoraan manuaalisesti, voit käyttää malleja tämän tehtävän osittainen yksinkertaistamiseksi. Tyypillinen tietokantakysely on esitetty alla (etsi solukkokomponentin puun enimmäissyvyyttä) [16] :
SELECT etäisyys maksimiarvosta graafin_polusta, termistä WHERE graph_path.term2_id =term.id and term.term_type = 'solun_komponentti' TILAA etäisyyden mukaan raja1;GO:n tietokannassa on monimutkainen rakenne ja se koostuu useista taulukoista. Tärkeimmät tietokannat [16] :
Seuraavat tietojen vientimuodot ovat mahdollisia kyselyn [16] seurauksena :
PANTHER ( P protein Analysis TH rough Evolutionary R relationships ) on valtava tietokanta geeni/proteiiniperheistä ja niitä toiminnallisesti samankaltaisista alaperheistä, jota voidaan käyttää geenituotteiden toiminnallisen kirjon luokitteluun [ 17] . PANTHER on osa GO-projektia, jonka päätavoitteena on proteiinien ja niiden geenien luokittelu.
PANTHERissa tietokantaa muokkaavat projektin henkilöstön lisäksi myös luokitusalgoritmit. Proteiinit luokitellaan perheen (ja alaperheen), molekyylifunktion tai biologisen prosessin mukaan [17] .
PANTHERin pääsovellus on selvittää selittämättömien geenien toimintoja missä tahansa organismissa perustuen niiden evoluutiosuhteisiin geeneihin, joiden toiminnot tunnetaan tietokannasta. Geenitoimintoja, ontologiaa ja tilastollisia analyysimenetelmiä käyttämällä PANTHER antaa biologille mahdollisuuden analysoida suurdataa, sekvensoinnilla tai geeniekspressiotutkimuksilla saatuja kokonaisia genomeja [18] .
Tärkeimmät PANTHER-verkkosivustolla [18] saatavilla olevat työkalut ovat:
GO Slimmer [19] on työkalu yksityiskohtaisten geenijoukkomerkintöjen kartoittamiseen yhteen tai useampaan korkeamman tason vanhempien termiin (GO slim termit). GO slim -termit ovat typistettyjä versioita GO-ontologiasta, jotka sisältävät osan koko GO:n termeistä ilman yksityiskohtaista kuvausta tietyistä matalan tason termeistä.
GO Slimmerin käyttö mahdollistaa GO-genomiannotaatioiden esittämisen, ekspressiomikrosirujen tulosten analysoinnin tai komplementaaristen DNA-kokoelmien, kun tarvitaan laajaa geenituotteen toimintojen luokittelua [19] .
Tämän algoritmin tulos esitetään kolmella sarakkeella [19] :
Tämän työkalun AmiGO-versio on kirjoitettu Perl - skriptillä map2slim [19] . Projektin kuraattorit huomauttavat, että GO slimmer -palvelu on tällä hetkellä latautunut ja vaikuttavan kokoinen syöttötieto saattaa vaikuttaa haitallisesti sen toimintaan. Palvelun käyttöaika syöttösekvenssien käsittelyyn on rajoitettu.
BLASTBLAST ( Basic L ocal Alignment Search Tool ) on tietokoneohjelmien perhe , jota käytetään etsimään proteiinien tai nukleiinihappojen homologeja , joiden sekvenssi tunnetaan, rinnastuksen avulla. BLASTin avulla tutkija voi verrata hallussaan olevaa sekvenssiä tietokannan sekvensseihin ja löytää annetulle sekvenssille eniten samankaltaiset, jotka ovat oletetut homologit.
Tämän työkalun toteutus AmiGO 1:ssä on esitetty WU-BLAST-paketin muodossa, jonka on kehittänyt Washingtonin yliopisto St. Louisissa (Washingtonin yliopisto St. Louisissa). [kaksikymmentä]
AmiGO 2:ssa tämä työkalu (GO BLAST) on poistettu, mutta voit käyttää hakua AmiGO 1 :ssä . Työkalun avulla voit suodattaa hakutuloksia geenituotteen, tietokannan, taksonomisen kuuluvuuden, GO-sanakirjan ja OBO-merkintöjen mukaan.
Term MatrixTermimatriisi [21] (termimatriisi) on AmiGO-työkalu, jolla tutkitaan tietoa termien geenituotannon samankaltaisuudesta. Hänen työnsä tuloksena on matriisi, jonka elementit ovat tietylle GO-termiparille merkittyjen geenituotteiden lukumäärä. Käyttääksesi funktiota [21] , sinun on syötettävä luettelo GO-tunnisteista nähdäksesi yhteiset merkinnät - termipareilla merkittyjen yleisten geenituotteiden lukumäärän. On mahdollista määrittää tietyt lajit tai taksonit. Lämpökartan väritys voidaan tehdä asteikolla mustasta valkoiseen tai käyttämällä kartan vakiopalettia.
OBO-Edit [22] on avoimen lähdekoodin ontologiaeditori, jonka on kehittänyt ja ylläpitää GO Consortium. Se on toteutettu Javalla ja käyttää graafipohjaista lähestymistapaa ontologioiden visualisointiin ja muokkaamiseen. OBO-Editissä on käyttäjäystävällinen haku- ja suodatinliittymä, jonka avulla voit visualisoida ja erottaa GO-termien osajoukkoja. Käyttöliittymää voidaan mukauttaa käyttäjän mieltymysten mukaan. OBO-Editin avulla voit myös luoda automaattisesti uusia suhteita olemassa olevien suhteiden ja niiden ominaisuuksien perusteella. Vaikka OBO-Edit kehitettiin biolääketieteellisiä ontologioita varten, sitä voidaan käyttää minkä tahansa ontologian katseluun ja muokkaamiseen.
PAINT [23] ( Phylogenetic Annotation and IN ference Tool ) on JAVA - sovellus, joka on osa Reference Genome Annotation Project -projektia ja perustuu " transitiivisen merkinnän" periaatteeseen. Transitiivisen annotaation käsite koostuu yhden geenin kokeellisesti vahvistetun toiminnon osoittamisesta toiselle, koska niiden nukleotidisekvenssit ovat samankaltaisia.
PAINT:n avulla käyttäjä voi tutkia kokeellisia merkintöjä tietyn perheen geeneille ja käyttää näitä tietoja päätelläkseen uusia merkintöjä geeniperheen jäsenille, joita ei ole vielä tutkittu riittävästi [3] . PAINT-työkalun avulla voit rakentaa mallin, joka selittää tietyn geenin toiminnallisuuden periytymisen tai menettämisen fylogeneettisten puiden yksittäisissä oksissa . Tämän mallin luomia uusia merkintöjä kutsutaan nimellä Inferred from Biological Ancestry (IBA) [1] .
Tämä sovellus on ladattavissa ilmaiseksi Githubista.