UniProt | |
---|---|
Sisältö | |
Kuvaus | Proteiinisekvenssitietokanta |
Tietotyyppi | Proteiinimerkintä |
eliöt | Kaikki |
Yhteystiedot | |
Tutkimuskeskus | EMBL-EBI , Iso-Britannia; SIB , Sveitsi; PIR , Yhdysvallat. |
Saatavuus | |
Tietojen muoto | FASTA , GFF , RDF , XML . |
Verkkosivusto |
uniprot.org uniprot.org/news/ |
UniProt on avoin tietokanta proteiinisekvensseistä. UniProt-konsortio on toiminut vuodesta 2003 . Yksi UniProt-tietokanta luotiin yhdistämällä useita tietokantoja . UniProt koostuu neljästä suuresta tietokannasta (Knowledge Base , Arkisto , Reference Clusters ja metagenominen data ) ja kattaa proteiinisekvenssianalyysin eri näkökohdat. Monet sekvensseistä ovat tulleet tunnetuiksi viime vuosien genomin sekvensointiprojektien tuloksena. Lisäksi UniProt-tietokanta sisältää runsaasti tieteellisestä kirjallisuudesta saatua tietoa proteiinien biologisista toiminnoista.
UniProt-konsortioon kuuluvat: European Bioinformatics Institute (EBI), Swiss Bioinformatics Institute (SIB) ja Protein Information Resource (PIR) [1] .
Iso-Britannian Hinxtonissa sijaitseva EBI isännöi useita bioinformatiikan tietokantoja ja palveluita [2] .
SIB, joka sijaitsee Genevessä, Sveitsissä, on asiantuntijaproteiinijärjestelmien analyysipalvelimien (ExPASy-palvelinten) arkisto, joka on proteomiikan työkalujen ja niihin liittyvien tietokantojen päälähde [3] .
PIR sijaitsee Georgetown University Medical Centerissä Washington DC:ssä, USA:ssa ja on integroitu bioinformatiikan resurssi, joka on suunniteltu tukemaan genomiikan ja proteomiikan tutkimusta [4] .
Vuonna 2002 PIR (Protein Information Resource) sai yhdessä kansainvälisten kumppaneidensa EBI:n (European Bioinformatics Institute) ja SIB:n (Swiss Bioinformatics Institute) kanssa National Institutes of Healthin (NIH) apurahan luoda UniProt, yksi maailmanlaajuinen tietokanta. sekvenssien ja toimintojen proteiinit. Näin syntyi UniProt-konsortio [5] . UniProt-projekti aloitti toimintansa joulukuussa 2003 [6] .
UniProt rahoitetaan apurahoilla Yhdysvaltain kansallisilta terveysinstituuteilta (NIH), National Human Genome Research Institutelta (NHGRI), National Institute of General Medical Sciencesilta (NIGMS), British Heart Foundationilta (BHF) ja Sveitsin liittohallitukselta. Federal Office of Education and Science, National Science Foundation (NSF) [1] [7] .
Yksi UniProt-tietokanta luotiin yhdistämällä Swiss-Prot-, TrEMBL- ja PIR-tietokannat - PSD [8] [9] [10] .
Swiss-Prot-tietokannan loi vuonna 1986 Amos Bayrosh työskennellessään tohtoriprojektissaan, ja sitä kehitettiin edelleen Swiss Bioinformatics Institutessa (SIB), ja myöhemmin Rolf Upweiler viimeisteli sen European Bioinformatics Institutessa (EBI) [11] [12] . [13] . Swiss-Prot-tietokannan päätehtävä on varmistaa proteiinisekvenssitietojen luotettavuus korkean ja yksityiskohtaisen manuaalisen merkinnän avulla. Se sisältää kuvauksen proteiinin toiminnasta, sen domeenirakenteesta , translaation jälkeisistä modifikaatioista , erilaisista sekvenssivarianteista jne. minimiredundanssilla ja korkealla integraatiotasolla muihin tietokantoihin [1] .
Nucleotide Sequence Data Library (TrEMBL) -tietokanta kehitettiin vuonna 1996 annotoiduksi tietokonesovellukseksi Swiss-Protille [8] [10] [11] . Päätös luoda TrEMBL tehtiin vastauksena lisääntyneeseen tietovirtaan, joka johtui genomiprojektien syntymisestä, ja aikaa vievä ja työvoimavaltainen manuaalinen merkintäprosessi UniProtKB / Swiss-Protissa ylitti Swiss-Protin kyvyn sisällyttää kaikki saatavilla olevat proteiinisekvenssit [8] [10] . TrEMBL tarjoaa automatisoidun annotaatiokyvyn olemassa olevien nukleotidisekvenssien kääntämiseksi ja niiden muuntamiseksi proteiinisekvensseiksi Swiss-Protin ulkopuolella [6] .
National Biomedical Research Foundationin (NBRF) isännöi Georgetownin yliopiston lääketieteellisessä keskuksessa Washington DC:ssä, USA:ssa, PIR on vanhimman proteiinisekvenssitietokannan perillinen, nimittäin Margaret Oakley Dejhoffin luoman "Protein Sequence and Structure Atlas", joka julkaistiin ensimmäisen kerran. vuonna 1965 [14] . PIR ylläpitää useita proteiinitietokantoja, nimittäin Master Protein Sequence Database (PIR-PSD), Protein Structure and Function Related Database (iProClass) ja muita proteiinisekvenssi- ja valvottuja perhetietokantoja [1] .
UniProt tarjoaa neljä päätietokantaa:
UniProt Knowledge Base (UniProtKB) on asiantuntijoiden osittain kurattama proteiinitietokanta, joka koostuu kahdesta osasta:
UniProtKB/Swiss-Prot on manuaalisesti merkitty, ei-redundantti proteiinisekvenssitietokanta. UniProtKB/Swiss-Protin tavoitteena on tarjota kaikki tiedossa tarvittava tieto tietystä proteiinista [1] . Abstrakteja tarkistetaan säännöllisesti, jotta ne pysyisivät ajan tasalla ajankohtaisista tieteellisistä tuloksista. Tietueen annotaatiovaatimukset sisältävät proteiinisekvenssin yksityiskohtaisen analyysin ja tieteellisen kirjallisuuden tiedot [17] . Saman geenin ja saman lajin proteiinisekvenssit yhdistetään samaan tietokantamerkintään. Sekvenssien väliset erot on tunnistettu ja niiden syyt dokumentoitu ja annettu (esim. vaihtoehtoinen silmukointi , luonnollinen vaihtelu, väärät aloituskohdat, väärät eksonirajat , virheelliset lukukehykset , luettelo tunnistamattomista konflikteista ja muut). Tietueiden merkitsemiseen UniProtKB/Swiss-Protissa käytetään useita sekvenssianalyysityökaluja. Tietokoneen ennusteet analysoidaan manuaalisesti ja sopivat tulokset valitaan sisällytettäväksi tietokantatietueisiin. Näihin ennusteisiin kuuluvat translaation jälkeiset modifikaatiot, transmembraanisten domeenien sekvenssi, rakenne ja topologia, signaalipeptidit , domeenin tunnistaminen ja proteiiniperheiden luokittelu [17] [18] . Asiaankuuluvat julkaisut tunnistetaan hakemalla tietokannoista, kuten PubMed . Jokaisen asiakirjan koko teksti luetaan ja tiedot lisätään tietueeseen.
Annotaatio sisältää pääsääntöisesti seuraavat tiedot [6] :
Annotoidun tietueen on läpäistävä laadunvalvonta, ennen kuin se sisällytetään UniProtKB / Swiss-Prot -ohjelmaan. Kun uusia tietoja tulee näkyviin, olemassa olevat tietueet päivitetään [1] .
UniProtKB/TrEMBLUniProtKB / TrEMBL sisältää tietokonetekniikalla analysoituja tietueita, joita on täydennetty automaattisella merkinnällä [1] .
Annotoitujen koodaavien sekvenssien kääntäminen nukleotidisekvenssitietokantoihin, kuten European Molecular Biology Laboratory (EMBL-Bank), GenBank , Japan DNA Database (DDBJ), suoritetaan automaattisesti, minkä jälkeen nämä proteiinisekvenssit syötetään UniProtKB / TrEMBL:iin. UniProtKB / TrEMBL sisältää myös sekvenssejä Protein Data Bankista (PDB) ja ennustettuja geenejä, mukaan lukien Ensemblin geenit, yhteistutkimusprojekti , johon osallistuvat European Bioinformatics Institute ja Wellcome Trust Sanger Institute, RefSeq ja CCDS [19] .
UniProt Archive (UniParc) on kattava, ei-varattu tietokanta, joka sisältää proteiinisekvenssejä tärkeimmistä julkisista proteiinisekvenssitietokannoista [20] . Koska sama proteiini löytyy useista eri lähdetietokannoista ja se on läsnä useissa tapauksissa samassa tietokannassa, UniParc tallentaa jokaisen ainutlaatuisen sekvenssin vain kerran redundanssin välttämiseksi. Identtiset sekvenssit yhdistetään riippumatta siitä, ovatko ne samaa tai eri lajia edustavia proteiineja. Jokaiselle sekvenssille on määritetty stabiili ja ainutlaatuinen koodi (URI), joka mahdollistaa saman proteiinin tunnistamisen eri lähdetietokannoista [1] .
UniParc sisältää vain proteiinisekvenssejä ilman huomautuksia. UniParc-tietokannan tietueiden ristiviittaukset mahdollistavat lisätietojen hankkimisen proteiinista tietokannasta, joka on alkuperäinen lähde. Jos sekvenssit muuttuvat lähdetietokannassa, näitä muutoksia seurataan UniParcissa ja kaikkien muutosten historia tallennetaan arkistoon [1] .
UniParcin tietolähteet [1]Tietokanta | Tietotyyppi |
---|---|
Japanilainen DNA-tietokanta (DDBJ)
Euroopan nukleotidiarkisto (ENA) DNA- ja RNA-tietokanta (GenBank) |
Koodaussekvenssit |
Yhteinen tutkimushanke, johon osallistuvat European Bioinformatics Institute ja Wellcome Trust Sanger Institute (Ensembl)
Selkärankaisten genominen merkintätietokanta (VEGA) |
Ennustetut koodaavat sekvenssit selkärankaisten genomeista |
Drosophilidae -heimon hyönteisten geneettisten ja molekyylitietojen päävarasto (FlyBase) | Drosophilidae -heimon lajien koodaussekvenssi |
Ihmisgeenien ja transkriptien kattava merkintälähde (H-Inv) | Ihmisen proteiinisekvenssit |
Kansainvälinen proteiiniindeksi (IPI) | Korkeampien eukaryoottien proteiinisekvenssit |
Patenttivirastot Euroopassa, Yhdysvalloissa ja Japanissa (USPTO) | Patenttitoimistojen patentteihin liittyvät koodaussekvenssit |
Proteiinitietoresurssit (PIR-PSD) | Kuroidut proteiinisekvenssit |
Protein Data Bank (PDB) | Proteiinisekvenssit, joiden kolmiulotteiset rakenteet ovat ATE:ssa |
Protein Research Foundation (PRF) | Proteiinisekvenssit tieteellisistä kirjoituksista ja ennusteista |
UniProt-viiteklusterit (RefSeq) | Koodaavat sekvenssit genomisen, transkription ja proteiinin vertailusekvenssien NCBI -sarjasta |
Hiivan genominen tietokanta (SGD) | Saccharomyces cerevisiaen koodaussekvenssit |
Arabidopsis thaliana (TAIR) -tietolähde | Arabidopsis thalianan koodaussekvenssit |
TROME | Ennustetut aminohapposekvenssit |
UniProtKB/Swiss-Prot | Käsintehdyt proteiinisekvenssit, jotka ovat peräisin pääasiassa TrEMBL:stä |
UniProtKB/TrEMBL | Automaattisesti kuratoidut proteiinisekvenssit, jotka on johdettu nukleotidisekvenssitietokantojen koodaavista sekvensseistä |
Caenorhabditis elegansin genomisen ja muiden biologisten ominaisuuksien tietokanta (WormBase) | Caenorhabditis elegans -sukkulamadon koodaussekvenssit |
UniProt-viiteklusterit (UniRef) koostuvat kolmesta tietokannasta (UniRef100, UniRef90 ja UniRef50), jotka on muodostettu UniProtKB:n proteiinisekvenssien klustereista ja valituista UniParc-tietueista [21] .
UniRef100-tietokanta yhdistää identtiset sekvenssit ja sekvenssifragmentit (mistä tahansa organismista) yhdeksi UniRef-tietueeksi [1] .
UniRef100-sekvenssit ryhmiteltiin käyttämällä CD-HIT-algoritmia [21] [22] UniRef90:n ja UniRef50:n [22] rakentamiseksi . Kukin kahdesta viimeisestä klusterista koostuu sekvensseistä, joilla on vähintään 90 % ja vähintään 50 % identtisyys pisimmän löydetyn sekvenssin kanssa. Tällä hetkellä UniRefin kattavuus ylittää 4 000 000 lähdesekvenssiä [23] .
Sekvenssiklusterointi pienentää tietokannan kokoa merkittävästi: UniRef100, UniRef90 ja UniRef50 pienentävät tietokannan kokoa noin ~10 %, 40 % ja 70 %. Redundanssin vähentäminen nopeuttaa samankaltaisuushakua ja parantaa etäsukuisten proteiinien etsinnän luotettavuutta [1] .
UniRef-tietueet sisältävät edustavat proteiinisekvenssitiedot, jäsenmäärät ja klusterin yleisen taksonomia sekä pääsynumerot kaikille liitetyille tietueille ja linkkejä UniProtKB:n annotaatioihin biologisen tutkimuksen helpottamiseksi [1] .
UniRef on saatavana UniREF FTP -sivustolta [24] .
UniProt KB sisältää tietueita, joiden lähdetaksonomia tunnetaan. Uusi kehitys on johtanut uusien lähteiden löytämiseen proteiinisekvenssien etsimiseen. Metagenomisen tiedon ilmestyminen edellytti täysin uuden osion luomista UniProt KB:hen, nimittäin erillisen tietokannan — UniProt metagenomiset sekvenssit ja tuntemattomat sekvenssit ympäristöstä, UniMES (The UniProt Metagenomic and Environmental Sequences tietokanta) [25] .
Metagenomiikka (metagenomiikka) on laajamittaista genomianalyysiä mikrobeista, jotka on eristetty ympäristöstä näytteistä, toisin kuin laboratoriossa kasvatetut organismit, jotka edustavat vain pientä osaa mikrobimaailmasta.
UniMES sisältää tällä hetkellä Global Ocean Sampling Expeditionin (GOS) [25] toimittamia tietoja valtamerten organismien proteiinisekvensseistä , jotka alun perin toimitettiin kansainväliseen nukleotidisekvenssitietokantaan (INSDC) [26] .
Alkuperäinen GOS-aineisto koostuu 25 miljoonasta DNA-sekvenssistä, jotka ovat peräisin enimmäkseen valtamerten mikrobeista, ja lähes 6 miljoonasta ennustetusta proteiinista. UniMES yhdistää ennustetut proteiinisekvenssit Interpron automaattiseen luokitteluun, joka on integroitu resurssi proteiiniperheille, domeeneille ja toiminnallisille paikoille. Siksi UniMES on ainutlaatuinen tietokanta, joka tarjoaa ilmaisen pääsyn näytteenottoretkiltä saatuun genomitietoon. Tämän tietokannan sisältämät ympäristönäytetiedot eivät ole saatavilla UniProt Knowledge Base -tietokannassa tai UniProt Reference Clustersissa (UniRef), mutta ne on integroitu UniParciin [27] .
UniMES on saatavana UniProt FTP -sivustolta FASTA -muodossa [28] .