UniProt

UniProt


Sisältö
Kuvaus	Proteiinisekvenssitietokanta
Tietotyyppi	Proteiinimerkintä
eliöt	Kaikki
Yhteystiedot
Tutkimuskeskus	EMBL-EBI , Iso-Britannia; SIB , Sveitsi; PIR , Yhdysvallat.
Saatavuus
Tietojen muoto	FASTA , GFF , RDF , XML .
Verkkosivusto	uniprot.org uniprot.org/news/

UniProt on avoin tietokanta proteiinisekvensseistä. UniProt-konsortio on toiminut vuodesta 2003 . Yksi UniProt-tietokanta luotiin yhdistämällä useita tietokantoja . UniProt koostuu neljästä suuresta tietokannasta (Knowledge Base , Arkisto , Reference Clusters ja metagenominen data ) ja kattaa proteiinisekvenssianalyysin eri näkökohdat. Monet sekvensseistä ovat tulleet tunnetuiksi viime vuosien genomin sekvensointiprojektien tuloksena. Lisäksi UniProt-tietokanta sisältää runsaasti tieteellisestä kirjallisuudesta saatua tietoa proteiinien biologisista toiminnoista.

Uniprot Consortium

UniProt-konsortioon kuuluvat: European Bioinformatics Institute (EBI), Swiss Bioinformatics Institute (SIB) ja Protein Information Resource (PIR) [1] .

Iso-Britannian Hinxtonissa sijaitseva EBI isännöi useita bioinformatiikan tietokantoja ja palveluita [2] .

SIB, joka sijaitsee Genevessä, Sveitsissä, on asiantuntijaproteiinijärjestelmien analyysipalvelimien (ExPASy-palvelinten) arkisto, joka on proteomiikan työkalujen ja niihin liittyvien tietokantojen päälähde [3] .

PIR sijaitsee Georgetown University Medical Centerissä Washington DC:ssä, USA:ssa ja on integroitu bioinformatiikan resurssi, joka on suunniteltu tukemaan genomiikan ja proteomiikan tutkimusta [4] .

Vuonna 2002 PIR (Protein Information Resource) sai yhdessä kansainvälisten kumppaneidensa EBI:n (European Bioinformatics Institute) ja SIB:n (Swiss Bioinformatics Institute) kanssa National Institutes of Healthin (NIH) apurahan luoda UniProt, yksi maailmanlaajuinen tietokanta. sekvenssien ja toimintojen proteiinit. Näin syntyi UniProt-konsortio [5] . UniProt-projekti aloitti toimintansa joulukuussa 2003 [6] .

UniProt rahoitetaan apurahoilla Yhdysvaltain kansallisilta terveysinstituuteilta (NIH), National Human Genome Research Institutelta (NHGRI), National Institute of General Medical Sciencesilta (NIGMS), British Heart Foundationilta (BHF) ja Sveitsin liittohallitukselta. Federal Office of Education and Science, National Science Foundation (NSF) [1] [7] .

UniProt-tietokannan alkuperä

Yksi UniProt-tietokanta luotiin yhdistämällä Swiss-Prot-, TrEMBL- ja PIR-tietokannat - PSD [8] [9] [10] .

Swiss Prot

Swiss-Prot-tietokannan loi vuonna 1986 Amos Bayrosh työskennellessään tohtoriprojektissaan, ja sitä kehitettiin edelleen Swiss Bioinformatics Institutessa (SIB), ja myöhemmin Rolf Upweiler viimeisteli sen European Bioinformatics Institutessa (EBI) [11] [12] . [13] . Swiss-Prot-tietokannan päätehtävä on varmistaa proteiinisekvenssitietojen luotettavuus korkean ja yksityiskohtaisen manuaalisen merkinnän avulla. Se sisältää kuvauksen proteiinin toiminnasta, sen domeenirakenteesta , translaation jälkeisistä modifikaatioista , erilaisista sekvenssivarianteista jne. minimiredundanssilla ja korkealla integraatiotasolla muihin tietokantoihin [1] .

TreMBL

Nucleotide Sequence Data Library (TrEMBL) -tietokanta kehitettiin vuonna 1996 annotoiduksi tietokonesovellukseksi Swiss-Protille [8] [10] [11] . Päätös luoda TrEMBL tehtiin vastauksena lisääntyneeseen tietovirtaan, joka johtui genomiprojektien syntymisestä, ja aikaa vievä ja työvoimavaltainen manuaalinen merkintäprosessi UniProtKB / Swiss-Protissa ylitti Swiss-Protin kyvyn sisällyttää kaikki saatavilla olevat proteiinisekvenssit [8] [10] . TrEMBL tarjoaa automatisoidun annotaatiokyvyn olemassa olevien nukleotidisekvenssien kääntämiseksi ja niiden muuntamiseksi proteiinisekvensseiksi Swiss-Protin ulkopuolella [6] .

PIR-PSD

National Biomedical Research Foundationin (NBRF) isännöi Georgetownin yliopiston lääketieteellisessä keskuksessa Washington DC:ssä, USA:ssa, PIR on vanhimman proteiinisekvenssitietokannan perillinen, nimittäin Margaret Oakley Dejhoffin luoman "Protein Sequence and Structure Atlas", joka julkaistiin ensimmäisen kerran. vuonna 1965 [14] . PIR ylläpitää useita proteiinitietokantoja, nimittäin Master Protein Sequence Database (PIR-PSD), Protein Structure and Function Related Database (iProClass) ja muita proteiinisekvenssi- ja valvottuja perhetietokantoja [1] .

UniProt-tietokantojen organisointi

UniProt tarjoaa neljä päätietokantaa:

UniProtKB (Swiss-Prot ja TrEMBL),
UniParc,
Uniref,
UniMes.

UniProt KnowledgeBase (UniProtKB)

UniProt Knowledge Base (UniProtKB) on asiantuntijoiden osittain kurattama proteiinitietokanta, joka koostuu kahdesta osasta:

UniProtKB / Swiss-Prot, sisältää arvostelun, käsin merkityt merkinnät. 15. maaliskuuta 2017 UniProtKB / Swiss-Prot sisältää 553 941 sekvenssitietuetta (mukaan lukien 198311666 aminohappoa), jotka on saatu 251243 lähteestä [15] .
UniProtKB/TrEMBL sisältää vertailemattomia, automaattisesti merkittyjä merkintöjä [7] . 15. maaliskuuta 2017 UniProtKB / TrEMBL sisältää 80204459 proteiinisekvenssitietuetta (mukaan lukien 26890984395 aminohappoa) [16] .

UniProtKB/Swiss-Prot

UniProtKB/Swiss-Prot on manuaalisesti merkitty, ei-redundantti proteiinisekvenssitietokanta. UniProtKB/Swiss-Protin tavoitteena on tarjota kaikki tiedossa tarvittava tieto tietystä proteiinista [1] . Abstrakteja tarkistetaan säännöllisesti, jotta ne pysyisivät ajan tasalla ajankohtaisista tieteellisistä tuloksista. Tietueen annotaatiovaatimukset sisältävät proteiinisekvenssin yksityiskohtaisen analyysin ja tieteellisen kirjallisuuden tiedot [17] . Saman geenin ja saman lajin proteiinisekvenssit yhdistetään samaan tietokantamerkintään. Sekvenssien väliset erot on tunnistettu ja niiden syyt dokumentoitu ja annettu (esim. vaihtoehtoinen silmukointi , luonnollinen vaihtelu, väärät aloituskohdat, väärät eksonirajat , virheelliset lukukehykset , luettelo tunnistamattomista konflikteista ja muut). Tietueiden merkitsemiseen UniProtKB/Swiss-Protissa käytetään useita sekvenssianalyysityökaluja. Tietokoneen ennusteet analysoidaan manuaalisesti ja sopivat tulokset valitaan sisällytettäväksi tietokantatietueisiin. Näihin ennusteisiin kuuluvat translaation jälkeiset modifikaatiot, transmembraanisten domeenien sekvenssi, rakenne ja topologia, signaalipeptidit , domeenin tunnistaminen ja proteiiniperheiden luokittelu [17] [18] . Asiaankuuluvat julkaisut tunnistetaan hakemalla tietokannoista, kuten PubMed . Jokaisen asiakirjan koko teksti luetaan ja tiedot lisätään tietueeseen.

Annotaatio sisältää pääsääntöisesti seuraavat tiedot [6] :

proteiinin ja geenin nimi;
proteiinin toiminta;
entsyymikohtaiset tiedot, kuten katalyyttinen aktiivisuus , kofaktorit ja katalyyttiset jäännökset ;
solunsisäinen lokalisointi;
proteiini-proteiini vuorovaikutukset ;
malli (kuvio) ilmaisu;
tärkeiden verkkotunnusten ja sivustojen sijainti ja rooli;
ionien , substraattien ja kofaktorien sitoutumiskohdat;
proteiinivarianttimuodot, jotka johtuvat luonnollisista geneettisistä muutoksista, RNA-muokkauksesta , vaihtoehtoisesta silmukoitumisesta, proteolyyttisistä vaikutuksista ja translaation jälkeisistä modifikaatioista.

Annotoidun tietueen on läpäistävä laadunvalvonta, ennen kuin se sisällytetään UniProtKB / Swiss-Prot -ohjelmaan. Kun uusia tietoja tulee näkyviin, olemassa olevat tietueet päivitetään [1] .

UniProtKB/TrEMBL

UniProtKB / TrEMBL sisältää tietokonetekniikalla analysoituja tietueita, joita on täydennetty automaattisella merkinnällä [1] .

Annotoitujen koodaavien sekvenssien kääntäminen nukleotidisekvenssitietokantoihin, kuten European Molecular Biology Laboratory (EMBL-Bank), GenBank , Japan DNA Database (DDBJ), suoritetaan automaattisesti, minkä jälkeen nämä proteiinisekvenssit syötetään UniProtKB / TrEMBL:iin. UniProtKB / TrEMBL sisältää myös sekvenssejä Protein Data Bankista (PDB) ja ennustettuja geenejä, mukaan lukien Ensemblin geenit, yhteistutkimusprojekti , johon osallistuvat European Bioinformatics Institute ja Wellcome Trust Sanger Institute, RefSeq ja CCDS [19] .

UniProt-arkisto (UniParc)

UniProt Archive (UniParc) on kattava, ei-varattu tietokanta, joka sisältää proteiinisekvenssejä tärkeimmistä julkisista proteiinisekvenssitietokannoista [20] . Koska sama proteiini löytyy useista eri lähdetietokannoista ja se on läsnä useissa tapauksissa samassa tietokannassa, UniParc tallentaa jokaisen ainutlaatuisen sekvenssin vain kerran redundanssin välttämiseksi. Identtiset sekvenssit yhdistetään riippumatta siitä, ovatko ne samaa tai eri lajia edustavia proteiineja. Jokaiselle sekvenssille on määritetty stabiili ja ainutlaatuinen koodi (URI), joka mahdollistaa saman proteiinin tunnistamisen eri lähdetietokannoista [1] .

UniParc sisältää vain proteiinisekvenssejä ilman huomautuksia. UniParc-tietokannan tietueiden ristiviittaukset mahdollistavat lisätietojen hankkimisen proteiinista tietokannasta, joka on alkuperäinen lähde. Jos sekvenssit muuttuvat lähdetietokannassa, näitä muutoksia seurataan UniParcissa ja kaikkien muutosten historia tallennetaan arkistoon [1] .

UniParcin tietolähteet [1]

Tietokanta	Tietotyyppi
Japanilainen DNA-tietokanta (DDBJ) Euroopan nukleotidiarkisto (ENA) DNA- ja RNA-tietokanta (GenBank)	Koodaussekvenssit
Yhteinen tutkimushanke, johon osallistuvat European Bioinformatics Institute ja Wellcome Trust Sanger Institute (Ensembl) Selkärankaisten genominen merkintätietokanta (VEGA)	Ennustetut koodaavat sekvenssit selkärankaisten genomeista
Drosophilidae -heimon hyönteisten geneettisten ja molekyylitietojen päävarasto (FlyBase)	Drosophilidae -heimon lajien koodaussekvenssi
Ihmisgeenien ja transkriptien kattava merkintälähde (H-Inv)	Ihmisen proteiinisekvenssit
Kansainvälinen proteiiniindeksi (IPI)	Korkeampien eukaryoottien proteiinisekvenssit
Patenttivirastot Euroopassa, Yhdysvalloissa ja Japanissa (USPTO)	Patenttitoimistojen patentteihin liittyvät koodaussekvenssit
Proteiinitietoresurssit (PIR-PSD)	Kuroidut proteiinisekvenssit
Protein Data Bank (PDB)	Proteiinisekvenssit, joiden kolmiulotteiset rakenteet ovat ATE:ssa
Protein Research Foundation (PRF)	Proteiinisekvenssit tieteellisistä kirjoituksista ja ennusteista
UniProt-viiteklusterit (RefSeq)	Koodaavat sekvenssit genomisen, transkription ja proteiinin vertailusekvenssien NCBI -sarjasta
Hiivan genominen tietokanta (SGD)	Saccharomyces cerevisiaen koodaussekvenssit
Arabidopsis thaliana (TAIR) -tietolähde	Arabidopsis thalianan koodaussekvenssit
TROME	Ennustetut aminohapposekvenssit
UniProtKB/Swiss-Prot	Käsintehdyt proteiinisekvenssit, jotka ovat peräisin pääasiassa TrEMBL:stä
UniProtKB/TrEMBL	Automaattisesti kuratoidut proteiinisekvenssit, jotka on johdettu nukleotidisekvenssitietokantojen koodaavista sekvensseistä
Caenorhabditis elegansin genomisen ja muiden biologisten ominaisuuksien tietokanta (WormBase)	Caenorhabditis elegans -sukkulamadon koodaussekvenssit

Viiteklusterit UniProt (UniRef)

UniProt-viiteklusterit (UniRef) koostuvat kolmesta tietokannasta (UniRef100, UniRef90 ja UniRef50), jotka on muodostettu UniProtKB:n proteiinisekvenssien klustereista ja valituista UniParc-tietueista [21] .

UniRef100-tietokanta yhdistää identtiset sekvenssit ja sekvenssifragmentit (mistä tahansa organismista) yhdeksi UniRef-tietueeksi [1] .

UniRef100-sekvenssit ryhmiteltiin käyttämällä CD-HIT-algoritmia [21] [22] UniRef90:n ja UniRef50:n [22] rakentamiseksi . Kukin kahdesta viimeisestä klusterista koostuu sekvensseistä, joilla on vähintään 90 % ja vähintään 50 % identtisyys pisimmän löydetyn sekvenssin kanssa. Tällä hetkellä UniRefin kattavuus ylittää 4 000 000 lähdesekvenssiä [23] .

Sekvenssiklusterointi pienentää tietokannan kokoa merkittävästi: UniRef100, UniRef90 ja UniRef50 pienentävät tietokannan kokoa noin ~10 %, 40 % ja 70 %. Redundanssin vähentäminen nopeuttaa samankaltaisuushakua ja parantaa etäsukuisten proteiinien etsinnän luotettavuutta [1] .

UniRef-tietueet sisältävät edustavat proteiinisekvenssitiedot, jäsenmäärät ja klusterin yleisen taksonomia sekä pääsynumerot kaikille liitetyille tietueille ja linkkejä UniProtKB:n annotaatioihin biologisen tutkimuksen helpottamiseksi [1] .

UniRef on saatavana UniREF FTP -sivustolta [24] .

UniMrot (UniMes)

UniProt KB sisältää tietueita, joiden lähdetaksonomia tunnetaan. Uusi kehitys on johtanut uusien lähteiden löytämiseen proteiinisekvenssien etsimiseen. Metagenomisen tiedon ilmestyminen edellytti täysin uuden osion luomista UniProt KB:hen, nimittäin erillisen tietokannan — UniProt metagenomiset sekvenssit ja tuntemattomat sekvenssit ympäristöstä, UniMES (The UniProt Metagenomic and Environmental Sequences tietokanta) [25] .

Metagenomiikka (metagenomiikka) on laajamittaista genomianalyysiä mikrobeista, jotka on eristetty ympäristöstä näytteistä, toisin kuin laboratoriossa kasvatetut organismit, jotka edustavat vain pientä osaa mikrobimaailmasta.

UniMES sisältää tällä hetkellä Global Ocean Sampling Expeditionin (GOS) [25] toimittamia tietoja valtamerten organismien proteiinisekvensseistä , jotka alun perin toimitettiin kansainväliseen nukleotidisekvenssitietokantaan (INSDC) [26] .

Alkuperäinen GOS-aineisto koostuu 25 miljoonasta DNA-sekvenssistä, jotka ovat peräisin enimmäkseen valtamerten mikrobeista, ja lähes 6 miljoonasta ennustetusta proteiinista. UniMES yhdistää ennustetut proteiinisekvenssit Interpron automaattiseen luokitteluun, joka on integroitu resurssi proteiiniperheille, domeeneille ja toiminnallisille paikoille. Siksi UniMES on ainutlaatuinen tietokanta, joka tarjoaa ilmaisen pääsyn näytteenottoretkiltä saatuun genomitietoon. Tämän tietokannan sisältämät ympäristönäytetiedot eivät ole saatavilla UniProt Knowledge Base -tietokannassa tai UniProt Reference Clustersissa (UniRef), mutta ne on integroitu UniParciin [27] .

UniMES on saatavana UniProt FTP -sivustolta FASTA -muodossa [28] .

Muistiinpanot

↑ 1 2 3 4 5 6 7 8 9 10 11 12 13 Tietoja UniProtista . http://www.uniprot.org/help/about.+ Haettu 31. maaliskuuta 2017. Arkistoitu alkuperäisestä 30. huhtikuuta 2017.
↑ Tietoja EBI:stä . https://www.ebi.ac.uk/about/travel.+ Haettu 24. huhtikuuta 2017. Arkistoitu alkuperäisestä 1. toukokuuta 2017.
↑ Tietoja SIB:stä . http://www.sib.swiss/about-us.+ Haettu 24. huhtikuuta 2017. Arkistoitu alkuperäisestä 25. huhtikuuta 2017.
↑ Tietoja PIR:stä . http://pir.georgetown.edu/pirwww/about/.+ Haettu 24. huhtikuuta 2017. Arkistoitu alkuperäisestä 22. maaliskuuta 2017.
↑ Globaalin proteiinitietokannan rahoitus luo yhden luotettavan resurssin ( http://www.genome.gov/page.cfm?pageID=10005283 Arkistoitu 24. syyskuuta 2015 Wayback Machinessa )
↑ 1 2 3 Apweiler R. , Bairoch A. , Wu CH Proteiinisekvenssitietokannat. (englanti) // Nykyinen mielipide kemian biologiassa. - 2004. - Voi. 8, ei. 1 . - s. 76-80. - doi : 10.1016/j.cbpa.2003.12.004 . — PMID 15036160 .
↑ 1 2 The Universal Protein Resource (UniProt) vuonna 2010. (englanniksi) // Nucleic acids research. - 2010. - Vol. 38.—S. D142–148. - doi : 10.1093/nar/gkp846 . — PMID 19843607 .
↑ 1 2 3 O'Donovan C. , Martin MJ , Gattiker A. , Gasteiger E. , Bairoch A. , Apweiler R. Korkealaatuinen proteiinitietolähde: SWISS-PROT ja TrEMBL. (englanti) // Tiedotustilaisuudet bioinformatiikan alalta. - 2002. - Voi. 3, ei. 3 . - s. 275-284. — PMID 12230036 .
↑ Wu CH , Yeh LS , Huang H. , Arminski L. , Castro-Alvear J. , Chen Y. , Hu Z. , Kourtesis P. , Ledley RS , Suzek BE , Vinayaka CR , Zhang J. , Barker WC The Protein tietolähde. (englanniksi) // Nukleiinihappotutkimus. - 2003. - Voi. 31, ei. 1 . - s. 345-347. — PMID 12520019 .
↑ 1 2 3 Boeckmann B. , Bairoch A. , Apweiler R. , Blatter MC , Estreicher A. , Gasteiger E. , Martin MJ , Michoud K. , O'Donovan C. , Phan I. , Pilbout S. , Schneider M. SWISS - PROT-proteiinitietokanta ja sen lisäosa TreMBL vuonna 2003. // Nukleiinihappotutkimus. - 2003. - Voi. 31, ei. 1 . - s. 365-370. — PMID 12520024 .
↑ 1 2 Bairoch A. , Apweiler R. SWISS-PROT-proteiinisekvenssitietopankki ja sen uusi lisäosa TREMBL. (englanniksi) // Nukleiinihappotutkimus. - 1996. - Voi. 24, nro. 1 . - s. 21-25. — PMID 8594581 .
↑ Bairoch A. Serendipity bioinformatiikassa, sveitsiläisen bioinformatiikan koettelemuksia jännittävien aikojen läpi! (englanti) // Bioinformatiikka. - 2000. - Voi. 16, ei. 1 . - s. 48-64. — PMID 10812477 .
↑ Séverine Altairac, Naissance d'une banque de données: Interview du prof. Amos Bairoch Arkistoitu 12. heinäkuuta 2010 Wayback Machinessa . Protéines à la Une Arkistoitu 21. kesäkuuta 2011 Wayback Machinessa , elokuussa 2006. ISSN 1660-9824.
↑ Dayhoff, Margaret O. Proteiinisekvenssin ja rakenteen atlas . - Silver Spring, Md: National Biomedical Research Foundation, 1965.
↑ UniProtKB/SwissProt-julkaisutilastot ( http://www.expasy.org/sprot/relnotes/relstat.html Arkistoitu 29. toukokuuta 2010 Wayback Machinessa )
↑ UniProtKB/TrEMBL-julkaisutilastot ( http://www.ebi.ac.uk/uniprot/TrEMBLstats/ Arkistoitu 1. lokakuuta 2015 Wayback Machinessa )
↑ 1 2 Kuinka UniProtKB-merkintä merkitään manuaalisesti ( http://www.uniprot.org/faq/45 Arkistoitu 13. joulukuuta 2013 Wayback Machinessa )
↑ Apweiler R. , Bairoch A. , Wu CH , Barker WC , Boeckmann B. , Ferro S. , Gasteiger E. , Huang H. , Lopez R. , Magrane M. , Martin MJ , Natale DA , O'Donovan C. , Redaschi N. , Yeh LS UniProt: Universal Protein -tietokanta. (englanniksi) // Nukleiinihappotutkimus. - 2004. - Voi. 32.—S. D115–119. - doi : 10.1093/nar/gkh131 . — PMID 14681372 .
↑ Mistä UniProtKB-sekvenssit tulevat ? http://www.uniprot.org/faq/37.+ Haettu 16. huhtikuuta 2014. Arkistoitu alkuperäisestä 15. joulukuuta 2013.
↑ Leinonen R. , Diez FG , Binns D. , Fleischmann W. , Lopez R. , Apweiler R. UniProt -arkisto. (englanti) // Bioinformatiikka. - 2004. - Voi. 20, ei. 17 . - s. 3236-3237. - doi : 10.1093/bioinformatics/bth191 . — PMID 15044231 .
↑ 1 2 Suzek BE , Huang H. , McGarvey P. , Mazumder R. , Wu CH UniRef: kattavat ja ei-redundantit UniProt-viiteklusterit. (englanti) // Bioinformatiikka. - 2007. - Voi. 23, ei. 10 . - s. 1282-1288. - doi : 10.1093/bioinformatics/btm098 . — PMID 17379688 .
↑ 1 2 Li W. , Jaroszewski L. , Godzik A. Erittäin homologisten sekvenssien klusterointi suurten proteiinitietokantojen koon pienentämiseksi. (englanti) // Bioinformatiikka. - 2001. - Voi. 17, ei. 3 . - s. 282-283. — PMID 11294794 .
↑ Tietoja UniRefistä=http://www.uniprot.org/uniref/ . (määrätön) (linkki ei saatavilla)
↑ UniREF FTP -sivusto ( ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/uniref/ )
↑ 1 2 Yooseph S. , Sutton G. , Rusch DB , Halpern AL , Williamson SJ , Remington K. , Eisen JA , Heidelberg KB , Manning G. , Li W. , Jaroszewski L. , Cieplak P. , Miller CS , Li H. , Mashiyama ST , Joachimiak MP , van Belle C. , Chandonia JM , Soergel DA , Zhai Y. , Natarajan K. , Lee S. , Raphael BJ , Bafna V. , Friedman R. , Brenner SE , Godzik A. , Eisenberg D. , Dixon JE , Taylor SS , Strausberg RL , Frazier M. , Venter JC . Sorcerer II:n maailmanlaajuinen valtameren näytteenottoretkikunta: proteiiniperheiden universumin laajentaminen. (englanti) // Public Library of Science Biology. - 2007. - Voi. 5, ei. 3 . — s. e16. - doi : 10.1371/journal.pbio.0050016 . — PMID 17355171 .
↑ Brunak S. , Danchin A. , Hattori M. , Nakamura H. , Shinozaki K. , Matise T. , Preuss D. Nukleotidisekvenssitietokantakäytännöt. (englanti) // Tiede (New York, NY). - 2002. - Voi. 298, nro. 5597 . - P. 1333. - PMID 12436968 .
↑ Universaali proteiiniresurssi (UniProt). (englanniksi) // Nukleiinihappotutkimus. - 2008. - Voi. 36.—S. D190–195. - doi : 10.1093/nar/gkm895 . — PMID 18045787 .
↑ Uniprotin FTP-sivusto UniMES ( ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/unimes/ (downlink) )