GenBank | |
---|---|
Sisältö | |
Kuvaus | Nukleotidisekvenssit yli 300 000 organismille tukevilla bibliografisilla ja biologisilla huomautuksilla. |
Tietotyyppi |
|
eliöt | kaikki |
Yhteystiedot | |
Tutkimuskeskus | US National Center for Biotechnology Information (NCBI) |
Alkuperäinen julkaisu | 21071399 |
Julkaisupäivä | 1982 |
Saatavuus | |
Tietojen muoto | |
Verkkosivusto | NCBI |
Lataa URL | ncbi ftp |
verkkopalvelu | |
Työkalut | |
Web | RÄJÄHDYS |
Itsenäinen versio | RÄJÄHDYS |
Muut | |
Lisenssi | Epäselvä [1] |
GenBank on julkisesti saatavilla oleva tietokanta , joka sisältää kaikki annotoidut DNA- ja RNA-sekvenssit sekä niihin koodattujen proteiinien sekvenssit. GenBankia ylläpitää US National Center for Biotechnology Information (NCBI) , joka on osa Yhdysvaltain kansallisia terveysinstituutteja, ja se on maksutta tutkijoiden käytettävissä ympäri maailmaa. GenBank kerää ja yhdistää tietoja eri laboratorioista yli 100 000 eri organismista.
GenBank on arkistotietokanta, eli jokaisen merkinnän sisältö on tämän merkinnän tekijöiden vastuulla, jotka pääsääntöisesti ovat tämän järjestyksen määrittäjiä. GenBank on yhdessä EMBL- ja DDBJ- pankkien kanssa osa INSDC-konsortiota ( http://insdc.org/ ), joka vaihtaa säännöllisesti tietoja näiden kolmen arkiston välillä, joissa on huomautettuja nukleotidisekvenssejä.
GenBankin julkaisu tapahtuu kahden kuukauden välein ja se on saatavilla verkkosivustolta FTP:n kautta. GenBankin nykyisen version julkaisutiedot sisältävät yksityiskohtaisia julkaisutietoja ja ilmoituksia GenBankin tulevista muutoksista. Myös GenBankin aikaisempien versioiden julkaisutiedot ovat saatavilla.
Maaliskuussa 1979 kolmekymmentä molekyylibiologia ja tietotekniikan tutkijaa tapasivat Rockefeller-yliopistossa New Yorkissa. Se hyväksyi kannan tarpeeseen luoda valtakunnallinen atk-tietokanta. Tämä johtui tunnettujen DNA-sekvenssien määrän nopeasta kasvusta sekä mahdollisuuksista saada uutta biologista tietoa analysoimalla ja vertailemalla. Siihen asti oli olemassa useita erillisiä sekvenssikokoelmia, mutta yksikään niistä ei ollut täydellinen [2] Kansallisilta terveysinstituuteilta (NIH) kesti kolme vuotta kehittää rahoitussuunnitelma hankkeelle. Tänä aikana EMBL teki oman sekvenssitietokantansa julkisesti saataville. Tämä NIH:n valitettava viivästys ei johtunut vain hitaasta byrokraattisesta järjestelmästä, vaan myös tutkijoiden epävarmuudesta biologisten kokoelmien roolista aikana, jota hallitsevat kokeelliset menetelmät elävien ymmärtämiseksi. Useiden kokeellisten tutkijoiden painostuksesta NIH alkoi kuitenkin etsiä projektin toteuttajia. Kilpailuun osallistui tietokannan luomiseen kaksi ryhmää: Margaret Dyhoffin johtama National Biomedical Research Foundationin (NBRF) ryhmä ja Los Alamos National Laboratoryn (LANL) Walter Goadin johtama tutkijaryhmä yhteistyössä yksityisen Boltin kanssa, Beranek ja Newman » [2] .
Dyhoff loi yhden ensimmäisistä biologisista sekvenssitietokannoista, joka keräsi proteiinien aminohapposekvenssejä 1960-luvulta lähtien. Vuodesta 1965 ilmestyneessä Atlas of Protein Sequences and Structures -sarjassa Dyhoff esitteli maailman suurimman kokoelman proteiini- ja nukleiinihapposekvenssejä, uusimmat menetelmät niiden analysointiin ja niistä johtuvat evoluutionäkökohdat [3] . suosittu työkalu molekyyli- ja evoluutiobiologien työssä. Dyhoff odotti, että tutkijat jakavat uudet sekvenssit hänen kanssaan suoraan ennen niiden julkaisemista. Tämä aloite ei kuitenkaan löytänyt kunnollista vastausta kokeellisten biologien keskuudessa, koska löydön tekijää tai prioriteettia ei määritetty Atlakseen tullessa. Dayhoff ja hänen tiiminsä joutuivat jatkamaan julkaistun kirjallisuuden manuaalista analysointia [2] .
Toinen NIH-sopimuksen kilpailija on Los Alamos -ryhmä, joka on tehnyt rajoitettua biolääketieteellistä tutkimusta Manhattan-projektin jälkeen . Kuultuaan Rockefeller-yliopiston päätöksestä Walter Goad oli vakuuttunut siitä, että Los Alamos oli "luonnollinen paikka DNA-sekvensointikeskukselle", mikä johtui pääasiassa siellä sijaitsevan kansallisen laboratorion "ainutlaatuisesta laskentatehosta" [4] . Goad alkoi myös kerätä nukleiinihapposekvenssejä, pääasiassa muista kokoelmista, jotka omistavat Richard Grant Ranskasta, Kurt Stöber Saksasta, Douglas Brutlag ja Alvin Kabat Yhdysvalloista [2] .
NBRF (Diehoff) ja LANL-BBN (Goad) ehdotukset keskitetystä tietokannasta olivat hyvin samankaltaisia, mutta ne sisälsivät keskeisiä eroja omistajuuden, luottamuksellisuuden ja tieteellisen prioriteetin suhteen. NBRF ehdotti sekvenssien keräämistä tarkastelemalla julkaistua kirjallisuutta ja kutsumalla kokeilijoita toimittamaan tietonsa. Tällainen lähestymistapa merkitsi samaa asennetta sekvenssejä kohtaan kuin luonnontieteilijät suhtautuvat yksilöihin - luonnonympäristössä oleviin esineisiin, joita voidaan kerätä ja käyttää. LANL-BBN sitä vastoin ehdotti, että julkaisijoita pyydettäisiin, että sekvenssien sisällyttäminen tietokantaan olisi edellytys artikkelin julkaisemiselle lehdessä. Tällainen järjestelmä vastasi kokeellisten tieteiden motivaatiojärjestelmää, jossa tutkimustuloksia pidetään henkilökohtaisena tietona ennen kuin ne julkaistaan ja niille määrätään tekijä. Julkaiseminen tällä tavalla kannustaa tiedon saattamista julkisesti saataville [2] .
Vuonna 1980 Yhdysvaltain korkein oikeus julisti, että "kaikki ihmisen luoma auringon alla", mukaan lukien geneettisesti muunnetut organismit, voidaan patentoida [5] . Tämä ilmoitus herätti NIH:n kysymyksen siitä, kuka saattaisi omistaa tulevan tietokannan tiedot. Goad korosti, että hänellä "ei ole aikomusta väittää olevansa minkään tiedon omistusoikeus" ja totesi, että Dyhoff ja hänen tiiminsä "etsivät tietokantansa myyntituloja ja estivät niiden uudelleenjakelun", mainitsematta, että tuotot menivät vain kulujen kattamiseen, eikä tehdä voittoa [6] .
LANL-BBN pystyi edelleen lisäämään tietokantansa avoimuutta tarjoamalla sen jakelun puolustusministeriön hallinnoiman ARPANET -tietokoneverkon kautta, kun taas NBRF pystyi tarjoamaan vain rajoitetun online-käytön puhelinmodeemien kautta. 30. kesäkuuta 1982 NIH myönsi sopimuksen LANL-BBN:lle julkisen, ilmaisen nukleiinihapposekvenssitietokannan luomisesta, joka tuli pian tunnetuksi GenBank-nimellä.
GenBankin menestys kaikkien julkaistujen sekvenssien keräämisessä johtui kahdesta keskeisestä tekijästä. Ensin aloitettiin tiivis yhteistyö muutamaa kuukautta aiemmin Heidelbergissä perustetun EMBL-tietokannan ja vuonna 1986 DDBJ :n kanssa. Jokainen tietokanta vastasi tiettyjen aikakauslehtien julkaisujen seurannasta [2] .
Toiseksi DNA-tietokannat olivat yhä enemmän jäljessä tunnettujen sekvenssien räjähdysmäisestä määrästä. Ratkaisu ongelmaan oli sopimus julkaisijoiden kanssa sekvenssien sähköisestä sisällyttämisestä tietokantaan julkaisun edellytyksenä.
Siitä lähtien GenBank on kasvanut ja laajentunut osallistumalla projekteihin , kuten ihmisgenomi- ja DNA-viivakoodausprojekteihin . GenBankista on tullut esimerkki "ilmaisen sisällön" periaatteisiin perustuvasta hankkeesta , joka on saavuttamassa valtavaa kilpailuetua nykymaailmassa [2] .
1980-luvun puolivälissä Stanfordin yliopiston bioinformatiikkayritys Intelligenetics johti GenBank-projektia yhdessä LANL :n kanssa . Yhtenä ensimmäisistä julkisista bioinformatiikkaprojekteista Internetissä projekti käynnisti ensimmäiset foorumit ja välineet tieteellisen tiedon jakamiseen: BIOSCI/Bionet .
Vuosina 1989-1992 GenBank siirrettiin vastaperustettuun National Center for Biotechnology Informationiin ( NCBI ) [7] .
Tietokannan kolmas painos, joka julkaistiin joulukuussa 1982, sisälsi 606 nukleotidisekvenssiä, emäksissä mitattuna - 680338. Marraskuuhun 1983 mennessä sekvenssien määrä oli kasvanut yli 4-kertaiseksi - 2427:ään. Vuoteen 2000 asti sekvenssien kasvu oli tietokanta oli eksponentiaalinen. Vuoteen 2007 mennessä tiedon määrä kaksinkertaistui 18 kuukauden välein.
Huhtikuusta 2002 lähtien tilastoja on pidetty WGS-osion osalta. Sen kasvuvauhti ylittää GenBankin pääkonttorin. Hidastuttuaan vuonna 2010 WGS osoittaa jälleen kiihtynyttä kasvua [8] .
Helmikuussa 2013 GenBank sisälsi tietoa yli 228 miljardista emäsparista ja lähes 200 miljoonasta sekvenssistä (yli 100 000 elävästä organismista) [9] .
Geenipankki sisältää myös muita mekaanisesti lisättyjä tietojoukkoja, jotka perustuvat sekvensointitietojen pääkokoelmaan.
Taulukon sisältämien tietojen perusteella voidaan määrittää GenBankiin kertyneen tiedon laajuus ja verrata uusien tietueiden ilmestymisnopeutta tietokannan perustamisen jälkeisinä ensimmäisinä vuosina ja tällä hetkellä [8] .
Vapauta | päivämäärä | perusteilla | Jaksot |
---|---|---|---|
3 | joulukuuta 1982 | 680 338 | 606 |
66 | joulukuuta 1990 | 51 306 092 | 41 057 |
121 | joulukuuta 2000 | 11 101 066 288 | 10 106 023 |
181 | joulukuuta 2010 | 122 082 812 719 | 129 902 276 |
218 | Helmikuu 2017 | 228 719 437 638 | 199 341 377 |
Annotoidussa GenBank-näytteessä GenBank Flat File -muodossa on seuraavat osiot [10] :
Kenttä nimi | Kentän huomautus |
---|---|
LOCUS |
LOCUS-kenttä sisältää seuraavat tietoelementit:
Paikan nimi Ainoa sääntö paikan nimen määrittämisessä on yksilöllisyys. Jakson pituus Nukleotidien emäsparien (tai aminohappotähteiden, jos kyseessä on proteiinisekvenssi) lukumäärä sekvenssimerkinnässä. Hakukenttä Entrez: sarjan pituus [SLEN] Molekyylityyppi _ Jokaisen GenBank-merkinnän on sisällettävä yhden tyyppisen molekyylin sekvenssitiedot: genominen DNA , genominen RNA , epäkypsä (silmukoitumaton) RNA, lähetti-RNA (cDNA), ribosomaalinen RNA , siirto-RNA , pieni tuma-RNA ja muut. Hakukenttä Entrez: molekyylin tyyppi [PROP]. Esimerkki biomol_genomic, biomol_mRNA jne. Osasto GenBank (GenBank Division) GenBank-merkinnät viittaavat johonkin seuraavista osioista [11] : Taksonominen osat:
Korkean suorituskyvyn sekvensointi:
Projektit:
Koska osiot eivät heijasta nykyistä NCBI-taksonomiaa (jonka todellisuudessa tiettyyn organismiin liittyvä sekvenssi voidaan sisällyttää "tekniseen" ryhmään sen hankintamenetelmän vuoksi), NCBI Taxonomy Browser -selainta tulisi käyttää kaikkien sekvenssien hakemiseen tietty organismi . Entrez-hakukenttä: [PROP]-osio . Esimerkki: gbdiv_pri, gbdiv_est jne. Muutospäivämäärä _ Päivämäärä, jolloin merkintää viimeksi muutettiin. Entrezin hakukenttä: päivämäärä [MDAT]. Esimerkki 1999/07/25, 1999/07/25:1999/07/31 (vvvv/kk/pp muoto vaaditaan) |
MÄÄRITELMÄ |
Lyhyt kuvaus sekvenssistä: organismi, geenin/proteiinin nimi, kuvaus sekvenssin toiminnoista (jos sekvenssi ei koodaa).
Hakukenttä Entrez: Kuvaus [TITL]. |
LIITTYMINEN |
Sekvenssimerkinnän yksilöllinen ja muuttumaton tunniste ( tallennusnumero eng. ) . Tunniste on kirjainten ja numeroiden yhdistelmä. Se on yleensä yksi kirjain, jota seuraa viisi numeroa (esim. U12345) tai kaksi kirjainta, joita seuraa kuusi numeroa (esim. AF123456). Jotkin tunnisteet voivat olla pidempiä sekvenssimerkinnän tyypistä riippuen.
Entrez-hakukenttä: Tunniste [ACCN]. |
VERSIO |
Tietyn nukleotidisekvenssin tunnistenumero GenBank-tietokannassa käyttää "accession.version"-muotoa, jonka GenBank/EMBL/DDBJ toteutti helmikuussa 1999. Kasvatetaan sekvenssitiedon mahdollisilla muutoksilla, esimerkiksi U12345.10:stä U12345.11:een. Samanaikaisesti muutokset saavat uuden numeron GI-tunnistejärjestelmään. Sekvenssiversiohistoria löytyy GenBank Sequence Revision History ja Sequence IDs -osiosta .
Entrez-hakukenttä: Käytä oletusarvoista "Kaikki kentät". |
GI |
Siitä käännetyn nukleotidi- tai proteiinisekvenssin tunnistenumero "GenInfo Identifier". Jos järjestystä muutetaan jollakin tavalla, uusi GI-numero annetaan.
Entrez-hakukenttä: käytä oletusarvoista "Kaikki kentät" |
AVAINSANAT |
Avainsana tai lause, joka kuvaa sarjaa. Avainsanojen puuttuessa sisältää vain pisteen.
Tämä kenttä esiintyy sekvenssitietueissa ensisijaisesti historiallisista syistä, eikä se perustu kontrolloituun sanastoon. Käytetään enimmäkseen vanhoissa viesteissä tai erityisissä sekvenssityypeissä, kuten EST, STS, GSS, HTG jne., joten on parasta olla käyttämättä sitä hakuun. Entrezin hakukenttä: avainsana [KYWD] |
LÄHDE |
Organismi on sekvenssin lähde. Tallennusmuoto on ilmainen, siihen voidaan liittää molekyylityyppi.
Organismi - alikenttä edustaa emoorganismin (suvun ja lajin, tarvittaessa) muodollista tieteellistä nimeä ja sen taksonomiaa, joka perustuu NCBI:n taksonomiatietokantaan. Entrezin hakukenttä: organismi [ORGN]. Esimerkki: Saccharomyces cerevisiae |
VIITE |
Linkkejä ehdotuksen tekijöiden julkaisuihin (lehtiartikkeli, kirjan luku, kirja, väitöskirja/monografia, kokoelmamateriaali, patentti jne.), joissa on keskustelu merkinnässä mainituista tiedoista. Linkit lajitellaan automaattisesti julkaisupäivän mukaan vanhimmasta alkaen. Tila "julkaisematon" tai "painossa" tarkoittaa, ettei julkaisuja ole. Viimeinen artikkeli sisältää yleensä tietoja sekvenssin suorasta lähettäjästä, joten sitä kutsutaan "lähettäjälohkoksi" ja sanoja "Suora lähetys" käytetään artikkelin otsikon sijasta.
Kenttä sisältää useita elementtejä: Tekijät _ Luettelo kirjoittajista siinä järjestyksessä, kun he esiintyvät lainatussa artikkelissa. Hakukenttä Entrez: ja toinen [AUTH] (muodossa Sukunimi AB ilman pisteitä nimikirjainten jälkeen, nimikirjaimet voidaan jättää pois). otsikko _ Julkaistun tai julkaisemattoman teoksen alustava nimi. Entrezin hakukenttä: nimi [WORD] . Päiväkirja _ MEDLINE on lyhenne lehden nimestä. (Täysi oikeinkirjoitus löytyy Entrez Journalsin tietokannasta) Entrez-hakukenttä: lehden nimi [JOUR] (voit kirjoittaa lehden koko kirjoitusasun tai lyhenteen MEDLINE). PUBMED PubMed Identifier (PMID). Linkit, mukaan lukien PubMed-tunnisteet, vastaavaan PubMed-merkintään. PubMed-tietueet, jotka sisältävät sekvenssitunnisteita SI (Secondary Source Identifier) -kentässä, puolestaan linkittävät sekvenssitietueisiin. Entrez-hakukenttä: PubMed-tunnusta ei voi hakea, mutta PubMed-tietokannasta voi hakea. |
OMINAISUUDET |
Tietoa sekvenssissä määritellyn alueen sijainnista ja toiminnasta: geeni, sen tuote ( proteiini ), promoottori , koodaava sekvenssi (CDS), vaihtoehtoisesti silmukoitu mRNA ja muut. Täydellinen luettelo toiminnallisista sarjoista on saatavilla seuraavista paikoista:
Aluetta voidaan edustaa yksittäinen nukleotidiväli, viereinen nukleotidiväli, sekvenssijaksojen pooli ja muut esitykset. Alue on yleensä annettu kahdella koordinaatilla n..m. Symboli "<" ennen koordinaatteja osoittaa paikan 5'-päässä (esimerkiksi CDS <1..206 ), symboli ">" - 3'-päässä (esimerkiksi CDS 435..915 > ), merkintä "täydennys" - sijainnista täydentävässä ketjussa. Hakukenttä Entrez: toimintonäppäin [FKEY]. Esimerkki, promoottori Kentän elementit: lähde Pakollinen kenttä, joka sisältää sekvenssin pituuden, lähdeorganismin tieteellisen nimen ja taksonitunnuksen (taksonin tunnistenumero NCBI:n taksonomiatietokannassa ). Voi sisältää myös lisätietoja, kuten sijainti genomikartalla (esim. kromosominumero), kanta, klooni, kudostyyppi jne. Entrez-hakukenttä: Käytä sekvenssin pituutta [SLEN] hakeaksesi pituuden mukaan, organismia [ORGN] etsiäksesi organismin nimen perusteella, lisätietoja [ALL] etsiäksesi muita elementtejä, kuten kantaa, kloonia, kudostyyppiä. CDS Proteiinia koodaava nukleotidisekvenssi, mukaan lukien aloitus- ja lopetuskodonit. Se sisältää myös tältä alueelta translatoidun aminohapposekvenssin. "/evidence=experimental" ja "/evidence=not_experimental" spesifierit osoittavat kokeellisen vahvistuksen olemassaolon tai puuttumisen proteiinin olemassaolosta. mRNA:lle merkinnän kirjoittajat voivat kuvata transloimattomia 5'- ja 3'-alueita (5'UTR ja 3'UTR) ja koodaavia sekvenssejä (CDS, eksonit). Entrez-hakukenttä: toimintonäppäin [FKEY] proteiini_id, GI Nukleotidisekvenssin tunnistetta vastaava proteiinisekvenssin tunnistenumero. Proteiinitunnisteet koostuvat kolmesta kirjaimesta, joita seuraa viisi numeroa, piste ja versionumero. Jos sekvenssitiedoissa tapahtuu muutos (jopa yksittäinen aminohappo), versionumeroa kasvatetaan (esimerkiksi AAA98665.1 muuttuu muotoon AAA98665.2). GenBank/EMBL/DDBJ toteutti accession.version-proteiinisekvenssin tunnistusnumeron tunnistusformaatin helmikuussa 1999, ja se toimii rinnakkain digitaalisen GI-järjestelmän kanssa (katso edellä). Entrez-hakukenttä: käytä oletusarvoista "Kaikki kentät" geeni Biologisesti kiinnostava alue, jolla on nimi ja joka tunnistetaan geeniksi. Entrez-hakukenttä: toimintonäppäin [FKEY] |
ALKUPERÄ |
Itse sarja on ladattavissa eri muodoissa. Kenttä voi olla tyhjä, se voidaan näyttää muodossa "Raportoimaton" tai antaa paikallisen osoittimen sekvenssin alkuun, joka yleensä sisältää kokeellisesti määritetyn restriktiokohdan tai geneettisen lokuksen (jos sellainen on). |
Joko yksittäiset tekijät tai sekvensointikeskukset lähettävät sekvenssilähetykset johonkin kolmesta tietokannasta (GenBank, ENA tai DDBJ), enimmäkseen sähköisesti BankIt- tai Sequin-ohjelmien kautta. Tietojen synkronointi tietokantojen välillä tapahtuu päivittäin. Sovellukset tarkistetaan huolellisesti käytettyjen vektorien fragmenttien ( VecScreen- järjestelmän avulla ), koodausalueen oikean käännöksen, oikean taksonomian ja oikeiden bibliografisten viitteiden varalta. GenBankin merkinnän luonnos lähetetään takaisin kirjoittajalle tarkastettavaksi ja lopullisiin versioihin ennen julkaisemista tietokantaan, jota voidaan lykätä tiettyyn aikaan tekijän pyynnöstä. Kun merkintä on julkaistu (yleensä 2 päivän kuluessa lähettämisestä), sille annetaan tunnus, joka voidaan noutaa Entrezin tai FTP :n kautta . Tunnisteet vastaanottavat keskimäärin noin 3500 sekvenssiä päivässä. GenBankin julkisessa käytössä oleva sekvenssi on vaatimus julkaista monissa aikakauslehdissä [12] .
GenBank tarjoaa erityisiä ohjelmistopaketteja helpottamaan hakemusten jättämistä [12] :
Tällä hetkellä GenBank-tietokanta sisältää yksittäisten geenien sekvenssien lisäksi paljon dataa, joka on saatu nykyaikaisilla DNA-sekvensointimenetelmillä ja automaattisella sekvenssimerkinnällä. GenBankissa on useita osioita, jotka on omistettu suuren suorituskyvyn sekvensointitiedolle [11] .
![]() | |
---|---|
Bibliografisissa luetteloissa |