GenBank

GenBank
Sisältö
Kuvaus	Nukleotidisekvenssit yli 300 000 organismille tukevilla bibliografisilla ja biologisilla huomautuksilla.
Tietotyyppi	Nukleotidisekvenssit Proteiinisekvenssit
eliöt	kaikki
Yhteystiedot
Tutkimuskeskus	US National Center for Biotechnology Information (NCBI)
Alkuperäinen julkaisu	21071399
Julkaisupäivä	1982 ( 1982 )
Saatavuus
Tietojen muoto	XML ASN.1 Genbank-muoto
Verkkosivusto	NCBI
Lataa URL	ncbi ftp
verkkopalvelu	eutils saippua
Työkalut
Web	RÄJÄHDYS
Itsenäinen versio	RÄJÄHDYS
Muut
Lisenssi	Epäselvä [1]

GenBank on julkisesti saatavilla oleva tietokanta , joka sisältää kaikki annotoidut DNA- ja RNA-sekvenssit sekä niihin koodattujen proteiinien sekvenssit. GenBankia ylläpitää US National Center for Biotechnology Information (NCBI) , joka on osa Yhdysvaltain kansallisia terveysinstituutteja, ja se on maksutta tutkijoiden käytettävissä ympäri maailmaa. GenBank kerää ja yhdistää tietoja eri laboratorioista yli 100 000 eri organismista.

GenBank on arkistotietokanta, eli jokaisen merkinnän sisältö on tämän merkinnän tekijöiden vastuulla, jotka pääsääntöisesti ovat tämän järjestyksen määrittäjiä. GenBank on yhdessä EMBL- ja DDBJ- pankkien kanssa osa INSDC-konsortiota ( http://insdc.org/ ), joka vaihtaa säännöllisesti tietoja näiden kolmen arkiston välillä, joissa on huomautettuja nukleotidisekvenssejä.

GenBankin julkaisu tapahtuu kahden kuukauden välein ja se on saatavilla verkkosivustolta FTP:n kautta. GenBankin nykyisen version julkaisutiedot sisältävät yksityiskohtaisia julkaisutietoja ja ilmoituksia GenBankin tulevista muutoksista. Myös GenBankin aikaisempien versioiden julkaisutiedot ovat saatavilla.

Luontihistoria

Maaliskuussa 1979 kolmekymmentä molekyylibiologia ja tietotekniikan tutkijaa tapasivat Rockefeller-yliopistossa New Yorkissa. Se hyväksyi kannan tarpeeseen luoda valtakunnallinen atk-tietokanta. Tämä johtui tunnettujen DNA-sekvenssien määrän nopeasta kasvusta sekä mahdollisuuksista saada uutta biologista tietoa analysoimalla ja vertailemalla. Siihen asti oli olemassa useita erillisiä sekvenssikokoelmia, mutta yksikään niistä ei ollut täydellinen [2] Kansallisilta terveysinstituuteilta (NIH) kesti kolme vuotta kehittää rahoitussuunnitelma hankkeelle. Tänä aikana EMBL teki oman sekvenssitietokantansa julkisesti saataville. Tämä NIH:n valitettava viivästys ei johtunut vain hitaasta byrokraattisesta järjestelmästä, vaan myös tutkijoiden epävarmuudesta biologisten kokoelmien roolista aikana, jota hallitsevat kokeelliset menetelmät elävien ymmärtämiseksi. Useiden kokeellisten tutkijoiden painostuksesta NIH alkoi kuitenkin etsiä projektin toteuttajia. Kilpailuun osallistui tietokannan luomiseen kaksi ryhmää: Margaret Dyhoffin johtama National Biomedical Research Foundationin (NBRF) ryhmä ja Los Alamos National Laboratoryn (LANL) Walter Goadin johtama tutkijaryhmä yhteistyössä yksityisen Boltin kanssa, Beranek ja Newman » [2] .

Dyhoff loi yhden ensimmäisistä biologisista sekvenssitietokannoista, joka keräsi proteiinien aminohapposekvenssejä 1960-luvulta lähtien. Vuodesta 1965 ilmestyneessä Atlas of Protein Sequences and Structures -sarjassa Dyhoff esitteli maailman suurimman kokoelman proteiini- ja nukleiinihapposekvenssejä, uusimmat menetelmät niiden analysointiin ja niistä johtuvat evoluutionäkökohdat [3] . suosittu työkalu molekyyli- ja evoluutiobiologien työssä. Dyhoff odotti, että tutkijat jakavat uudet sekvenssit hänen kanssaan suoraan ennen niiden julkaisemista. Tämä aloite ei kuitenkaan löytänyt kunnollista vastausta kokeellisten biologien keskuudessa, koska löydön tekijää tai prioriteettia ei määritetty Atlakseen tullessa. Dayhoff ja hänen tiiminsä joutuivat jatkamaan julkaistun kirjallisuuden manuaalista analysointia [2] .

Toinen NIH-sopimuksen kilpailija on Los Alamos -ryhmä, joka on tehnyt rajoitettua biolääketieteellistä tutkimusta Manhattan-projektin jälkeen . Kuultuaan Rockefeller-yliopiston päätöksestä Walter Goad oli vakuuttunut siitä, että Los Alamos oli "luonnollinen paikka DNA-sekvensointikeskukselle", mikä johtui pääasiassa siellä sijaitsevan kansallisen laboratorion "ainutlaatuisesta laskentatehosta" [4] . Goad alkoi myös kerätä nukleiinihapposekvenssejä, pääasiassa muista kokoelmista, jotka omistavat Richard Grant Ranskasta, Kurt Stöber Saksasta, Douglas Brutlag ja Alvin Kabat Yhdysvalloista [2] .

NBRF (Diehoff) ja LANL-BBN (Goad) ehdotukset keskitetystä tietokannasta olivat hyvin samankaltaisia, mutta ne sisälsivät keskeisiä eroja omistajuuden, luottamuksellisuuden ja tieteellisen prioriteetin suhteen. NBRF ehdotti sekvenssien keräämistä tarkastelemalla julkaistua kirjallisuutta ja kutsumalla kokeilijoita toimittamaan tietonsa. Tällainen lähestymistapa merkitsi samaa asennetta sekvenssejä kohtaan kuin luonnontieteilijät suhtautuvat yksilöihin - luonnonympäristössä oleviin esineisiin, joita voidaan kerätä ja käyttää. LANL-BBN sitä vastoin ehdotti, että julkaisijoita pyydettäisiin, että sekvenssien sisällyttäminen tietokantaan olisi edellytys artikkelin julkaisemiselle lehdessä. Tällainen järjestelmä vastasi kokeellisten tieteiden motivaatiojärjestelmää, jossa tutkimustuloksia pidetään henkilökohtaisena tietona ennen kuin ne julkaistaan ja niille määrätään tekijä. Julkaiseminen tällä tavalla kannustaa tiedon saattamista julkisesti saataville [2] .

Vuonna 1980 Yhdysvaltain korkein oikeus julisti, että "kaikki ihmisen luoma auringon alla", mukaan lukien geneettisesti muunnetut organismit, voidaan patentoida [5] . Tämä ilmoitus herätti NIH:n kysymyksen siitä, kuka saattaisi omistaa tulevan tietokannan tiedot. Goad korosti, että hänellä "ei ole aikomusta väittää olevansa minkään tiedon omistusoikeus" ja totesi, että Dyhoff ja hänen tiiminsä "etsivät tietokantansa myyntituloja ja estivät niiden uudelleenjakelun", mainitsematta, että tuotot menivät vain kulujen kattamiseen, eikä tehdä voittoa [6] .

LANL-BBN pystyi edelleen lisäämään tietokantansa avoimuutta tarjoamalla sen jakelun puolustusministeriön hallinnoiman ARPANET -tietokoneverkon kautta, kun taas NBRF pystyi tarjoamaan vain rajoitetun online-käytön puhelinmodeemien kautta. 30. kesäkuuta 1982 NIH myönsi sopimuksen LANL-BBN:lle julkisen, ilmaisen nukleiinihapposekvenssitietokannan luomisesta, joka tuli pian tunnetuksi GenBank-nimellä.

GenBankin menestys kaikkien julkaistujen sekvenssien keräämisessä johtui kahdesta keskeisestä tekijästä. Ensin aloitettiin tiivis yhteistyö muutamaa kuukautta aiemmin Heidelbergissä perustetun EMBL-tietokannan ja vuonna 1986 DDBJ :n kanssa. Jokainen tietokanta vastasi tiettyjen aikakauslehtien julkaisujen seurannasta [2] .

Toiseksi DNA-tietokannat olivat yhä enemmän jäljessä tunnettujen sekvenssien räjähdysmäisestä määrästä. Ratkaisu ongelmaan oli sopimus julkaisijoiden kanssa sekvenssien sähköisestä sisällyttämisestä tietokantaan julkaisun edellytyksenä.

Siitä lähtien GenBank on kasvanut ja laajentunut osallistumalla projekteihin , kuten ihmisgenomi- ja DNA-viivakoodausprojekteihin . GenBankista on tullut esimerkki "ilmaisen sisällön" periaatteisiin perustuvasta hankkeesta , joka on saavuttamassa valtavaa kilpailuetua nykymaailmassa [2] .

1980-luvun puolivälissä Stanfordin yliopiston bioinformatiikkayritys Intelligenetics johti GenBank-projektia yhdessä LANL :n kanssa . Yhtenä ensimmäisistä julkisista bioinformatiikkaprojekteista Internetissä projekti käynnisti ensimmäiset foorumit ja välineet tieteellisen tiedon jakamiseen: BIOSCI/Bionet .

Vuosina 1989-1992 GenBank siirrettiin vastaperustettuun National Center for Biotechnology Informationiin ( NCBI ) [7] .

GenBankin tilastot

Tietokannan kolmas painos, joka julkaistiin joulukuussa 1982, sisälsi 606 nukleotidisekvenssiä, emäksissä mitattuna - 680338. Marraskuuhun 1983 mennessä sekvenssien määrä oli kasvanut yli 4-kertaiseksi - 2427:ään. Vuoteen 2000 asti sekvenssien kasvu oli tietokanta oli eksponentiaalinen. Vuoteen 2007 mennessä tiedon määrä kaksinkertaistui 18 kuukauden välein.

Huhtikuusta 2002 lähtien tilastoja on pidetty WGS-osion osalta. Sen kasvuvauhti ylittää GenBankin pääkonttorin. Hidastuttuaan vuonna 2010 WGS osoittaa jälleen kiihtynyttä kasvua [8] .

Helmikuussa 2013 GenBank sisälsi tietoa yli 228 miljardista emäsparista ja lähes 200 miljoonasta sekvenssistä (yli 100 000 elävästä organismista) [9] .

Geenipankki sisältää myös muita mekaanisesti lisättyjä tietojoukkoja, jotka perustuvat sekvensointitietojen pääkokoelmaan.

Taulukon sisältämien tietojen perusteella voidaan määrittää GenBankiin kertyneen tiedon laajuus ja verrata uusien tietueiden ilmestymisnopeutta tietokannan perustamisen jälkeisinä ensimmäisinä vuosina ja tällä hetkellä [8] .

Vapauta	päivämäärä	perusteilla	Jaksot
3	joulukuuta 1982	680 338	606
66	joulukuuta 1990	51 306 092	41 057
121	joulukuuta 2000	11 101 066 288	10 106 023
181	joulukuuta 2010	122 082 812 719	129 902 276
218	Helmikuu 2017	228 719 437 638	199 341 377

GenBank-merkinnän huomautus

Annotoidussa GenBank-näytteessä GenBank Flat File -muodossa on seuraavat osiot [10] :

Kenttä nimi	Kentän huomautus
LOCUS	LOCUS-kenttä sisältää seuraavat tietoelementit: Paikan nimi Ainoa sääntö paikan nimen määrittämisessä on yksilöllisyys. Jakson pituus Nukleotidien emäsparien (tai aminohappotähteiden, jos kyseessä on proteiinisekvenssi) lukumäärä sekvenssimerkinnässä. Hakukenttä Entrez: sarjan pituus [SLEN] Molekyylityyppi _ Jokaisen GenBank-merkinnän on sisällettävä yhden tyyppisen molekyylin sekvenssitiedot: genominen DNA , genominen RNA , epäkypsä (silmukoitumaton) RNA, lähetti-RNA (cDNA), ribosomaalinen RNA , siirto-RNA , pieni tuma-RNA ja muut. Hakukenttä Entrez: molekyylin tyyppi [PROP]. Esimerkki biomol_genomic, biomol_mRNA jne. Osasto GenBank (GenBank Division) GenBank-merkinnät viittaavat johonkin seuraavista osioista [11] : Taksonominen osat: PRI (kädellinen) - kädellisten sekvenssit ROD (jyrsijä) - jyrsijäsekvenssit MAM (nisäkäs) - muut nisäkässekvenssit VRT (selkärankainen) - muut selkärankaisten sekvenssit INV (selkärangaton) - selkärangattomien sekvenssit PLN (kasvi) - kasvien, sienten ja levien sekvenssit BCT (bakteeri ) - bakteerisekvenssit VRL (virus ) - virussekvenssit PHG (bakteriofagi) - bakteriofagisekvenssit SYN (synteettinen) - synteettiset sekvenssit ENV (environmental) - ympäristön näytesekvenssit UNA (unnnotated) - kommentoimattomat sekvenssit Korkean suorituskyvyn sekvensointi: EST (expressed sequence tags) - merkkisekvenssit STS (sequence tagged sites) - merkityt sivustosekvenssit GSS (genomitutkimussekvenssit) - genomisekvenssien tutkimus HTG (high-throughput genomic sequences) – korkean suorituskyvyn genomin sekvensointitiedot HTC (high-throughput cDNA-sekvensointi) – korkean suorituskyvyn cDNA-sekvensointitiedot Projektit: PAT (patentti) - patentoidut sekvenssit WGS (koko genomin sekvensointi) - koko genomin sekvensointi TSA (transkriptomaattinen haulikkokokoonpano) - transkriptikokonaisuus haulikkomenetelmällä Koska osiot eivät heijasta nykyistä NCBI-taksonomiaa (jonka todellisuudessa tiettyyn organismiin liittyvä sekvenssi voidaan sisällyttää "tekniseen" ryhmään sen hankintamenetelmän vuoksi), NCBI Taxonomy Browser -selainta tulisi käyttää kaikkien sekvenssien hakemiseen tietty organismi . Entrez-hakukenttä: [PROP]-osio . Esimerkki: gbdiv_pri, gbdiv_est jne. Muutospäivämäärä _ Päivämäärä, jolloin merkintää viimeksi muutettiin. Entrezin hakukenttä: päivämäärä [MDAT]. Esimerkki 1999/07/25, 1999/07/25:1999/07/31 (vvvv/kk/pp muoto vaaditaan)
MÄÄRITELMÄ	Lyhyt kuvaus sekvenssistä: organismi, geenin/proteiinin nimi, kuvaus sekvenssin toiminnoista (jos sekvenssi ei koodaa). Hakukenttä Entrez: Kuvaus [TITL].
LIITTYMINEN	Sekvenssimerkinnän yksilöllinen ja muuttumaton tunniste ( tallennusnumero eng. ) . Tunniste on kirjainten ja numeroiden yhdistelmä. Se on yleensä yksi kirjain, jota seuraa viisi numeroa (esim. U12345) tai kaksi kirjainta, joita seuraa kuusi numeroa (esim. AF123456). Jotkin tunnisteet voivat olla pidempiä sekvenssimerkinnän tyypistä riippuen. Entrez-hakukenttä: Tunniste [ACCN].
VERSIO	Tietyn nukleotidisekvenssin tunnistenumero GenBank-tietokannassa käyttää "accession.version"-muotoa, jonka GenBank/EMBL/DDBJ toteutti helmikuussa 1999. Kasvatetaan sekvenssitiedon mahdollisilla muutoksilla, esimerkiksi U12345.10:stä U12345.11:een. Samanaikaisesti muutokset saavat uuden numeron GI-tunnistejärjestelmään. Sekvenssiversiohistoria löytyy GenBank Sequence Revision History ja Sequence IDs -osiosta . Entrez-hakukenttä: Käytä oletusarvoista "Kaikki kentät".
GI	Siitä käännetyn nukleotidi- tai proteiinisekvenssin tunnistenumero "GenInfo Identifier". Jos järjestystä muutetaan jollakin tavalla, uusi GI-numero annetaan. Entrez-hakukenttä: käytä oletusarvoista "Kaikki kentät"
AVAINSANAT	Avainsana tai lause, joka kuvaa sarjaa. Avainsanojen puuttuessa sisältää vain pisteen. Tämä kenttä esiintyy sekvenssitietueissa ensisijaisesti historiallisista syistä, eikä se perustu kontrolloituun sanastoon. Käytetään enimmäkseen vanhoissa viesteissä tai erityisissä sekvenssityypeissä, kuten EST, STS, GSS, HTG jne., joten on parasta olla käyttämättä sitä hakuun. Entrezin hakukenttä: avainsana [KYWD]
LÄHDE	Organismi on sekvenssin lähde. Tallennusmuoto on ilmainen, siihen voidaan liittää molekyylityyppi. Organismi - alikenttä edustaa emoorganismin (suvun ja lajin, tarvittaessa) muodollista tieteellistä nimeä ja sen taksonomiaa, joka perustuu NCBI:n taksonomiatietokantaan. Entrezin hakukenttä: organismi [ORGN]. Esimerkki: Saccharomyces cerevisiae
VIITE	Linkkejä ehdotuksen tekijöiden julkaisuihin (lehtiartikkeli, kirjan luku, kirja, väitöskirja/monografia, kokoelmamateriaali, patentti jne.), joissa on keskustelu merkinnässä mainituista tiedoista. Linkit lajitellaan automaattisesti julkaisupäivän mukaan vanhimmasta alkaen. Tila "julkaisematon" tai "painossa" tarkoittaa, ettei julkaisuja ole. Viimeinen artikkeli sisältää yleensä tietoja sekvenssin suorasta lähettäjästä, joten sitä kutsutaan "lähettäjälohkoksi" ja sanoja "Suora lähetys" käytetään artikkelin otsikon sijasta. Kenttä sisältää useita elementtejä: Tekijät _ Luettelo kirjoittajista siinä järjestyksessä, kun he esiintyvät lainatussa artikkelissa. Hakukenttä Entrez: ja toinen [AUTH] (muodossa Sukunimi AB ilman pisteitä nimikirjainten jälkeen, nimikirjaimet voidaan jättää pois). otsikko _ Julkaistun tai julkaisemattoman teoksen alustava nimi. Entrezin hakukenttä: nimi [WORD] . Päiväkirja _ MEDLINE on lyhenne lehden nimestä. (Täysi oikeinkirjoitus löytyy Entrez Journalsin tietokannasta) Entrez-hakukenttä: lehden nimi [JOUR] (voit kirjoittaa lehden koko kirjoitusasun tai lyhenteen MEDLINE). PUBMED PubMed Identifier (PMID). Linkit, mukaan lukien PubMed-tunnisteet, vastaavaan PubMed-merkintään. PubMed-tietueet, jotka sisältävät sekvenssitunnisteita SI (Secondary Source Identifier) -kentässä, puolestaan linkittävät sekvenssitietueisiin. Entrez-hakukenttä: PubMed-tunnusta ei voi hakea, mutta PubMed-tietokannasta voi hakea.
OMINAISUUDET	Tietoa sekvenssissä määritellyn alueen sijainnista ja toiminnasta: geeni, sen tuote ( proteiini ), promoottori , koodaava sekvenssi (CDS), vaihtoehtoisesti silmukoitu mRNA ja muut. Täydellinen luettelo toiminnallisista sarjoista on saatavilla seuraavista paikoista: DDBJ/ENA/GenBank-ominaisuustaulukon määritelmä – Sisältää määritelmiä, lisäluokituksia ja kommentteja kullekin ominaisuudelle. Sequin Help -dokumentaatio Aluetta voidaan edustaa yksittäinen nukleotidiväli, viereinen nukleotidiväli, sekvenssijaksojen pooli ja muut esitykset. Alue on yleensä annettu kahdella koordinaatilla n..m. Symboli "<" ennen koordinaatteja osoittaa paikan 5'-päässä (esimerkiksi CDS <1..206 ), symboli ">" - 3'-päässä (esimerkiksi CDS 435..915 > ), merkintä "täydennys" - sijainnista täydentävässä ketjussa. Hakukenttä Entrez: toimintonäppäin [FKEY]. Esimerkki, promoottori Kentän elementit: lähde Pakollinen kenttä, joka sisältää sekvenssin pituuden, lähdeorganismin tieteellisen nimen ja taksonitunnuksen (taksonin tunnistenumero NCBI:n taksonomiatietokannassa ). Voi sisältää myös lisätietoja, kuten sijainti genomikartalla (esim. kromosominumero), kanta, klooni, kudostyyppi jne. Entrez-hakukenttä: Käytä sekvenssin pituutta [SLEN] hakeaksesi pituuden mukaan, organismia [ORGN] etsiäksesi organismin nimen perusteella, lisätietoja [ALL] etsiäksesi muita elementtejä, kuten kantaa, kloonia, kudostyyppiä. CDS Proteiinia koodaava nukleotidisekvenssi, mukaan lukien aloitus- ja lopetuskodonit. Se sisältää myös tältä alueelta translatoidun aminohapposekvenssin. "/evidence=experimental" ja "/evidence=not_experimental" spesifierit osoittavat kokeellisen vahvistuksen olemassaolon tai puuttumisen proteiinin olemassaolosta. mRNA:lle merkinnän kirjoittajat voivat kuvata transloimattomia 5'- ja 3'-alueita (5'UTR ja 3'UTR) ja koodaavia sekvenssejä (CDS, eksonit). Entrez-hakukenttä: toimintonäppäin [FKEY] proteiini_id, GI Nukleotidisekvenssin tunnistetta vastaava proteiinisekvenssin tunnistenumero. Proteiinitunnisteet koostuvat kolmesta kirjaimesta, joita seuraa viisi numeroa, piste ja versionumero. Jos sekvenssitiedoissa tapahtuu muutos (jopa yksittäinen aminohappo), versionumeroa kasvatetaan (esimerkiksi AAA98665.1 muuttuu muotoon AAA98665.2). GenBank/EMBL/DDBJ toteutti accession.version-proteiinisekvenssin tunnistusnumeron tunnistusformaatin helmikuussa 1999, ja se toimii rinnakkain digitaalisen GI-järjestelmän kanssa (katso edellä). Entrez-hakukenttä: käytä oletusarvoista "Kaikki kentät" geeni Biologisesti kiinnostava alue, jolla on nimi ja joka tunnistetaan geeniksi. Entrez-hakukenttä: toimintonäppäin [FKEY]
ALKUPERÄ	Itse sarja on ladattavissa eri muodoissa. Kenttä voi olla tyhjä, se voidaan näyttää muodossa "Raportoimaton" tai antaa paikallisen osoittimen sekvenssin alkuun, joka yleensä sisältää kokeellisesti määritetyn restriktiokohdan tai geneettisen lokuksen (jos sellainen on).

Tiedonsyöttösäännöt

Joko yksittäiset tekijät tai sekvensointikeskukset lähettävät sekvenssilähetykset johonkin kolmesta tietokannasta (GenBank, ENA tai DDBJ), enimmäkseen sähköisesti BankIt- tai Sequin-ohjelmien kautta. Tietojen synkronointi tietokantojen välillä tapahtuu päivittäin. Sovellukset tarkistetaan huolellisesti käytettyjen vektorien fragmenttien ( VecScreen- järjestelmän avulla ), koodausalueen oikean käännöksen, oikean taksonomian ja oikeiden bibliografisten viitteiden varalta. GenBankin merkinnän luonnos lähetetään takaisin kirjoittajalle tarkastettavaksi ja lopullisiin versioihin ennen julkaisemista tietokantaan, jota voidaan lykätä tiettyyn aikaan tekijän pyynnöstä. Kun merkintä on julkaistu (yleensä 2 päivän kuluessa lähettämisestä), sille annetaan tunnus, joka voidaan noutaa Entrezin tai FTP :n kautta . Tunnisteet vastaanottavat keskimäärin noin 3500 sekvenssiä päivässä. GenBankin julkisessa käytössä oleva sekvenssi on vaatimus julkaista monissa aikakauslehdissä [12] .

GenBank tarjoaa erityisiä ohjelmistopaketteja helpottamaan hakemusten jättämistä [12] :

BankIt on NCBI:n verkkokäyttöliittymä, jonka kautta noin kolmannes hakemuksista hyväksytään. Tarjoaa hakijalle erityisen lomakkeen, jonka täyttämällä voit kuvata sekvenssin oikein ilman, että sinun tarvitsee opetella muotoilusääntöjä ja normatiivista sanastoa.
Sequin onNCBI:n kehittämä erillinen ohjelmistotyökalu tietueiden lähettämiseen ja päivittämiseen GenBank-sekvenssitietokannassa. Pystyy käsittelemään vaihtelevan monimutkaisia tallennuksia, mutta yhden Sequin-tiedoston tulisi sisältää alle 10 000 sekvenssiä parhaan suorituskyvyn saavuttamiseksi. Suuremmat merkinnät on tehtävä tbl2asn:lla.
tbl2asn onkomentorivityökalu, jolla muunnetaan merkintäliukuhihnalla saadut huomautukset sisältävä taulukko tietueeksi, joka soveltuu GenBankiin lähetettäväksi.
Submission Portal onverkkopalvelu, joka tarjoaa käyttöliittymän, joka hyväksyy WGS-tiedot FASTA-muodossa käyttämällä online-lomakkeita.
BarSTool ononline-työkalu, jonka avulla voit hakeaviivakoodaussekvenssien.

GenBankin osiot

Tällä hetkellä GenBank-tietokanta sisältää yksittäisten geenien sekvenssien lisäksi paljon dataa, joka on saatu nykyaikaisilla DNA-sekvensointimenetelmillä ja automaattisella sekvenssimerkinnällä. GenBankissa on useita osioita, jotka on omistettu suuren suorituskyvyn sekvensointitiedolle [11] .

Genomit on erityinen osio täydellisten genomien tallentamiseen . Prokaryoottien ja eukaryoottien täydellisten genomien merkitsemistä koskevat ohjeet on luotu .
WGS (Whole genome shoutgun) - projektit epätäydellisten genomien, prokaryoottien tai eukaryoottien kromosomien kokoamiseen, jotka on sekvensoitu pääasiassa haulikkomenetelmällä . GenBankissa WGS-projektien merkintä on valinnainen, mutta NCBI:lla on oma putki prokaryoottisten genomien merkitsemiseen. Siellä on luettelo käytettävissä olevista WGS-projekteista .
TPA (Third Party Annotation) - on kokeellisten tulosten tai olemassa olevista tiedoista johdettu tietokanta, jonka merkintää ei ole kirjoittaja tehnyt perustiedoista, vaan se määritettiin epäsuorasti. TPA-tietueet jakautuvat kahteen luokkaan:
- experimenta l - sekvenssien annotaatio vahvistetaan kokeellisilla todisteilla "märässä" laboratoriossa.
- päätelmä - sekvenssien annotaatio tehdään päätelmällä saatavilla olevasta tiedosta. Samaan aikaan itse nukleiinihappomolekyyli tai sen tuote (tuotteet) eivät olleet suorien kokeiden kohteena.
TSA (Transcriptome Shotgun Assembly Sequences) ovat transkriptomisekvenssejä, jotka on saatu haulikkosekvensoinnilla. Tämä osio sisältää tietoja, jotka on kerätty NCBI Trace Archivessa, Sequence Read Archivessa ja GenBank EST -osiossa isännöidyistä sekvensseistä. TSA-osio on yksi GenBankin nopeimmin kasvavista osioista.
ENV (Environmental sample series) - ympäristöstä otettujen näytteiden sekvenssit, joiden tarkka lähde on tuntematon. Monet niistä saatiin metagenomianalyysillä. "Metagenomit"-alaosio sisältää sekvenssiryhmiä, jotka on saatu sekvensoimalla DNA:ta, joka on otettu tietystä paikasta ympäristössä tietyissä olosuhteissa. Tämä lähestymistapa mahdollistaa sellaisten organismien löytämisen, joiden laboratorioviljelmää ei ole saatu. Se on myös erittäin tärkeää tällaisten organismien geneettisen monimuotoisuuden, populaatiorakenteen ja ekologisen roolin ymmärtämiseksi. ENV-sekvenssit saadaan tyypillisesti haulikon koko metagenomin sekvensoinnilla tai sekvenssitutkimuksilla, jotka perustuvat kohdegeeneihin, kuten 16S-rRNA:han. NCBI tukee edelleen BLAST-hakuja ENV-metagenomisille sekvensseille, mutta WGS-projektien sekvenssit ovat nyt osa WGS BLAST -tietokantaa.
EST (Expressed sequence tags) on pääasiallinen tietolähde geeniekspression ja sekvenssimerkintöjen tutkimukselle. Osio sisältää yli 40 miljardia emäsparia – se on suurin tässä parametrissa WGS:n jälkeen.
HTG (High-throughput genomic) - sisältää laajamittainen genomitietueita keskeneräisistä, jotka tulevaisuudessa valmistuvat. Tämän osan tietueille on määritetty vaihenumero, joka vastaa niiden nykyistä laatua. Kun kolmas vaihe - täydellinen valmistuminen - saavutetaan, tietue siirretään vastaavan organismin osaan.
GSS – sisältää luonnokset laatutietueet, jotka voivat sisältää 5'- ja 3'-kääntämättömiä alueita (UTR), osia koodausalueista ja introneista. Kun niistä tulee korkealaatuisia, tietueet siirretään vastaavan organismin osioon.
CON (Contig tietueet pienempien tietueiden kokoonpanoille) - sisältää tietueita, jotka ovat erittäin pitkiä sekvenssejä, kuten eukaryoottikromosomeja, joiden täydellisiä sekvenssejä ei tunneta, mutta jotka sisältävät useita jatkuvia, joiden välillä on karakterisoimattomia aukkoja. CON ei pikemminkin sisällä luetteloa sarjoista itsessään, vaan pikemminkin kokoonpanokäskyn, joka sisältää useita komponenttijaksoja.

Muistiinpanot

↑ Lataussivu , arkistoitu 27. tammikuuta 2020 UCSC:n Wayback Machinessa , sanoo: " NCBI ei aseta rajoituksia GenBank-tietojen käytölle tai jakelulle. Jotkut lähettäjät voivat kuitenkin vaatia patentteja , tekijänoikeuksia tai muita immateriaalioikeuksia kokonaisuudessaan tai NCBI ei pysty arvioimaan tällaisten väitteiden paikkansapitävyyttä, eikä siksi voi antaa kommentteja tai rajoittamattomia lupaa GenBankin sisältämien tietojen käyttöön, kopioimiseen tai jakeluun."
↑ 1 2 3 4 5 6 7 Bruno J. Strasser. GenBank - Luonnonhistoria 2000-luvulla? (englanniksi) // Tiede. – 24.10.2008 — Voi. 322 , iss. 5901 . — s. 537–538 . — ISSN 1095-9203 . - doi : 10.1126/tiede.1163399 . Arkistoitu alkuperäisestä 26. maaliskuuta 2017.
↑ MARGARET OAKLEY DAYHOFF, 57; EXPERT ON PROTEIN STRUCTURES , The New York Times (9. helmikuuta 1983). Arkistoitu alkuperäisestä 28. elokuuta 2017. Haettu 25. maaliskuuta 2017.
↑ Strasser, Bruno. The Experimenter's Museum: GenBank, Natural History, and the Moral Economies of Biomedicine // Isis. - 01-01-2011. - T. 102 , no. 1 . — ISSN 0021-1753 . Arkistoitu alkuperäisestä 15. huhtikuuta 2017.
↑ Diamond v. Chakrabarty 447 US 303 (1980) (englanniksi) , Justia Law . Arkistoitu alkuperäisestä 21. huhtikuuta 2017. Haettu 25. maaliskuuta 2017.
↑ Frederick Sanger. Sekvenssit, sekvenssit ja sekvenssit // Biochemistryn vuosikatsaus. - 1.1.1988. - T. 57 , no. 1 . - S. 1-29 . doi : 10.1146 / annurev.bi.57.070188.000245 .
↑ Hallam Stevens. Elämä peräkkäin: Tietoihin perustuva bioinformatiikan historia . – University of Chicago Press, 2013-11-04. — 303 s. — ISBN 9780226080345 .
↑ 1 2 GenBank ja WGS Statistics . www.ncbi.nlm.nih.gov. Haettu 25. maaliskuuta 2017. Arkistoitu alkuperäisestä 28. huhtikuuta 2019.
↑ GenBankin julkaisutiedot . NCBI. Haettu 25. maaliskuuta 2017. Arkistoitu alkuperäisestä 28. maaliskuuta 2017. (määrätön)
↑ GenBank- tietueen näyte . www.ncbi.nlm.nih.gov. Haettu 14. huhtikuuta 2017. Arkistoitu alkuperäisestä 18. toukokuuta 2020.
↑ 1 2 Dennis A. Benson, Mark Cavanaugh, Karen Clark, Ilene Karsch-Mizrachi, David J. Lipman. GenBank // Nucleic Acids Research. – 1.1.2013. - T. 41 , no. Tietokantaongelma . — P. D36–42 . — ISSN 1362-4962 . - doi : 10.1093/nar/gks1195 . Arkistoitu 14. toukokuuta 2020.
↑ 1 2 Dennis A. Benson, Karen Clark, Ilene Karsch-Mizrachi, David J. Lipman, James Ostell. GenBank // Nucleic Acids Research. – 1.1.2015. - T. 43 , no. Tietokantaongelma . — P. D30–35 . — ISSN 1362-4962 . - doi : 10.1093/nar/gku1216 . Arkistoitu alkuperäisestä 25. syyskuuta 2016.

Katso myös

Linkit

GenBank DB:n virallinen verkkosivusto
FTP-palvelin tietokannan kanssa

Sanakirjat ja tietosanakirjat	Suuri tanskalainen
Bibliografisissa luetteloissa	J9U : 987007604246305171 LCCN : n85375442

GenBank

Luontihistoria

GenBankin tilastot

GenBank-merkinnän huomautus

LOCUS

MÄÄRITELMÄ

LIITTYMINEN

VERSIO

GI

AVAINSANAT

LÄHDE

VIITE

OMINAISUUDET

ALKUPERÄ

Tiedonsyöttösäännöt

GenBankin osiot

Muistiinpanot

Katso myös

Linkit