FASTA

FASTA muoto
Laajennus .fas, .fasta, .fna, .ffn, .faa, .frn, .afa, .mfa
MIME -tyyppinen kemiallinen/seq-aa-fasta, kemiallinen/seq-na-fasta [1]
Kehittäjä David Lipman [2]
William Pearson [2]
julkaistu 1985
Muototyyppi tiedostomuoto ja tekstimuotoinen tietomuoto [d]
Laajennettu kohteesta ASCII FASTAlle
Kehitetty vuonna FASTQ
Verkkosivusto http://ncbi.nlm.nih.gov/BLAST/fasta.shtml

FASTA  on tekstimuoto nukleotidi- tai polypeptidisekvensseille , joissa nukleotidit tai aminohapot on nimetty käyttämällä yksikirjaimia koodeja . Yksinkertaisuuden ja käytännöllisyyden vuoksi sitä käyttävät tällä hetkellä useimmat biologiset sekvenssiohjelmat . Tämän muotoiset tiedostot voivat sisältää sekvenssien nimiä, niiden tunnisteita tietokantoissa ja kommenteissa. Sen sisältämien biologisten sekvenssien luonteesta riippuen FASTA-tiedostolla voi olla useita tunnisteita [ .

Historia ja jakelu

Formaatin keksivät David Lipman ja William Pearson [2] [3] vuonna 1985 samannimiselle ohjelmalle , joka on suunniteltu etsimään suuria tietokantoja tietyn sekvenssin kanssa homologisista sekvensseistä . He tekivät alkuperäisen kuvauksen formaatista tämän ohjelman dokumentaatiossa, ja nyt sen kuvaus on osa BLAST -ohjelman dokumentaatiota .

FASTA-muodon yksinkertaisuus mahdollistaa erilaisten toimintojen suorittamisen sekvensseillä käyttämällä tekstinmuokkaustyökaluja ja komentosarjaohjelmointikieliä, kuten Python [5] , Ruby [6] , Perl [7] , Java [8] .

FASTA- ja FASTQ (Sanger Institute) -muodot ovat suosituimpia biologisten sekvenssitietojen esittämisessä [9] . Myös muita muotoja on olemassa, mukaan lukien GenBank [10] , EMBL [11] ja UniProt [12] tietopankeissa käytetyt .

Muoto

FASTA-sekvenssit alkavat yksirivisellä kuvauksella, jota seuraa rivit, jotka sisältävät itse sekvenssin. Kuvaus on merkitty suuremmalla kuin -symbolilla (">") ensimmäisessä sarakkeessa. Tämän merkin jälkeen ja ensimmäiseen välilyöntiin asti oleva sana on sekvenssin tunniste , jota seuraa valinnainen kuvaus. Muutaman seuraavan rivin ensimmäisenä merkkinä voi olla puolipiste (";"), jolloin niitä käsitellään kommentteina. Tällä hetkellä monet tietokannat ja ohjelmat eivät tunnista kommentteja, joten ne eivät ole kovin yleisiä. Seuraa sitten rivejä, jotka sisältävät todelliset biologiset sekvenssit. Normaalisti FASTA-muodossa olevien merkkijonojen pituus on rajoitettu 80-120 merkkiin (historiallisista syistä), mutta nykyaikaiset ohjelmat tunnistavat sekvenssit, jotka on kirjoitettu kokonaan yhdelle riville. Yhteen tiedostoon voidaan kirjoittaa useita sekvenssejä, jolloin saadaan moni-FASTA-tiedosto, mutta jokaista sekvenssiä edeltää oma tunniste [13] . Esimerkki yhdestä sekvenssistä FASTA-muodossa: [14]

>gi|31563518|viite|NP_852610.1| mikrotubuluksiin liittyvät proteiinit 1A/1B kevytketjun 3A isoformi b [Homo sapiens] MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI IRRRLQLNPTQAFFLLVNQHSMVVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE

Tämän sekvenssin tunniste on gi|31563518|ref|NP_852610.1|.

Sekvenssit kirjoitetaan yksikirjaimina koodeina nukleotideille tai aminohapoille , jotka vastaavat niiden standardia IUB / IUPAC yksikirjaimia koodeja , järjestyksessä 5'-3'-päästä nukleiinihapoille ja N-päästä C-päähän aminohapoilla välilyönnit ovat sallittuja, merkit voivat olla sekä isoja että pieniä kirjaimia. Sekvenssien kanssa toimivat ohjelmat jättävät huomioimatta numerot, rivin loppu- ja sarkainmerkit .

Nukleiinihapot nimitetään [15] :

Koodi Merkitys Muistitekniikka
A A A deniini  - Adeniini
C C C -tosiini  - Sytosiini
G G Guaniini  - Guaniini
T T T - hymiini  - tymiini (5-metyyliurasiili)
U U U racil  -
R A, G pu Rine  - Puriinit
Y C, T, U p Y rimidiinit  - Pyrimidiinit
K G, T, U Ketoniemäkset _ _
M A, C Emäkset, joissa on aminoryhmiä (a M ino)
S C, G Vahva ( Vahva ) vuorovaikutus komplementaarisessa parissa (kolme vetysidosta )
W A, T, U Heikko (heikko ) vuorovaikutus komplementaarisessa parissa (kaksi vetysidosta )
B ei A (eli C, G, T tai U) B seuraa A:ta
D ei C (eli A, G, T tai U) D seuraa C:tä
H ei G (A, C, T tai U) H seuraa G:tä
V ei T eikä U (A, C tai G) V seuraa U:ta
N ACGTU Mikä tahansa ( N y) nukleotidi

Aminohapoille on 22 yleistä koodia (kanoniset aminohapot, selenokysteiini ja pyrrolysiini ), 4 erikoiskoodia (nimitykset aminohapposarjoille) ja * lopetuskodonin osoittamiseen (muodollisissa geenikäännöksissä ) [16] [17] .

Aminohappokoodi Merkitys
A Alaniini
B Asparagiinihappo (D) tai asparagiini (N)
C Kysteiini
D Asparagiinihappo
E Glutamiinihappo
F Fenyylialaniini
G Glysiini
H Histidiini
minä Isoleusiini
J Leusiini (L) tai isoleusiini (I)
K Lysiini
L Leusiini
M metioniini
N Asparagiini
O pyrrolysiini
P Proliini
K Glutamiini
R Arginiini
S Seesteinen
T Treoniini
U Selenokysteiini
V Valine
W tryptofaani
Y Tyrosiini
Z Glutamiinihappo (E) tai glutamiini (Q)
X Mikä tahansa aminohappo
* Käännöksen lopettaminen

Fasta - muotoa käytetään myös tiedostoille , jotka sisältävät biologisia sekvenssikohdistuksia . Tässä tapauksessa jokaiseen sekvenssiin, paikkoihin, jotka vastaavat paikkoja, joita ei ole esitetty tässä sekvenssissä, lisätään "aukot" (yleensä yhdysmerkki tai piste), minkä seurauksena kaikkien tiedoston sekvenssien tulee olla samanpituisia [18 ] .

Sekvenssitunnisteet

NCBI on määritellyt säännöt ainutlaatuisten sekvenssitunnisteiden (SeqID) luomiseksi . Kuvausriville [19] saa syöttää seuraavat tunnisteiden muunnelmat :

Tyyppi Muoto(t) Esimerkki(t)
Paikallinen (ei viittaa ulkoisiin tietokantoihin) lcl|целое число

lcl|строка

lcl|123

lcl|hmm271

GenInfo runkoketjun sekvenssitunniste bbs|целое число bbs|123
GenInfo-runkomolekyylityyppi bbm|целое число bbm|123
GenInfo tuontitunnus gim|целое число gim|123
GenBank gb|код доступа|локус gb|M73307|AGMA13GT
EMBL emb|код доступа|локус emb|CAM43271.1|
PIR pir|код доступа|название pir||G36364
SWISS PROT sp|код доступа|название sp|P01013|OVAX_CHICK
Patentti pat|страна|патент|номер последовательности pat|US|RE33188|1
patenttihakemuksessa pgp|страна|номер заявки|номер последовательности pgp|EP|0238993|7
RefSeq ref|код доступа|название ref|NM_010450.1|
Tietokantalinkki ei ole tästä luettelosta gnl|база данных|целое число

gnl|база данных|строка

gnl|taxon|9606

gnl|PID|e1632

Integroitu GenInfo-tietokanta gi|целое число gi|21434723
DDBJ dbj|код доступа|локус dbj|BAC85684.1|
PRF prf|код доступа|название prf||0806162C
ATE pdb|запись|цепь pdb|1I4L|D
GenBank kolmannen osapuolen merkinnöillä tpg|код доступа|название tpg|BK003456|
EMBL kolmannen osapuolen huomautuksilla tpe|код доступа|название tpe|BN000123|
DDBJ kolmannen osapuolen huomautuksilla tpd|код доступа|название tpd|FAA00017|
TreMBL tr|код доступа|название tr|Q90RT2|Q90RT2_9HIV1

Pystyviivat ("|") luettelon yläosassa eivät ole erottimia, vaan osa muotoa. Voit laittaa tunnisteet riviin erottamalla ne viivoilla. Jos jokin tunnistekentistä jätetään tyhjäksi, yhteensopivuuden varmistamiseksi ohjelmien kanssa on tarpeen laittaa kaksi viivaa peräkkäin [20] .

Tiedostotunnisteet

Fasta-tiedostoilla voi olla eri tunnisteita niiden sisältämän biologisen tiedon luonteesta riippuen [21] [22] .

Laajennus Merkitys Huomautuksia
fasta Säännöllinen fasta data Kaikki fasta-tiedot. Joskus myös .fa, .seq, .fsa, .fas
fna lyhenne "fasta nukleiinihaposta" Nukleotidisekvenssien kuvaamiseen.
ffn Nukleotidien koodaavat alueet Ne sisältävät genomien koodaavia alueita .
faa lyhenne "fasta aminohapoista" Sisältää aminohapposekvenssejä. MPfa-laajennusta käytetään tallennettaessa useita proteiineja yhteen tiedostoon.
frn Koodaamaton RNA FASTA-muodossa Sisältää ei-koodaavia RNA :ita DNA - aakkosissa , esim. tRNA , rRNA
afa, mfa Tasaus FASTA-muodossa (a "tasaus", m "useita") Sisältää biologisten (nukleotidi- tai aminohappo) sekvenssien rinnastuksia

Muistiinpanot

  1. FASTA (.fasta, .fa, .fna, .fsa, .mpfa). Wolfram Research, viite, 2007-2012 . Haettu 19. kesäkuuta 2015. Arkistoitu alkuperäisestä 19. kesäkuuta 2015.  (Englanti)
  2. 1 2 3 Lipman D. , Pearson W. Nopeat ja herkät proteiinien samankaltaisuushaut   // Tiede . - 1985. - 22. maaliskuuta ( nide 227 , nro 4693 ). - s. 1435-1441 . — ISSN 0036-8075 . - doi : 10.1126/tiede.2983426 .
  3. Pearson WR , Lipman DJ Parannetut työkalut biologisten sekvenssien vertailuun.  (englanti)  // Proceedings of the National Academy of Sciences. - 1988. - 1. huhtikuuta ( nide 85 , nro 8 ). - P. 2444-2448 . — ISSN 0027-8424 . - doi : 10.1073/pnas.85.8.2444 .
  4. Peter JA Cock, Tiago Antao, Jeffrey T. Chang, Brad A. Chapman, Cymon J. Cox. Biopython: vapaasti saatavilla Python-työkalut laskennalliseen molekyylibiologiaan ja bioinformatiikkaan   // Bioinformatics . - 2009-06-01. — Voi. 25 , iss. 11 . - s. 1422-1423 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/btp163 . Arkistoitu 15. toukokuuta 2020.
  5. Naohisa Goto, Pjotr ​​​​Prins, Mitsuteru Nakao, Raoul Bonnal, Jan Aerts. BioRuby: bioinformatiikkaohjelmisto Ruby-ohjelmointikielelle   // Bioinformatics . – 15.10.2010. — Voi. 26 , iss. 20 . — s. 2617–2619 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/btq475 . Arkistoitu alkuperäisestä 25. helmikuuta 2021.
  6. Jason E. Stajich, David Block, Kris Boulez, Steven E. Brenner, Stephen A. Chervitz. Bioperl Toolkit: Perl-moduulit biotieteille  //  Genomitutkimus. - 2002-10-01. — Voi. 12 , iss. 10 . - P. 1611-1618 . — ISSN 1549-5469 1088-9051, 1549-5469 . - doi : 10.1101/gr.361602 . Arkistoitu alkuperäisestä 17. lokakuuta 2019.
  7. Aleix Lafita, Spencer Bliven, Andreas Prlić, Dmytro Guzenko, Peter W. Rose. BioJava 5: Yhteisölähtöinen avoimen lähdekoodin bioinformatiikkakirjasto  //  PLOS Computational Biology. - 2019-08-02. — Voi. 15 , iss. 2 . — P. e1006791 . — ISSN 1553-7358 . - doi : 10.1371/journal.pcbi.1006791 . Arkistoitu alkuperäisestä 14. huhtikuuta 2021.
  8. EMBOSS-käyttöopas . emboss.open-bio.org. Haettu 22. toukokuuta 2020. Arkistoitu alkuperäisestä 14. helmikuuta 2020.
  9. GenBank-tietueen näyte . www.ncbi.nlm.nih.gov. Haettu 19. toukokuuta 2020. Arkistoitu alkuperäisestä 18. toukokuuta 2020.
  10. European Nucleotide Archive annotated/assembled series User Manual  (eng.) (txt). Euroopan nukleotidiarkisto . European Bioinformatics Institute (12.3.2020). Käyttöönottopäivä: 8.6.2020.
  11. UniProt Knowledgebase  -käyttöopas . ExPASy Bioinformatics Resource Portal (22.4.2020). Haettu 8. kesäkuuta 2020. Arkistoitu alkuperäisestä 13. toukokuuta 2020.
  12. Multi-FASTA-muoto - Metagenomics . www.metagenomics.wiki. Haettu 19. toukokuuta 2020. Arkistoitu alkuperäisestä 12. elokuuta 2020.
  13. Ta Schoenfeld, L McKerracher, R Obar, Rb Vallee. MAP 1A ja MAP 1B ovat rakenteellisesti samankaltaisia ​​mikrotubuluksiin liittyviä proteiineja, joilla on selkeät kehitysmallit keskushermostossa  //  The Journal of Neuroscience. - 1.5.1989. — Voi. 9 , iss. 5 . — P. 1712–1730 . — ISSN 1529-2401 0270-6474, 1529-2401 . - doi : 10.1523/JNEUROSCI.09-05-01712.1989 .
  14. : Tao Tao. Nukleotidien yksikirjaiminen koodit . NCBI-oppimiskeskus . National Center for Biotechnology Information (24. elokuuta 2011). Haettu 15. maaliskuuta 2012. Arkistoitu alkuperäisestä 13. elokuuta 2015.
  15. ↑ Jakson kuvauksessa käytetyt koodit  . www.ddbj.nig.ac.jp. Haettu 16. huhtikuuta 2020. Arkistoitu alkuperäisestä 29. syyskuuta 2020.
  16. IUPAC-IUB:n biokemiallisen nimikkeistön yhteiskomissio (JCBN). Aminohappojen ja peptidien nimistö ja symboliikka. Recommendations 1983  //  Biochemical Journal. - 1984. - 15. huhtikuuta ( nide 219 , nro 2 ). - s. 345-373 . — ISSN 0264-6021 . - doi : 10.1042/bj2190345 .
  17. Tasattu FASTA-muoto . www.cgl.ucsf.edu. Haettu 22. toukokuuta 2020. Arkistoitu alkuperäisestä 24. tammikuuta 2021.
  18. NCBI C++ Toolkit Book. FASTA Sekvenssi ID -muoto . NCBI C++ Toolkit . Haettu 30. toukokuuta 2020. Arkistoitu alkuperäisestä 15. joulukuuta 2020.
  19. Leonard Shonda A. , Littlejohn Timothy G. , Baxevanis Andreas D. Yleiset tiedostomuodot  //  Current Protocols in Bioinformatics. - 2006. - Joulukuu ( osa 16 , nro 1 ) — ISSN 1934-3396 . - doi : 10.1002/0471250953.bia01bs16 .
  20. Zahoorullah S MD. Biotekniikan oppikirja. - SM Online Publishers LLC, 2015. - s. 6-7. — ISBN 9780996274531 .
  21. Tasaustiedostomuodot . www.jalview.org. Haettu 1. huhtikuuta 2020. Arkistoitu alkuperäisestä 19. helmikuuta 2020.

Linkit