FASTA

FASTA muoto
Laajennus	.fas, .fasta, .fna, .ffn, .faa, .frn, .afa, .mfa
MIME -tyyppinen	kemiallinen/seq-aa-fasta, kemiallinen/seq-na-fasta [1]
Kehittäjä	David Lipman [2] William Pearson [2]
julkaistu	1985
Muototyyppi	tiedostomuoto ja tekstimuotoinen tietomuoto [d]
Laajennettu kohteesta	ASCII FASTAlle
Kehitetty vuonna	FASTQ
Verkkosivusto	http://ncbi.nlm.nih.gov/BLAST/fasta.shtml

FASTA on tekstimuoto nukleotidi- tai polypeptidisekvensseille , joissa nukleotidit tai aminohapot on nimetty käyttämällä yksikirjaimia koodeja . Yksinkertaisuuden ja käytännöllisyyden vuoksi sitä käyttävät tällä hetkellä useimmat biologiset sekvenssiohjelmat . Tämän muotoiset tiedostot voivat sisältää sekvenssien nimiä, niiden tunnisteita tietokantoissa ja kommenteissa. Sen sisältämien biologisten sekvenssien luonteesta riippuen FASTA-tiedostolla voi olla useita tunnisteita [ .

Historia ja jakelu

Formaatin keksivät David Lipman ja William Pearson [2] [3] vuonna 1985 samannimiselle ohjelmalle , joka on suunniteltu etsimään suuria tietokantoja tietyn sekvenssin kanssa homologisista sekvensseistä . He tekivät alkuperäisen kuvauksen formaatista tämän ohjelman dokumentaatiossa, ja nyt sen kuvaus on osa BLAST -ohjelman dokumentaatiota .

FASTA-muodon yksinkertaisuus mahdollistaa erilaisten toimintojen suorittamisen sekvensseillä käyttämällä tekstinmuokkaustyökaluja ja komentosarjaohjelmointikieliä, kuten Python [5] , Ruby [6] , Perl [7] , Java [8] .

FASTA- ja FASTQ (Sanger Institute) -muodot ovat suosituimpia biologisten sekvenssitietojen esittämisessä [9] . Myös muita muotoja on olemassa, mukaan lukien GenBank [10] , EMBL [11] ja UniProt [12] tietopankeissa käytetyt .

Muoto

FASTA-sekvenssit alkavat yksirivisellä kuvauksella, jota seuraa rivit, jotka sisältävät itse sekvenssin. Kuvaus on merkitty suuremmalla kuin -symbolilla (">") ensimmäisessä sarakkeessa. Tämän merkin jälkeen ja ensimmäiseen välilyöntiin asti oleva sana on sekvenssin tunniste , jota seuraa valinnainen kuvaus. Muutaman seuraavan rivin ensimmäisenä merkkinä voi olla puolipiste (";"), jolloin niitä käsitellään kommentteina. Tällä hetkellä monet tietokannat ja ohjelmat eivät tunnista kommentteja, joten ne eivät ole kovin yleisiä. Seuraa sitten rivejä, jotka sisältävät todelliset biologiset sekvenssit. Normaalisti FASTA-muodossa olevien merkkijonojen pituus on rajoitettu 80-120 merkkiin (historiallisista syistä), mutta nykyaikaiset ohjelmat tunnistavat sekvenssit, jotka on kirjoitettu kokonaan yhdelle riville. Yhteen tiedostoon voidaan kirjoittaa useita sekvenssejä, jolloin saadaan moni-FASTA-tiedosto, mutta jokaista sekvenssiä edeltää oma tunniste [13] . Esimerkki yhdestä sekvenssistä FASTA-muodossa: [14]

>gi|31563518|viite|NP_852610.1| mikrotubuluksiin liittyvät proteiinit 1A/1B kevytketjun 3A isoformi b [Homo sapiens] MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI IRRRLQLNPTQAFFLLVNQHSMVVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE

Tämän sekvenssin tunniste on gi|31563518|ref|NP_852610.1|.

Sekvenssit kirjoitetaan yksikirjaimina koodeina nukleotideille tai aminohapoille , jotka vastaavat niiden standardia IUB / IUPAC yksikirjaimia koodeja , järjestyksessä 5'-3'-päästä nukleiinihapoille ja N-päästä C-päähän aminohapoilla välilyönnit ovat sallittuja, merkit voivat olla sekä isoja että pieniä kirjaimia. Sekvenssien kanssa toimivat ohjelmat jättävät huomioimatta numerot, rivin loppu- ja sarkainmerkit .

Nukleiinihapot nimitetään [15] :

Koodi	Merkitys	Muistitekniikka
A	A	A deniini - Adeniini
C	C	C -tosiini - Sytosiini
G	G	Guaniini - Guaniini
T	T	T - hymiini - tymiini (5-metyyliurasiili)
U	U	U racil -
R	A, G	pu Rine - Puriinit
Y	C, T, U	p Y rimidiinit - Pyrimidiinit
K	G, T, U	Ketoniemäkset _ _
M	A, C	Emäkset, joissa on aminoryhmiä (a M ino)
S	C, G	Vahva ( Vahva ) vuorovaikutus komplementaarisessa parissa (kolme vetysidosta )
W	A, T, U	Heikko (heikko ) vuorovaikutus komplementaarisessa parissa (kaksi vetysidosta )
B	ei A (eli C, G, T tai U)	B seuraa A:ta
D	ei C (eli A, G, T tai U)	D seuraa C:tä
H	ei G (A, C, T tai U)	H seuraa G:tä
V	ei T eikä U (A, C tai G)	V seuraa U:ta
N	ACGTU	Mikä tahansa ( N y) nukleotidi

Aminohapoille on 22 yleistä koodia (kanoniset aminohapot, selenokysteiini ja pyrrolysiini ), 4 erikoiskoodia (nimitykset aminohapposarjoille) ja * lopetuskodonin osoittamiseen (muodollisissa geenikäännöksissä ) [16] [17] .

Aminohappokoodi	Merkitys
A	Alaniini
B	Asparagiinihappo (D) tai asparagiini (N)
C	Kysteiini
D	Asparagiinihappo
E	Glutamiinihappo
F	Fenyylialaniini
G	Glysiini
H	Histidiini
minä	Isoleusiini
J	Leusiini (L) tai isoleusiini (I)
K	Lysiini
L	Leusiini
M	metioniini
N	Asparagiini
O	pyrrolysiini
P	Proliini
K	Glutamiini
R	Arginiini
S	Seesteinen
T	Treoniini
U	Selenokysteiini
V	Valine
W	tryptofaani
Y	Tyrosiini
Z	Glutamiinihappo (E) tai glutamiini (Q)
X	Mikä tahansa aminohappo
*	Käännöksen lopettaminen

Fasta - muotoa käytetään myös tiedostoille , jotka sisältävät biologisia sekvenssikohdistuksia . Tässä tapauksessa jokaiseen sekvenssiin, paikkoihin, jotka vastaavat paikkoja, joita ei ole esitetty tässä sekvenssissä, lisätään "aukot" (yleensä yhdysmerkki tai piste), minkä seurauksena kaikkien tiedoston sekvenssien tulee olla samanpituisia [18 ] .

Sekvenssitunnisteet

NCBI on määritellyt säännöt ainutlaatuisten sekvenssitunnisteiden (SeqID) luomiseksi . Kuvausriville [19] saa syöttää seuraavat tunnisteiden muunnelmat :

Tyyppi	Muoto(t)	Esimerkki(t)
Paikallinen (ei viittaa ulkoisiin tietokantoihin)	lcl\|целое число lcl\|строка	lcl\|123 lcl\|hmm271
GenInfo runkoketjun sekvenssitunniste	bbs\|целое число	bbs\|123
GenInfo-runkomolekyylityyppi	bbm\|целое число	bbm\|123
GenInfo tuontitunnus	gim\|целое число	gim\|123
GenBank	gb\|код доступа\|локус	gb\|M73307\|AGMA13GT
EMBL	emb\|код доступа\|локус	emb\|CAM43271.1\|
PIR	pir\|код доступа\|название	pir\|\|G36364
SWISS PROT	sp\|код доступа\|название	sp\|P01013\|OVAX_CHICK
Patentti	pat\|страна\|патент\|номер последовательности	pat\|US\|RE33188\|1
patenttihakemuksessa	pgp\|страна\|номер заявки\|номер последовательности	pgp\|EP\|0238993\|7
RefSeq	ref\|код доступа\|название	ref\|NM_010450.1\|
Tietokantalinkki ei ole tästä luettelosta	gnl\|база данных\|целое число gnl\|база данных\|строка	gnl\|taxon\|9606 gnl\|PID\|e1632
Integroitu GenInfo-tietokanta	gi\|целое число	gi\|21434723
DDBJ	dbj\|код доступа\|локус	dbj\|BAC85684.1\|
PRF	prf\|код доступа\|название	prf\|\|0806162C
ATE	pdb\|запись\|цепь	pdb\|1I4L\|D
GenBank kolmannen osapuolen merkinnöillä	tpg\|код доступа\|название	tpg\|BK003456\|
EMBL kolmannen osapuolen huomautuksilla	tpe\|код доступа\|название	tpe\|BN000123\|
DDBJ kolmannen osapuolen huomautuksilla	tpd\|код доступа\|название	tpd\|FAA00017\|
TreMBL	tr\|код доступа\|название	tr\|Q90RT2\|Q90RT2_9HIV1

Pystyviivat ("|") luettelon yläosassa eivät ole erottimia, vaan osa muotoa. Voit laittaa tunnisteet riviin erottamalla ne viivoilla. Jos jokin tunnistekentistä jätetään tyhjäksi, yhteensopivuuden varmistamiseksi ohjelmien kanssa on tarpeen laittaa kaksi viivaa peräkkäin [20] .

Tiedostotunnisteet

Fasta-tiedostoilla voi olla eri tunnisteita niiden sisältämän biologisen tiedon luonteesta riippuen [21] [22] .

Laajennus	Merkitys	Huomautuksia
fasta	Säännöllinen fasta data	Kaikki fasta-tiedot. Joskus myös .fa, .seq, .fsa, .fas
fna	lyhenne "fasta nukleiinihaposta"	Nukleotidisekvenssien kuvaamiseen.
ffn	Nukleotidien koodaavat alueet	Ne sisältävät genomien koodaavia alueita .
faa	lyhenne "fasta aminohapoista"	Sisältää aminohapposekvenssejä. MPfa-laajennusta käytetään tallennettaessa useita proteiineja yhteen tiedostoon.
frn	Koodaamaton RNA FASTA-muodossa	Sisältää ei-koodaavia RNA :ita DNA - aakkosissa , esim. tRNA , rRNA
afa, mfa	Tasaus FASTA-muodossa (a "tasaus", m "useita")	Sisältää biologisten (nukleotidi- tai aminohappo) sekvenssien rinnastuksia

Muistiinpanot

↑ FASTA (.fasta, .fa, .fna, .fsa, .mpfa). Wolfram Research, viite, 2007-2012 . Haettu 19. kesäkuuta 2015. Arkistoitu alkuperäisestä 19. kesäkuuta 2015. (määrätön) (Englanti)
↑ 1 2 3 Lipman D. , Pearson W. Nopeat ja herkät proteiinien samankaltaisuushaut // Tiede . - 1985. - 22. maaliskuuta ( nide 227 , nro 4693 ). - s. 1435-1441 . — ISSN 0036-8075 . - doi : 10.1126/tiede.2983426 .
↑ Pearson WR , Lipman DJ Parannetut työkalut biologisten sekvenssien vertailuun. (englanti) // Proceedings of the National Academy of Sciences. - 1988. - 1. huhtikuuta ( nide 85 , nro 8 ). - P. 2444-2448 . — ISSN 0027-8424 . - doi : 10.1073/pnas.85.8.2444 .
↑ Peter JA Cock, Tiago Antao, Jeffrey T. Chang, Brad A. Chapman, Cymon J. Cox. Biopython: vapaasti saatavilla Python-työkalut laskennalliseen molekyylibiologiaan ja bioinformatiikkaan // Bioinformatics . - 2009-06-01. — Voi. 25 , iss. 11 . - s. 1422-1423 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/btp163 . Arkistoitu 15. toukokuuta 2020.
↑ Naohisa Goto, Pjotr Prins, Mitsuteru Nakao, Raoul Bonnal, Jan Aerts. BioRuby: bioinformatiikkaohjelmisto Ruby-ohjelmointikielelle // Bioinformatics . – 15.10.2010. — Voi. 26 , iss. 20 . — s. 2617–2619 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/btq475 . Arkistoitu alkuperäisestä 25. helmikuuta 2021.
↑ Jason E. Stajich, David Block, Kris Boulez, Steven E. Brenner, Stephen A. Chervitz. Bioperl Toolkit: Perl-moduulit biotieteille // Genomitutkimus. - 2002-10-01. — Voi. 12 , iss. 10 . - P. 1611-1618 . — ISSN 1549-5469 1088-9051, 1549-5469 . - doi : 10.1101/gr.361602 . Arkistoitu alkuperäisestä 17. lokakuuta 2019.
↑ Aleix Lafita, Spencer Bliven, Andreas Prlić, Dmytro Guzenko, Peter W. Rose. BioJava 5: Yhteisölähtöinen avoimen lähdekoodin bioinformatiikkakirjasto // PLOS Computational Biology. - 2019-08-02. — Voi. 15 , iss. 2 . — P. e1006791 . — ISSN 1553-7358 . - doi : 10.1371/journal.pcbi.1006791 . Arkistoitu alkuperäisestä 14. huhtikuuta 2021.
↑ EMBOSS-käyttöopas . emboss.open-bio.org. Haettu 22. toukokuuta 2020. Arkistoitu alkuperäisestä 14. helmikuuta 2020. (määrätön)
↑ GenBank-tietueen näyte . www.ncbi.nlm.nih.gov. Haettu 19. toukokuuta 2020. Arkistoitu alkuperäisestä 18. toukokuuta 2020. (määrätön)
↑ European Nucleotide Archive annotated/assembled series User Manual (eng.) (txt). Euroopan nukleotidiarkisto . European Bioinformatics Institute (12.3.2020). Käyttöönottopäivä: 8.6.2020.
↑ UniProt Knowledgebase -käyttöopas . ExPASy Bioinformatics Resource Portal (22.4.2020). Haettu 8. kesäkuuta 2020. Arkistoitu alkuperäisestä 13. toukokuuta 2020.
↑ Multi-FASTA-muoto - Metagenomics . www.metagenomics.wiki. Haettu 19. toukokuuta 2020. Arkistoitu alkuperäisestä 12. elokuuta 2020. (määrätön)
↑ Ta Schoenfeld, L McKerracher, R Obar, Rb Vallee. MAP 1A ja MAP 1B ovat rakenteellisesti samankaltaisia mikrotubuluksiin liittyviä proteiineja, joilla on selkeät kehitysmallit keskushermostossa // The Journal of Neuroscience. - 1.5.1989. — Voi. 9 , iss. 5 . — P. 1712–1730 . — ISSN 1529-2401 0270-6474, 1529-2401 . - doi : 10.1523/JNEUROSCI.09-05-01712.1989 .
↑ : Tao Tao. Nukleotidien yksikirjaiminen koodit . NCBI-oppimiskeskus . National Center for Biotechnology Information (24. elokuuta 2011). Haettu 15. maaliskuuta 2012. Arkistoitu alkuperäisestä 13. elokuuta 2015. (määrätön)
↑ Jakson kuvauksessa käytetyt koodit . www.ddbj.nig.ac.jp. Haettu 16. huhtikuuta 2020. Arkistoitu alkuperäisestä 29. syyskuuta 2020.
↑ IUPAC-IUB:n biokemiallisen nimikkeistön yhteiskomissio (JCBN). Aminohappojen ja peptidien nimistö ja symboliikka. Recommendations 1983 // Biochemical Journal. - 1984. - 15. huhtikuuta ( nide 219 , nro 2 ). - s. 345-373 . — ISSN 0264-6021 . - doi : 10.1042/bj2190345 .
↑ Tasattu FASTA-muoto . www.cgl.ucsf.edu. Haettu 22. toukokuuta 2020. Arkistoitu alkuperäisestä 24. tammikuuta 2021. (määrätön)
↑ NCBI C++ Toolkit Book. FASTA Sekvenssi ID -muoto . NCBI C++ Toolkit . Haettu 30. toukokuuta 2020. Arkistoitu alkuperäisestä 15. joulukuuta 2020. (määrätön)
↑ Leonard Shonda A. , Littlejohn Timothy G. , Baxevanis Andreas D. Yleiset tiedostomuodot // Current Protocols in Bioinformatics. - 2006. - Joulukuu ( osa 16 , nro 1 ) — ISSN 1934-3396 . - doi : 10.1002/0471250953.bia01bs16 .
↑ Zahoorullah S MD. Biotekniikan oppikirja. - SM Online Publishers LLC, 2015. - s. 6-7. — ISBN 9780996274531 .
↑ Tasaustiedostomuodot . www.jalview.org. Haettu 1. huhtikuuta 2020. Arkistoitu alkuperäisestä 19. helmikuuta 2020. (määrätön)

Linkit

Biological Sequence File Converter
Ohjeet FASTA-muotoisen tiedoston luomiseen manuaalisesti (eng.)

Tyyppi	Muoto(t)	Esimerkki(t)
Paikallinen (ei viittaa ulkoisiin tietokantoihin)	lcl\|целое число lcl\|строка	lcl\|123 lcl\|hmm271
GenInfo runkoketjun sekvenssitunniste	bbs\|целое число	bbs\|123
GenInfo-runkomolekyylityyppi	bbm\|целое число	bbm\|123
GenInfo tuontitunnus	gim\|целое число	gim\|123
GenBank	gb\|код доступа\|локус	gb\|M73307\|AGMA13GT
EMBL	emb\|код доступа\|локус	emb\|CAM43271.1\|
PIR	pir\|код доступа\|название	pir\|\|G36364
SWISS PROT	sp\|код доступа\|название	sp\|P01013\|OVAX_CHICK
Patentti	pat\|страна\|патент\|номер последовательности	pat\|US\|RE33188\|1
patenttihakemuksessa	pgp\|страна\|номер заявки\|номер последовательности	pgp\|EP\|0238993\|7
RefSeq	ref\|код доступа\|название	ref\|NM_010450.1\|
Tietokantalinkki ei ole tästä luettelosta	gnl\|база данных\|целое число gnl\|база данных\|строка	gnl\|taxon\|9606 gnl\|PID\|e1632
Integroitu GenInfo-tietokanta	gi\|целое число	gi\|21434723
DDBJ	dbj\|код доступа\|локус	dbj\|BAC85684.1\|
PRF	prf\|код доступа\|название	prf\|\|0806162C
ATE	pdb\|запись\|цепь	pdb\|1I4L\|D
GenBank kolmannen osapuolen merkinnöillä	tpg\|код доступа\|название	tpg\|BK003456\|
EMBL kolmannen osapuolen huomautuksilla	tpe\|код доступа\|название	tpe\|BN000123\|
DDBJ kolmannen osapuolen huomautuksilla	tpd\|код доступа\|название	tpd\|FAA00017\|
TreMBL	tr\|код доступа\|название	tr\|Q90RT2\|Q90RT2_9HIV1