FASTA muoto | |
---|---|
Laajennus | .fas, .fasta, .fna, .ffn, .faa, .frn, .afa, .mfa |
MIME -tyyppinen | kemiallinen/seq-aa-fasta, kemiallinen/seq-na-fasta [1] |
Kehittäjä |
David Lipman [2] William Pearson [2] |
julkaistu | 1985 |
Muototyyppi | tiedostomuoto ja tekstimuotoinen tietomuoto [d] |
Laajennettu kohteesta | ASCII FASTAlle |
Kehitetty vuonna | FASTQ |
Verkkosivusto | http://ncbi.nlm.nih.gov/BLAST/fasta.shtml |
FASTA on tekstimuoto nukleotidi- tai polypeptidisekvensseille , joissa nukleotidit tai aminohapot on nimetty käyttämällä yksikirjaimia koodeja . Yksinkertaisuuden ja käytännöllisyyden vuoksi sitä käyttävät tällä hetkellä useimmat biologiset sekvenssiohjelmat . Tämän muotoiset tiedostot voivat sisältää sekvenssien nimiä, niiden tunnisteita tietokantoissa ja kommenteissa. Sen sisältämien biologisten sekvenssien luonteesta riippuen FASTA-tiedostolla voi olla useita tunnisteita [ .
Formaatin keksivät David Lipman ja William Pearson [2] [3] vuonna 1985 samannimiselle ohjelmalle , joka on suunniteltu etsimään suuria tietokantoja tietyn sekvenssin kanssa homologisista sekvensseistä . He tekivät alkuperäisen kuvauksen formaatista tämän ohjelman dokumentaatiossa, ja nyt sen kuvaus on osa BLAST -ohjelman dokumentaatiota .
FASTA-muodon yksinkertaisuus mahdollistaa erilaisten toimintojen suorittamisen sekvensseillä käyttämällä tekstinmuokkaustyökaluja ja komentosarjaohjelmointikieliä, kuten Python [5] , Ruby [6] , Perl [7] , Java [8] .
FASTA- ja FASTQ (Sanger Institute) -muodot ovat suosituimpia biologisten sekvenssitietojen esittämisessä [9] . Myös muita muotoja on olemassa, mukaan lukien GenBank [10] , EMBL [11] ja UniProt [12] tietopankeissa käytetyt .
FASTA-sekvenssit alkavat yksirivisellä kuvauksella, jota seuraa rivit, jotka sisältävät itse sekvenssin. Kuvaus on merkitty suuremmalla kuin -symbolilla (">") ensimmäisessä sarakkeessa. Tämän merkin jälkeen ja ensimmäiseen välilyöntiin asti oleva sana on sekvenssin tunniste , jota seuraa valinnainen kuvaus. Muutaman seuraavan rivin ensimmäisenä merkkinä voi olla puolipiste (";"), jolloin niitä käsitellään kommentteina. Tällä hetkellä monet tietokannat ja ohjelmat eivät tunnista kommentteja, joten ne eivät ole kovin yleisiä. Seuraa sitten rivejä, jotka sisältävät todelliset biologiset sekvenssit. Normaalisti FASTA-muodossa olevien merkkijonojen pituus on rajoitettu 80-120 merkkiin (historiallisista syistä), mutta nykyaikaiset ohjelmat tunnistavat sekvenssit, jotka on kirjoitettu kokonaan yhdelle riville. Yhteen tiedostoon voidaan kirjoittaa useita sekvenssejä, jolloin saadaan moni-FASTA-tiedosto, mutta jokaista sekvenssiä edeltää oma tunniste [13] . Esimerkki yhdestä sekvenssistä FASTA-muodossa: [14]
>gi|31563518|viite|NP_852610.1| mikrotubuluksiin liittyvät proteiinit 1A/1B kevytketjun 3A isoformi b [Homo sapiens] MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI IRRRLQLNPTQAFFLLVNQHSMVVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENETämän sekvenssin tunniste on gi|31563518|ref|NP_852610.1|.
Sekvenssit kirjoitetaan yksikirjaimina koodeina nukleotideille tai aminohapoille , jotka vastaavat niiden standardia IUB / IUPAC yksikirjaimia koodeja , järjestyksessä 5'-3'-päästä nukleiinihapoille ja N-päästä C-päähän aminohapoilla välilyönnit ovat sallittuja, merkit voivat olla sekä isoja että pieniä kirjaimia. Sekvenssien kanssa toimivat ohjelmat jättävät huomioimatta numerot, rivin loppu- ja sarkainmerkit .
Nukleiinihapot nimitetään [15] :
Koodi | Merkitys | Muistitekniikka |
---|---|---|
A | A | A deniini - Adeniini |
C | C | C -tosiini - Sytosiini |
G | G | Guaniini - Guaniini |
T | T | T - hymiini - tymiini (5-metyyliurasiili) |
U | U | U racil - |
R | A, G | pu Rine - Puriinit |
Y | C, T, U | p Y rimidiinit - Pyrimidiinit |
K | G, T, U | Ketoniemäkset _ _ |
M | A, C | Emäkset, joissa on aminoryhmiä (a M ino) |
S | C, G | Vahva ( Vahva ) vuorovaikutus komplementaarisessa parissa (kolme vetysidosta ) |
W | A, T, U | Heikko (heikko ) vuorovaikutus komplementaarisessa parissa (kaksi vetysidosta ) |
B | ei A (eli C, G, T tai U) | B seuraa A:ta |
D | ei C (eli A, G, T tai U) | D seuraa C:tä |
H | ei G (A, C, T tai U) | H seuraa G:tä |
V | ei T eikä U (A, C tai G) | V seuraa U:ta |
N | ACGTU | Mikä tahansa ( N y) nukleotidi |
Aminohapoille on 22 yleistä koodia (kanoniset aminohapot, selenokysteiini ja pyrrolysiini ), 4 erikoiskoodia (nimitykset aminohapposarjoille) ja * lopetuskodonin osoittamiseen (muodollisissa geenikäännöksissä ) [16] [17] .
Aminohappokoodi | Merkitys |
---|---|
A | Alaniini |
B | Asparagiinihappo (D) tai asparagiini (N) |
C | Kysteiini |
D | Asparagiinihappo |
E | Glutamiinihappo |
F | Fenyylialaniini |
G | Glysiini |
H | Histidiini |
minä | Isoleusiini |
J | Leusiini (L) tai isoleusiini (I) |
K | Lysiini |
L | Leusiini |
M | metioniini |
N | Asparagiini |
O | pyrrolysiini |
P | Proliini |
K | Glutamiini |
R | Arginiini |
S | Seesteinen |
T | Treoniini |
U | Selenokysteiini |
V | Valine |
W | tryptofaani |
Y | Tyrosiini |
Z | Glutamiinihappo (E) tai glutamiini (Q) |
X | Mikä tahansa aminohappo |
* | Käännöksen lopettaminen |
Fasta - muotoa käytetään myös tiedostoille , jotka sisältävät biologisia sekvenssikohdistuksia . Tässä tapauksessa jokaiseen sekvenssiin, paikkoihin, jotka vastaavat paikkoja, joita ei ole esitetty tässä sekvenssissä, lisätään "aukot" (yleensä yhdysmerkki tai piste), minkä seurauksena kaikkien tiedoston sekvenssien tulee olla samanpituisia [18 ] .
NCBI on määritellyt säännöt ainutlaatuisten sekvenssitunnisteiden (SeqID) luomiseksi . Kuvausriville [19] saa syöttää seuraavat tunnisteiden muunnelmat :
Tyyppi | Muoto(t) | Esimerkki(t) |
---|---|---|
Paikallinen (ei viittaa ulkoisiin tietokantoihin) | lcl|целое число lcl|строка |
lcl|123 lcl|hmm271 |
GenInfo runkoketjun sekvenssitunniste | bbs|целое число | bbs|123 |
GenInfo-runkomolekyylityyppi | bbm|целое число | bbm|123 |
GenInfo tuontitunnus | gim|целое число | gim|123 |
GenBank | gb|код доступа|локус | gb|M73307|AGMA13GT |
EMBL | emb|код доступа|локус | emb|CAM43271.1| |
PIR | pir|код доступа|название | pir||G36364 |
SWISS PROT | sp|код доступа|название | sp|P01013|OVAX_CHICK |
Patentti | pat|страна|патент|номер последовательности | pat|US|RE33188|1 |
patenttihakemuksessa | pgp|страна|номер заявки|номер последовательности | pgp|EP|0238993|7 |
RefSeq | ref|код доступа|название | ref|NM_010450.1| |
Tietokantalinkki ei ole tästä luettelosta | gnl|база данных|целое число gnl|база данных|строка |
gnl|taxon|9606 gnl|PID|e1632 |
Integroitu GenInfo-tietokanta | gi|целое число | gi|21434723 |
DDBJ | dbj|код доступа|локус | dbj|BAC85684.1| |
PRF | prf|код доступа|название | prf||0806162C |
ATE | pdb|запись|цепь | pdb|1I4L|D |
GenBank kolmannen osapuolen merkinnöillä | tpg|код доступа|название | tpg|BK003456| |
EMBL kolmannen osapuolen huomautuksilla | tpe|код доступа|название | tpe|BN000123| |
DDBJ kolmannen osapuolen huomautuksilla | tpd|код доступа|название | tpd|FAA00017| |
TreMBL | tr|код доступа|название | tr|Q90RT2|Q90RT2_9HIV1 |
Pystyviivat ("|") luettelon yläosassa eivät ole erottimia, vaan osa muotoa. Voit laittaa tunnisteet riviin erottamalla ne viivoilla. Jos jokin tunnistekentistä jätetään tyhjäksi, yhteensopivuuden varmistamiseksi ohjelmien kanssa on tarpeen laittaa kaksi viivaa peräkkäin [20] .
Fasta-tiedostoilla voi olla eri tunnisteita niiden sisältämän biologisen tiedon luonteesta riippuen [21] [22] .
Laajennus | Merkitys | Huomautuksia |
---|---|---|
fasta | Säännöllinen fasta data | Kaikki fasta-tiedot. Joskus myös .fa, .seq, .fsa, .fas |
fna | lyhenne "fasta nukleiinihaposta" | Nukleotidisekvenssien kuvaamiseen. |
ffn | Nukleotidien koodaavat alueet | Ne sisältävät genomien koodaavia alueita . |
faa | lyhenne "fasta aminohapoista" | Sisältää aminohapposekvenssejä. MPfa-laajennusta käytetään tallennettaessa useita proteiineja yhteen tiedostoon. |
frn | Koodaamaton RNA FASTA-muodossa | Sisältää ei-koodaavia RNA :ita DNA - aakkosissa , esim. tRNA , rRNA |
afa, mfa | Tasaus FASTA-muodossa (a "tasaus", m "useita") | Sisältää biologisten (nukleotidi- tai aminohappo) sekvenssien rinnastuksia |