RÄJÄHDYS

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 22. helmikuuta 2021 tarkistetusta versiosta . tarkastukset vaativat 7 muokkausta .

RÄJÄHDYS

Tyyppi	bioinformatiikka
Kehittäjä	Steven Altschul , Warren Gish , Webb Miller , Eugene Myers ja David Lipman ( NCBI )
Sisään kirjoitettu	C++ ja C
Käyttöjärjestelmä	UNIX , Linux , Apple Macintosh , Microsoft Windows
uusin versio	2.13.0 (17.03.2022)
Luettavat tiedostomuodot	XML BLAST -lähtö [d]
Luodut tiedostomuodot	XML BLAST -lähtö [d]
Lisenssi	julkista
Verkkosivusto	ftp.ncbi.nlm.nih.gov/bla…

BLAST ( Basic L ocal A lignment Search Tool ) on tietokoneohjelmien perhe , jota käytetään samankaltaisten aminohappo- tai nukleotidisekvenssien etsimiseen [1] . BLASTin avulla tutkija voi verrata hallussaan olevaa sekvenssiä tietokannan sekvensseihin ja löytää oletettuja homologeja. Se on olennainen työkalu molekyylibiologeille, bioinformatikoille ja taksonomisteille. BLAST-ohjelman kehitti joukko tutkijoita: Stephen Altschul , Warren Gish , Webb Miller , Eugene Myers ja David Lipman Yhdysvaltain kansallisissa terveysinstituuteissa . Ensimmäinen ohjelmaa kuvaava julkaisu julkaistiin Journal of Molecular Biology -lehdessä vuonna 1990 [2] .

BLAST-sarjan ohjelmien luokittelu

BLAST-sarjan ohjelmaperhe on jaettu 4 pääryhmään:

Nukleotidi

suunniteltu vertaamaan tutkittua nukleotidisekvenssiä sekvensoitujen genomien ja niiden alueiden tietokantaan:

megablast - nopea vertailu erittäin samankaltaisten sekvenssien löytämiseksi,
epäjatkuva megablasti - nopea vertailu erilaisten sekvenssien löytämiseksi, joilla on vähän samankaltaisuutta,
blastn - etsi suhteellisen lyhyitä sekvenssejä, joilla on vähän samankaltaisuutta jne.

Proteiini

on suunniteltu vertaamaan tutkittua proteiinin aminohapposekvenssiä olemassa olevaan proteiinien ja niiden fragmenttien tietokantaan.

blastp - hidas vertailu kaikkien samanlaisten sekvenssien löytämiseksi,
DELTA-BLAST - etsi sekvenssejä, joilla on vähän samankaltaisuutta. Kyselyä verrataan konservatiivisten verkkotunnusten tietokantaan ja muodostetaan paikkakohtainen pistematriisi . Lopullinen haku tietokannoista suoritetaan käyttämällä tuloksena olevaa paikkataulukkoa [3] .
PSI-BLAST - vertailu löytääkseen vähän samankaltaisia sekvenssejä,
PHI-BLAST - etsi proteiineja, jotka sisältävät käyttäjän määrittämän kuvion jne.

Broadcasters

pystyy muuttamaan nukleotidisekvenssejä aminohapoiksi ja päinvastoin:

blastx - kääntää tutkitun nukleotidisekvenssin koodatuiksi aminohapoiksi ja vertaa sitä sitten olemassa olevaan proteiinin aminohapposekvenssien tietokantaan,
tblastn - tutkittua aminohapposekvenssiä verrataan sekvensoitujen nukleiinihappojen tietokannan transloituihin sekvensseihin,
tblastx - kääntää tutkitun nukleotidisekvenssin aminohapoksi ja vertaa sitä sitten sekvensoitujen nukleiinihappojen tietokannan transloituihin sekvensseihin.

Special

BLASTia käyttävät sovellusohjelmat:

bl2seq - kahden sekvenssin vertailu paikallisten kohdistusten periaatteen mukaisesti,
CDART - vertailu homologisten proteiinien etsimiseen domeeniarkkitehtuurin perusteella,
magicblast - kartoittaa lukemat (lukee) koko genomiin tai transkriptiin,
VecScreen - nukleiinihapon nukleotidisekvenssin segmenttien määritys, joilla voi olla vektorin alkuperä jne.

Kuinka BLAST toimii

Kaikki rinnastukset jaetaan yleensä globaaleihin (sekvenssejä verrataan kokonaan) ja paikallisiin (vain tiettyjä jaksoja verrataan). BLAST-sarjan ohjelmat tuottavat paikallisia kohdistuksia, mikä liittyy samanlaisten domeenien ja kuvioiden esiintymiseen eri proteiineissa. Lisäksi paikallinen kohdistus mahdollistaa mRNA:n vertailun genomisen DNA:n kanssa. Globaalin kohdistuksen tapauksessa sekvenssien samankaltaisuutta on vähemmän, erityisesti niiden domeeneissa ja kuvioissa.

Kun tutkittu nukleotidi- tai aminohapposekvenssi (pyyntö) on syötetty yhdelle BLAST-verkkosivuista, se lähetetään yhdessä muiden syötetietojen (tietokanta, "sanan" (osion) koko, E-arvo jne.) kanssa palvelimelle. BLAST luo taulukon kaikista "sanoista" (proteiinissa tämä on sekvenssiosio, joka koostuu oletuksena kolmesta aminohaposta ja nukleiinihapoille 11 nukleotidista) ja vastaavista "sanoista".

Sitten ne etsitään tietokannasta. Kun vastaavuus löytyy, "sanan" kokoa yritetään laajentaa (enintään 4 aminohappoa ja 12 tai enemmän nukleotidia), ensin ilman aukkoja (aukoja) ja sitten käyttämällä niitä. Tutkitun sekvenssin kaikkien mahdollisten "sanojen" kokojen maksimilaajentamisen jälkeen määritetään kullekin kysely-tietokanta-sekvenssiparille kohdistukset maksimivastineiden lukumäärällä ja saatu informaatio kiinnitetään SeqAlign-rakenteeseen. BLAST-palvelimella oleva muotoilija käyttää SeqAlignin tietoja ja esittää ne eri tavoilla (perinteinen, graafinen, taulukkomuotoinen).

Jokaiselle BLAST-ohjelmien tietokannasta löytämälle sekvenssille on tarpeen määrittää, kuinka samanlainen se on tutkittavan sekvenssin (kyselyn) kanssa ja onko tämä samankaltaisuus merkittävää. Tätä varten BLAST laskee bittien määrän ja E:n arvon (odotettu arvo, E-arvo) kullekin sekvenssiparille.

Samankaltaisuuden määrittämisessä avainelementti on substituutiomatriisi, koska se määrittää minkä tahansa mahdollisen nukleotidi- tai aminohappoparin samankaltaisuuspisteet. Useimmat BLAST-sarjan ohjelmat käyttävät BLOSUM62-matriisia (Blocks Substitution -matriisi 62 % identtisyys, lohkokorvausmatriisi 62 % identtisuudella). Poikkeuksia ovat blastn ja megablast (ohjelmat, jotka suorittavat nukleotidi-nukleotidivertailuja eivätkä käytä aminohapposubstituutiomatriiseja).

Muokattuja Smith-Waterman- tai Sellers-algoritmeja käyttämällä määritetään kaikki segmenttiparit (laajennetut "sanat"), joita ei voi lisätä, koska tämä johtaa samankaltaisuuspisteiden laskuun. Tällaisia laajennettujen "sanojen" pareja kutsutaan segmenteiksi, joilla on maksimaalinen samankaltaisuus (korkean pisteytyksen segmenttiparit, HSP). Jos tutkittavien sekvenssien (m) ja tietokantasekvenssin (n) pituus on riittävän suuri, HSP:n samankaltaisuusindikaattoreita luonnehditaan kahdella parametrilla K (hakualueen koko) ja P (laskentajärjestelmät). Nämä indikaattorit on ilmoitettava, kun tuodaan tutkitun sekvenssin ja tietokannan sekvenssin (S) samankaltaisuusindikaattorit.

Eri kohdistusten samankaltaisuuspisteiden vertaamiseksi käytetystä matriisista riippumatta ne on muunnettava. Saadaksesi muunnetun samankaltaisuuspisteen (bittien lukumäärä, B), käytä kaavaa:

B=(P\cdot S-\ln {K})/\ln {2}

B:n arvo osoittaa, kuinka samankaltaisia sekvenssit ovat (mitä suurempi bittien määrä, sitä suurempi samankaltaisuus). Koska K- ja P-indikaattorit sisältyvät B:n laskentakaavaan, niitä ei tarvitse määritellä B:n arvoja tuodaessa. Indikaattoria B vastaava E:n arvo (E-arvo) osoittaa luotettavuuden tästä kohdistuksesta (mitä pienempi E:n arvo, sitä luotettavampi kohdistus). Se määritetään kaavalla:

{\displaystyle E=m\cdot n\cdot 2^{-B))

BLAST-ohjelmat määrittävät pääasiallisesti E:n arvon P:n sijaan (todennäköisyys, että on vähintään yksi HSP, jonka pistemäärä on suurempi tai yhtä suuri kuin S). Mutta kun E < 0,01, P- ja E-arvot ovat melkein identtiset.

E:n arvo määritetään kaavalla (2), kun verrataan vain kahta aminohappo- tai nukleotidisekvenssiä. Tutkitun pituisen m sekvenssin vertailu tietokantasekvenssien joukkoon voi perustua kahteen oletukseen. Ensimmäinen oletus on, että kaikki tietokantasekvenssit ovat yhtä samanlaisia kuin tutkittava. Tämä tarkoittaa, että E:n arvo rinnastukselle tietokannan sisältämän lyhyen sekvenssin kanssa tulisi rinnastaa E:n arvoon kohdistamiselle pitkän sekvenssin kanssa. Laskeaksesi E:n arvon tietokannasta, sinun on kerrottava parittaisella vertailulla saatu E:n arvo siinä olevien sekvenssien lukumäärällä. Toinen oletus on, että tutkittava sekvenssi muistuttaa enemmän lyhyitä kuin pitkiä sekvenssejä, koska jälkimmäiset koostuvat usein eri alueista (monet proteiinit koostuvat domeeneista). Olettaen, että samankaltaisuuden todennäköisyys on verrannollinen sekvenssin pituuteen, n pituisen tietokantasekvenssin parikohtainen arvo E on kerrottava N/n:llä, missä N on tietokannan aminohappojen tai nukleotidien kokonaispituus. BLAST-ohjelmat käyttävät pääasiassa tätä lähestymistapaa E-arvojen laskemiseen tietokannasta.

Teoreettisesti paikallinen rinnastus voi alkaa mistä tahansa kohdistettujen sekvenssien nukleotidi- tai aminohappoparista. HPS ei kuitenkaan yleensä ala läheltä sekvenssien reunaa (alkua tai loppua). Tällaisen reunavaikutuksen korjaamiseksi on tarpeen laskea sekvenssien tehollinen pituus. Yli 200 tähdettä pitkien sekvenssien tapauksessa reunavaikutus neutraloituu.

Katso myös

PSI-proteiinin luokitin

Muistiinpanot

↑ Pertsemlidis A, Fondon JW (2001). "BLAST-harjoitus bioinformatiikan kanssa (ja BLASTphemian välttäminen)". Genomibiologia . 2 (10): arvostelut2002.1. DOI : 10.1186/gb-2001-2-10-reviews2002 . PMID 11597340 .
↑ Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990). "Paikallisen kohdistuksen perushakutyökalu". Journal of Molecular Biology . 215 (3): 403-410. DOI : 10.1016/S0022-2836(05)80360-2 . PMID2231712 . _
↑ Boratyn GM, Schäffer AA, Agarwala R, Altschul SF, Lipman DJ, Madden TL (2012). "Domainin tehostettu hakuaika nopeutti BLASTin". Biology Direct . 7:12 . DOI : 10.1186/1745-6150-7-12 . PMID 22510480 .

Linkit

NCBI Blast
Esitys aiheesta BLAST venäjäksi