RÄJÄHDYS | |
---|---|
Tyyppi | bioinformatiikka |
Kehittäjä | Steven Altschul , Warren Gish , Webb Miller , Eugene Myers ja David Lipman ( NCBI ) |
Sisään kirjoitettu | C++ ja C |
Käyttöjärjestelmä | UNIX , Linux , Apple Macintosh , Microsoft Windows |
uusin versio | 2.13.0 (17.03.2022) |
Luettavat tiedostomuodot | XML BLAST -lähtö [d] |
Luodut tiedostomuodot | XML BLAST -lähtö [d] |
Lisenssi | julkista |
Verkkosivusto | ftp.ncbi.nlm.nih.gov/bla… |
BLAST ( Basic L ocal A lignment Search Tool ) on tietokoneohjelmien perhe , jota käytetään samankaltaisten aminohappo- tai nukleotidisekvenssien etsimiseen [1] . BLASTin avulla tutkija voi verrata hallussaan olevaa sekvenssiä tietokannan sekvensseihin ja löytää oletettuja homologeja. Se on olennainen työkalu molekyylibiologeille, bioinformatikoille ja taksonomisteille. BLAST-ohjelman kehitti joukko tutkijoita: Stephen Altschul , Warren Gish , Webb Miller , Eugene Myers ja David Lipman Yhdysvaltain kansallisissa terveysinstituuteissa . Ensimmäinen ohjelmaa kuvaava julkaisu julkaistiin Journal of Molecular Biology -lehdessä vuonna 1990 [2] .
BLAST-sarjan ohjelmaperhe on jaettu 4 pääryhmään:
suunniteltu vertaamaan tutkittua nukleotidisekvenssiä sekvensoitujen genomien ja niiden alueiden tietokantaan:
on suunniteltu vertaamaan tutkittua proteiinin aminohapposekvenssiä olemassa olevaan proteiinien ja niiden fragmenttien tietokantaan.
pystyy muuttamaan nukleotidisekvenssejä aminohapoiksi ja päinvastoin:
BLASTia käyttävät sovellusohjelmat:
Kaikki rinnastukset jaetaan yleensä globaaleihin (sekvenssejä verrataan kokonaan) ja paikallisiin (vain tiettyjä jaksoja verrataan). BLAST-sarjan ohjelmat tuottavat paikallisia kohdistuksia, mikä liittyy samanlaisten domeenien ja kuvioiden esiintymiseen eri proteiineissa. Lisäksi paikallinen kohdistus mahdollistaa mRNA:n vertailun genomisen DNA:n kanssa. Globaalin kohdistuksen tapauksessa sekvenssien samankaltaisuutta on vähemmän, erityisesti niiden domeeneissa ja kuvioissa.
Kun tutkittu nukleotidi- tai aminohapposekvenssi (pyyntö) on syötetty yhdelle BLAST-verkkosivuista, se lähetetään yhdessä muiden syötetietojen (tietokanta, "sanan" (osion) koko, E-arvo jne.) kanssa palvelimelle. BLAST luo taulukon kaikista "sanoista" (proteiinissa tämä on sekvenssiosio, joka koostuu oletuksena kolmesta aminohaposta ja nukleiinihapoille 11 nukleotidista) ja vastaavista "sanoista".
Sitten ne etsitään tietokannasta. Kun vastaavuus löytyy, "sanan" kokoa yritetään laajentaa (enintään 4 aminohappoa ja 12 tai enemmän nukleotidia), ensin ilman aukkoja (aukoja) ja sitten käyttämällä niitä. Tutkitun sekvenssin kaikkien mahdollisten "sanojen" kokojen maksimilaajentamisen jälkeen määritetään kullekin kysely-tietokanta-sekvenssiparille kohdistukset maksimivastineiden lukumäärällä ja saatu informaatio kiinnitetään SeqAlign-rakenteeseen. BLAST-palvelimella oleva muotoilija käyttää SeqAlignin tietoja ja esittää ne eri tavoilla (perinteinen, graafinen, taulukkomuotoinen).
Jokaiselle BLAST-ohjelmien tietokannasta löytämälle sekvenssille on tarpeen määrittää, kuinka samanlainen se on tutkittavan sekvenssin (kyselyn) kanssa ja onko tämä samankaltaisuus merkittävää. Tätä varten BLAST laskee bittien määrän ja E:n arvon (odotettu arvo, E-arvo) kullekin sekvenssiparille.
Samankaltaisuuden määrittämisessä avainelementti on substituutiomatriisi, koska se määrittää minkä tahansa mahdollisen nukleotidi- tai aminohappoparin samankaltaisuuspisteet. Useimmat BLAST-sarjan ohjelmat käyttävät BLOSUM62-matriisia (Blocks Substitution -matriisi 62 % identtisyys, lohkokorvausmatriisi 62 % identtisuudella). Poikkeuksia ovat blastn ja megablast (ohjelmat, jotka suorittavat nukleotidi-nukleotidivertailuja eivätkä käytä aminohapposubstituutiomatriiseja).
Muokattuja Smith-Waterman- tai Sellers-algoritmeja käyttämällä määritetään kaikki segmenttiparit (laajennetut "sanat"), joita ei voi lisätä, koska tämä johtaa samankaltaisuuspisteiden laskuun. Tällaisia laajennettujen "sanojen" pareja kutsutaan segmenteiksi, joilla on maksimaalinen samankaltaisuus (korkean pisteytyksen segmenttiparit, HSP). Jos tutkittavien sekvenssien (m) ja tietokantasekvenssin (n) pituus on riittävän suuri, HSP:n samankaltaisuusindikaattoreita luonnehditaan kahdella parametrilla K (hakualueen koko) ja P (laskentajärjestelmät). Nämä indikaattorit on ilmoitettava, kun tuodaan tutkitun sekvenssin ja tietokannan sekvenssin (S) samankaltaisuusindikaattorit.
Eri kohdistusten samankaltaisuuspisteiden vertaamiseksi käytetystä matriisista riippumatta ne on muunnettava. Saadaksesi muunnetun samankaltaisuuspisteen (bittien lukumäärä, B), käytä kaavaa:
B:n arvo osoittaa, kuinka samankaltaisia sekvenssit ovat (mitä suurempi bittien määrä, sitä suurempi samankaltaisuus). Koska K- ja P-indikaattorit sisältyvät B:n laskentakaavaan, niitä ei tarvitse määritellä B:n arvoja tuodaessa. Indikaattoria B vastaava E:n arvo (E-arvo) osoittaa luotettavuuden tästä kohdistuksesta (mitä pienempi E:n arvo, sitä luotettavampi kohdistus). Se määritetään kaavalla:
BLAST-ohjelmat määrittävät pääasiallisesti E:n arvon P:n sijaan (todennäköisyys, että on vähintään yksi HSP, jonka pistemäärä on suurempi tai yhtä suuri kuin S). Mutta kun E < 0,01, P- ja E-arvot ovat melkein identtiset.
E:n arvo määritetään kaavalla (2), kun verrataan vain kahta aminohappo- tai nukleotidisekvenssiä. Tutkitun pituisen m sekvenssin vertailu tietokantasekvenssien joukkoon voi perustua kahteen oletukseen. Ensimmäinen oletus on, että kaikki tietokantasekvenssit ovat yhtä samanlaisia kuin tutkittava. Tämä tarkoittaa, että E:n arvo rinnastukselle tietokannan sisältämän lyhyen sekvenssin kanssa tulisi rinnastaa E:n arvoon kohdistamiselle pitkän sekvenssin kanssa. Laskeaksesi E:n arvon tietokannasta, sinun on kerrottava parittaisella vertailulla saatu E:n arvo siinä olevien sekvenssien lukumäärällä. Toinen oletus on, että tutkittava sekvenssi muistuttaa enemmän lyhyitä kuin pitkiä sekvenssejä, koska jälkimmäiset koostuvat usein eri alueista (monet proteiinit koostuvat domeeneista). Olettaen, että samankaltaisuuden todennäköisyys on verrannollinen sekvenssin pituuteen, n pituisen tietokantasekvenssin parikohtainen arvo E on kerrottava N/n:llä, missä N on tietokannan aminohappojen tai nukleotidien kokonaispituus. BLAST-ohjelmat käyttävät pääasiassa tätä lähestymistapaa E-arvojen laskemiseen tietokannasta.
Teoreettisesti paikallinen rinnastus voi alkaa mistä tahansa kohdistettujen sekvenssien nukleotidi- tai aminohappoparista. HPS ei kuitenkaan yleensä ala läheltä sekvenssien reunaa (alkua tai loppua). Tällaisen reunavaikutuksen korjaamiseksi on tarpeen laskea sekvenssien tehollinen pituus. Yli 200 tähdettä pitkien sekvenssien tapauksessa reunavaikutus neutraloituu.