RÄJÄHDYS

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 22. helmikuuta 2021 tarkistetusta versiosta . tarkastukset vaativat 7 muokkausta .
RÄJÄHDYS
Tyyppi bioinformatiikka
Kehittäjä Steven Altschul , Warren Gish , Webb Miller , Eugene Myers ja David Lipman ( NCBI )
Sisään kirjoitettu C++ ja C
Käyttöjärjestelmä UNIX , Linux , Apple Macintosh , Microsoft Windows
uusin versio 2.13.0 (17.03.2022)
Luettavat tiedostomuodot XML BLAST -lähtö [d]
Luodut tiedostomuodot XML BLAST -lähtö [d]
Lisenssi julkista
Verkkosivusto ftp.ncbi.nlm.nih.gov/bla…

BLAST ( Basic L ocal A  lignment Search Tool ) on  tietokoneohjelmien perhe , jota käytetään samankaltaisten aminohappo- tai nukleotidisekvenssien etsimiseen [1] . BLASTin avulla tutkija voi verrata hallussaan olevaa sekvenssiä tietokannan sekvensseihin ja löytää oletettuja homologeja. Se on olennainen työkalu molekyylibiologeille, bioinformatikoille ja taksonomisteille. BLAST-ohjelman kehitti joukko tutkijoita: Stephen Altschul , Warren Gish , Webb Miller , Eugene Myers ja David Lipman Yhdysvaltain kansallisissa terveysinstituuteissa . Ensimmäinen ohjelmaa kuvaava julkaisu julkaistiin Journal of Molecular Biology -lehdessä vuonna 1990 [2] .

BLAST-sarjan ohjelmien luokittelu

BLAST-sarjan ohjelmaperhe on jaettu 4 pääryhmään:

Nukleotidi

suunniteltu vertaamaan tutkittua nukleotidisekvenssiä sekvensoitujen genomien ja niiden alueiden tietokantaan:

Proteiini

on suunniteltu vertaamaan tutkittua proteiinin aminohapposekvenssiä olemassa olevaan proteiinien ja niiden fragmenttien tietokantaan.

Broadcasters

pystyy muuttamaan nukleotidisekvenssejä aminohapoiksi ja päinvastoin:

Special

BLASTia käyttävät sovellusohjelmat:

Kuinka BLAST toimii

Kaikki rinnastukset jaetaan yleensä globaaleihin (sekvenssejä verrataan kokonaan) ja paikallisiin (vain tiettyjä jaksoja verrataan). BLAST-sarjan ohjelmat tuottavat paikallisia kohdistuksia, mikä liittyy samanlaisten domeenien ja kuvioiden esiintymiseen eri proteiineissa. Lisäksi paikallinen kohdistus mahdollistaa mRNA:n vertailun genomisen DNA:n kanssa. Globaalin kohdistuksen tapauksessa sekvenssien samankaltaisuutta on vähemmän, erityisesti niiden domeeneissa ja kuvioissa.

Kun tutkittu nukleotidi- tai aminohapposekvenssi (pyyntö) on syötetty yhdelle BLAST-verkkosivuista, se lähetetään yhdessä muiden syötetietojen (tietokanta, "sanan" (osion) koko, E-arvo jne.) kanssa palvelimelle. BLAST luo taulukon kaikista "sanoista" (proteiinissa tämä on sekvenssiosio, joka koostuu oletuksena kolmesta aminohaposta ja nukleiinihapoille 11 nukleotidista) ja vastaavista "sanoista".

Sitten ne etsitään tietokannasta. Kun vastaavuus löytyy, "sanan" kokoa yritetään laajentaa (enintään 4 aminohappoa ja 12 tai enemmän nukleotidia), ensin ilman aukkoja (aukoja) ja sitten käyttämällä niitä. Tutkitun sekvenssin kaikkien mahdollisten "sanojen" kokojen maksimilaajentamisen jälkeen määritetään kullekin kysely-tietokanta-sekvenssiparille kohdistukset maksimivastineiden lukumäärällä ja saatu informaatio kiinnitetään SeqAlign-rakenteeseen. BLAST-palvelimella oleva muotoilija käyttää SeqAlignin tietoja ja esittää ne eri tavoilla (perinteinen, graafinen, taulukkomuotoinen).

Jokaiselle BLAST-ohjelmien tietokannasta löytämälle sekvenssille on tarpeen määrittää, kuinka samanlainen se on tutkittavan sekvenssin (kyselyn) kanssa ja onko tämä samankaltaisuus merkittävää. Tätä varten BLAST laskee bittien määrän ja E:n arvon (odotettu arvo, E-arvo) kullekin sekvenssiparille.

Samankaltaisuuden määrittämisessä avainelementti on substituutiomatriisi, koska se määrittää minkä tahansa mahdollisen nukleotidi- tai aminohappoparin samankaltaisuuspisteet. Useimmat BLAST-sarjan ohjelmat käyttävät BLOSUM62-matriisia (Blocks Substitution -matriisi 62 % identtisyys, lohkokorvausmatriisi 62 % identtisuudella). Poikkeuksia ovat blastn ja megablast (ohjelmat, jotka suorittavat nukleotidi-nukleotidivertailuja eivätkä käytä aminohapposubstituutiomatriiseja).

Muokattuja Smith-Waterman- tai Sellers-algoritmeja käyttämällä määritetään kaikki segmenttiparit (laajennetut "sanat"), joita ei voi lisätä, koska tämä johtaa samankaltaisuuspisteiden laskuun. Tällaisia ​​laajennettujen "sanojen" pareja kutsutaan segmenteiksi, joilla on maksimaalinen samankaltaisuus (korkean pisteytyksen segmenttiparit, HSP). Jos tutkittavien sekvenssien (m) ja tietokantasekvenssin (n) pituus on riittävän suuri, HSP:n samankaltaisuusindikaattoreita luonnehditaan kahdella parametrilla K (hakualueen koko) ja P (laskentajärjestelmät). Nämä indikaattorit on ilmoitettava, kun tuodaan tutkitun sekvenssin ja tietokannan sekvenssin (S) samankaltaisuusindikaattorit.

Eri kohdistusten samankaltaisuuspisteiden vertaamiseksi käytetystä matriisista riippumatta ne on muunnettava. Saadaksesi muunnetun samankaltaisuuspisteen (bittien lukumäärä, B), käytä kaavaa:

B:n arvo osoittaa, kuinka samankaltaisia ​​sekvenssit ovat (mitä suurempi bittien määrä, sitä suurempi samankaltaisuus). Koska K- ja P-indikaattorit sisältyvät B:n laskentakaavaan, niitä ei tarvitse määritellä B:n arvoja tuodaessa. Indikaattoria B vastaava E:n arvo (E-arvo) osoittaa luotettavuuden tästä kohdistuksesta (mitä pienempi E:n arvo, sitä luotettavampi kohdistus). Se määritetään kaavalla:

BLAST-ohjelmat määrittävät pääasiallisesti E:n arvon P:n sijaan (todennäköisyys, että on vähintään yksi HSP, jonka pistemäärä on suurempi tai yhtä suuri kuin S). Mutta kun E < 0,01, P- ja E-arvot ovat melkein identtiset.

E:n arvo määritetään kaavalla (2), kun verrataan vain kahta aminohappo- tai nukleotidisekvenssiä. Tutkitun pituisen m sekvenssin vertailu tietokantasekvenssien joukkoon voi perustua kahteen oletukseen. Ensimmäinen oletus on, että kaikki tietokantasekvenssit ovat yhtä samanlaisia ​​kuin tutkittava. Tämä tarkoittaa, että E:n arvo rinnastukselle tietokannan sisältämän lyhyen sekvenssin kanssa tulisi rinnastaa E:n arvoon kohdistamiselle pitkän sekvenssin kanssa. Laskeaksesi E:n arvon tietokannasta, sinun on kerrottava parittaisella vertailulla saatu E:n arvo siinä olevien sekvenssien lukumäärällä. Toinen oletus on, että tutkittava sekvenssi muistuttaa enemmän lyhyitä kuin pitkiä sekvenssejä, koska jälkimmäiset koostuvat usein eri alueista (monet proteiinit koostuvat domeeneista). Olettaen, että samankaltaisuuden todennäköisyys on verrannollinen sekvenssin pituuteen, n pituisen tietokantasekvenssin parikohtainen arvo E on kerrottava N/n:llä, missä N on tietokannan aminohappojen tai nukleotidien kokonaispituus. BLAST-ohjelmat käyttävät pääasiassa tätä lähestymistapaa E-arvojen laskemiseen tietokannasta.

Teoreettisesti paikallinen rinnastus voi alkaa mistä tahansa kohdistettujen sekvenssien nukleotidi- tai aminohappoparista. HPS ei kuitenkaan yleensä ala läheltä sekvenssien reunaa (alkua tai loppua). Tällaisen reunavaikutuksen korjaamiseksi on tarpeen laskea sekvenssien tehollinen pituus. Yli 200 tähdettä pitkien sekvenssien tapauksessa reunavaikutus neutraloituu.

Katso myös

Muistiinpanot

  1. Pertsemlidis A, Fondon JW (2001). "BLAST-harjoitus bioinformatiikan kanssa (ja BLASTphemian välttäminen)". Genomibiologia . 2 (10): arvostelut2002.1. DOI : 10.1186/gb-2001-2-10-reviews2002 . PMID  11597340 .
  2. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990). "Paikallisen kohdistuksen perushakutyökalu". Journal of Molecular Biology . 215 (3): 403-410. DOI : 10.1016/S0022-2836(05)80360-2 . PMID2231712  . _
  3. Boratyn GM, Schäffer AA, Agarwala R, Altschul SF, Lipman DJ, Madden TL (2012). "Domainin tehostettu hakuaika nopeutti BLASTin". Biology Direct . 7:12 . DOI : 10.1186/1745-6150-7-12 . PMID  22510480 .

Linkit