Usean sekvenssin kohdistus

Multiple sequence alignment ( englanniksi multiple sequence  alignment , MSA ) - kolmen tai useamman biologisen sekvenssin, yleensä proteiinien , DNA :n tai RNA :n, rinnastaminen . Useimmissa tapauksissa oletetaan, että sekvenssien syötejoukolla on evolutionaarinen suhde. Useita rinnastuksia käyttämällä sekvenssien evoluutionaalinen alkuperä voidaan arvioida fylogeneettisen analyysin avulla.

Kohdistuksen visuaalinen esitys kuvaa mutaatiotapahtumia pistemutaatioina ( muutoksia yhdessä aminohapossa tai nukleotidissa ) erillisinä merkkeinä yhdessä kohdistussarakkeessa sekä niiden insertioita ja deleetioita (esitetty yhdysviivalla , aukkoja).

Useita sekvenssien rinnastuksia käytetään usein arvioimaan proteiinidomeenien , tertiääristen ja sekundaaristen rakenteiden ja jopa yksittäisten aminohappotähteiden tai nukleotidien säilymistä .

Koska laskennallinen monimutkaisuus on suurempi parikohtaiseen kohdistukseen verrattuna, monitasaus vaatii monimutkaisempia algoritmeja. Monet asiaan liittyvät ohjelmat käyttävät heuristisia algoritmeja, koska globaalin optimaalisen kohdistuksen löytäminen monille sekvensseille voi olla hyvin aikaa vievää.

Dynaaminen ohjelmointi ja laskennallinen monimutkaisuus

Globaalin optimaalisen kohdistuksen muodostamiseksi käytetään suoraan dynaamista ohjelmointia . Proteiinisekvenssejä varten on olemassa kaksi parametrijoukkoa: aukon sakko ja substituutiomatriisi, joka sisältää todennäköisyydet parin yhteensopivuuteen perustuen niiden kemiallisten ominaisuuksien samanlaisuuteen ja mutaation evolutionaariseen todennäköisyyteen. Nukleotidisekvensseille käytetään myös aukon sakkoa, mutta substituutiomatriisi on paljon yksinkertaisempi, se ottaa huomioon vain täydelliset nukleotidien yhteensopimattomuudet tai yhteensopimattomuudet, eli täydelliset yhteensopimattomuudet [1] .

N:lle yksittäiselle sekvenssille naiivi menetelmä edellyttää n-ulotteisen vastineen muodostamista matriisille, jota käytetään parittaiseen kohdistukseen. Kun n kasvaa, hakuavaruus kasvaa eksponentiaalisesti . Siten naiivilla algoritmilla on laskennallinen monimutkaisuus O (sekvenssien pituus Nsekvenssit ). Globaalin optimin löytäminen n sekvenssille on NP-täydellinen ongelma [2] [3] [4] .

Vuonna 1989 Altschul esitteli Carrillo-Lipman-algoritmiin [5] perustuen käytännöllisen lähestymistavan, joka käytti parittaista kohdistusta n-ulotteisen hakuavaruuden rajoittamiseen [6] . Tällä lähestymistavalla dynaaminen ohjelmointi suoritetaan jokaiselle sekvenssiparille tulojoukosta ja vain aluetta, joka sijaitsee lähellä näiden polkujen n-ulotteista leikkauspistettä, etsitään. Ohjelma optimoi kaikkien merkkiparien summan tasauksen jokaisessa kohdassa (parien painojen summa) [7]

Progressiivinen kohdistus

Laajasti käytetty lähestymistapa on progressiivinen kohdistus käyttäen Paulien Hogewegin ja Ben Hesperin vuonna 1984 kehittämää heuristista algoritmia [8] . Kaikissa progressiivisissa kohdistusmenetelmissä on kaksi tärkeää vaihetta: binääripuun ( polkupuun) rakentaminen, jossa lehdet ovat sekvenssejä, ja moninkertaisen kohdistuksen rakentaminen lisäämällä sekvenssejä kasvavaan kohdistukseen polkupuun mukaisesti. Itse polkupuu voidaan rakentaa klusterointimenetelmillä, kuten UPGMA ja naapuriliitos [9] .

Progressiivinen kohdistus ei takaa globaalia optimaalista kohdistusta. Ongelmana on, että missä tahansa kasvavan moninkertaisen kohdistuksen vaiheessa syntyvät virheet päätyvät lopulliseen kohdistukseen. Lisäksi kohdistus voi olla erityisen huono, jos sekvenssit ovat hyvin kaukana toisistaan. Useimmissa nykyaikaisissa progressiivisissa menetelmissä on modifioitu painotusfunktio, jossa on toissijainen painotusfunktio, joka määrittää kertoimet tietojoukon yksittäisille elementeille epälineaarisesti perustuen niiden fylogeneettiseen etäisyyteen lähimmistä naapureista [9] .

Progressiiviset kohdistusmenetelmät ovat riittävän tehokkaita, jotta niitä voidaan soveltaa suureen määrään (100-1000) sekvenssejä. Suosituin progressiivinen kohdistusmenetelmä kuuluu Clustal [10] -perheeseen , erityisesti painotettu ClustalW [11] -variantti , johon pääsee portaaleista kuten GenomeNet , EBI , EMBNet Arkistoitu 1. toukokuuta 2011 Wayback Machinessa . ClustalW:tä käytetään aktiivisesti fylogeneettisten puiden rakentamiseen huolimatta kirjoittajan varoituksista, että tarkistamattomia linjauksia ei tule käyttää puun rakentamisessa tai syötteenä proteiinirakenteen ennustamiseen . Clustalin nykyinen versio on Clustal Omega, joka perustuu polkupuihin ja HMM-profiiliprofiilimenetelmiin proteiinien kohdistuksissa. Erilaisia ​​työkaluja ehdotetaan myös DNA-sekvenssien progressiivisten rinnastusten rakentamiseen. Yksi niistä on MAFFT ( Multiple Alignment using Fast Fourier Transform ) [12] . 

Toinen yleinen progressiivinen kohdistusmenetelmä, T-Coffee [13] , on hitaampi kuin Clustal ja sen johdannaiset, mutta tuottaa yleensä tarkempia rinnastuksia kaukaa sukua oleville sekvensseille. T-Coffee rakentaa parillisten kohdistusten kirjaston, jota se käyttää sitten useiden kohdistusten rakentamiseen.

Koska progressiiviset menetelmät ovat heuristisia, niiden ei voida taata lähentyvän globaaliin optimiin; linjauksen laatua ja sen biologista merkitystä voi olla vaikea arvioida. Puoliprogressiivinen menetelmä, joka parantaa kohdistuksen laatua eikä käytä häviöllistä heuristiikkaa, tehdään polynomiajassa ( PSAlign Arkistoitu 18. heinäkuuta 2011 Wayback Machinessa ) [14] .

Iteratiiviset menetelmät

Joukko menetelmiä useiden kohdistusten muodostamiseksi, jotka vähentävät progressiivisten menetelmien periytyviä virheitä, luokitellaan " iteratiiviseksi ". Ne toimivat samalla tavalla kuin progressiiviset menetelmät, mutta ne järjestävät toistuvasti alkuperäiset kohdistukset uudelleen, kun uusia sekvenssejä lisätään. Progressiiviset menetelmät ovat erittäin riippuvaisia ​​alkuperäisten kohdistusten laadusta, koska ne päätyvät lopputulokseen ennallaan ja siten virheellisesti. Toisin sanoen, jos sekvenssi on jo linjassa, sen lisäsijainti ei muutu. Tämä likiarvo parantaa tehokkuutta, mutta vaikuttaa negatiivisesti tuloksen tarkkuuteen. Toisin kuin progressiiviset menetelmät, iteratiiviset menetelmät voivat palata alunperin laskettuihin parikohtaisiin kohdistuksiin ja alikohdistukseen, jotka sisältävät kyselyn sekvenssien osajoukkoja, ja siten optimoida yleisen tavoitefunktion ja parantaa laatua [9] .

Iteratiivisia menetelmiä on laaja valikoima. Esimerkiksi PRRN/PRRP käyttää vertex-kiipeilyalgoritmia useiden kohdistusten painon optimoimiseen [15] ja säätää iteratiivisesti kohdistuspainotuksia ja monivälialueen [9] . PRRP toimii tehokkaammin, kun se parantaa aiemmin nopealla menetelmällä rakennettua kohdistusta [9] .

Toinen iteratiivinen ohjelma, DIALIGN , omaksuu epätavallisen lähestymistavan keskittymällä alasegmenttien tai sekvenssimotiivien paikallisiin kohdistuksiin ottamatta käyttöön aukkoja [16] . Yksittäisten motiivien kohdistus esitetään matriisimuodossa, kuten pistekuvaaja parikohdistuksessa. CHAOS/DIALIGN-ohjelmistossa [16] on vaihtoehtoinen menetelmä, joka käyttää nopeita paikallisia kohdistuksia ankkuripisteinä hitaamman globaalin kohdistuksen rakentamismenettelyyn .

Kolmas suosittu iteratiivinen menetelmä on nimeltään MUSCLE. Se on parannus progressiivisiin menetelmiin, koska se käyttää tarkempia etäisyyksiä kahden sekvenssin välisen suhteen arvioimiseen [17] . Etäisyydet päivitetään iteraatioiden välillä (vaikka MUSCLE sisälsi alun perin vain 2-3 iteraatiota).

Consensus Methods

Konsensusmenetelmillä yritetään valita optimaalinen monitasaus saman syöttödatajoukon erilaisista useista tasauksista. On olemassa kaksi yleisintä konsensusmenetelmää: M-COFFEE ja MergeAlign [18] . M-COFFEE käyttää useita tasauksia, jotka on luotu 7 eri menetelmällä konsensuskohdistusten saamiseksi. MergeAlign pystyy luomaan konsensuskohdistuksia mistä tahansa määrästä syötekohdistuksia, jotka on johdettu erilaisista sekvenssin kehitysmalleista ja rakennusmenetelmistä. MergeAlignin oletusvaihtoehto on johtaa konsensuskohdistus käyttämällä rinnastuksia, jotka on johdettu 91 erilaisesta proteiinisekvenssin evoluution mallista.

Piilotetut Markov-mallit

Piilotetut Markov-mallit (HMM) ovat todennäköisyysmalleja, jotka voivat arvioida kaikkien mahdollisten aukkojen, osumien tai epäsopivuuksien yhdistelmien todennäköisyyden määrittääkseen niiden todennäköisimmän moninkertaisen kohdistuksen tai joukon. HMM:t voivat tuottaa yhden korkeapainoisen kohdistuksen, mutta ne voivat myös luoda perheen mahdollisia kohdistuksia, jotka voidaan sitten arvioida niiden biologisen merkityksen suhteen. HMM:iä voidaan käyttää sekä globaalien että paikallisten kohdistusten saamiseksi. Vaikka HMM-pohjaiset menetelmät ovat suhteellisen uusia, ne ovat osoittautuneet menetelmiksi, joilla on merkittävästi parantunut laskennallinen monimutkaisuus, erityisesti sekvensseissä, jotka sisältävät päällekkäisiä alueita [9] .

HMM:ään perustuvat standardimenetelmät edustavat moninkertaista kohdistusta suunnatun asyklisen graafin muodossa , joka tunnetaan osittaisen järjestyksen graafina, joka koostuu sarjasta solmuja, jotka edustavat kohdistussarakkeiden mahdollisia tiloja. Tässä esityksessä täysin konservatiivinen sarake (ts. usean kohdistuksen sekvensseillä on tietty merkki kyseisessä paikassa) on koodattu yhdeksi solmuksi, jossa on monia lähteviä yhteyksiä, joiden merkit ovat mahdollisia seuraavassa kohdistuskohdassa. Standardin Hidden Markov -mallin kannalta havaitut tilat ovat yksittäisiä kohdistussarakkeita, ja "piilotetut" tilat edustavat oletettua esi-isän sekvenssiä, josta syötejoukon sekvenssit olisivat voineet laskea. Tehokas dynaaminen ohjelmointitekniikka, Viterbi-algoritmi , on laajalti käytössä hyvän kohdistuksen saavuttamiseksi [19] . Se eroaa progressiivisista menetelmistä siinä, että ensimmäisten sekvenssien kohdistus järjestetään uudelleen, kun jokainen uusi sekvenssi lisätään. Progressiivisten menetelmien tapaan tähän algoritmiin voi kuitenkin vaikuttaa järjestys, jossa syötejoukon sekvenssit tulevat kohdistukseen, erityisesti evoluutionaalisesti löyhästi kytkettyjen sekvenssien tapauksessa [9] .

Vaikka HMM-menetelmät ovat monimutkaisempia kuin yleisesti käytetyt progressiiviset menetelmät, on olemassa useita ohjelmia kohdistusten saamiseksi, kuten POA [20] , sekä samanlainen, mutta yleisempi menetelmä SAM [21] ja HMMER [22] paketeissa . SAM:ia käytetään linjausten saamiseksi proteiinirakenteen ennustamista varten CASP -kokeessa hiivan proteiineille. HH-hakua, joka perustuu HMM:ien parittaiseen vertailuun, käytetään etäältä sukua olevien sekvenssien etsimiseen. HHsearchia (HHpred) suorittava palvelin oli nopein 10 suurimmasta automaattisesta proteiinirakenteen ennustamisesta CASP7:ssä ja CASP8:ssa [23] .

Geneettiset algoritmit ja hehkutusmallinnus

Tietojenkäsittelytieteen vakiooptimointitekniikoita, jotka mahdollistavat mallinnuksen, mutta eivät suoraan toista fyysistä prosessia, käytetään myös useiden kohdistusten rakentamiseen tehokkaammin. Yhtä tällaista tekniikkaa, geneettistä algoritmia , on käytetty usean sekvenssin rinnastuksen rakentamiseen, joka perustuu hypoteettiseen evoluutioprosessiin, joka tarjosi sekvenssien eron. Tämä menetelmä toimii jakamalla sarjan mahdollisia MSA:ita paloiksi ja järjestämällä ne uudelleen ottamalla käyttöön taukoja eri paikoissa. Päätavoitteen funktio optimoidaan tämän prosessin aikana, yleensä maksimoimalla "parisummia" käyttämällä dynaamisia ohjelmointitekniikoita. Tämä menetelmä on toteutettu proteiinisekvensseille SAGA-ohjelmistossa ( Sequence Alignment by Genetic Algorithm )  [ 24] ja RNA-sekvensseille RAGAssa [25] .

Simulaatiohehkutusmenetelmää käyttämällä olemassa olevaa eri menetelmällä rakennettua monilinjausta jalostetaan sarjassa uudelleenjärjestelyjä, jotta löydetään parempia kohdistusalueita kuin se oli aiemmin. Kuten geneettisen algoritmin tapauksessa, hehkutussimulaatio maksimoi tavoitefunktion parien summien funktiona. Hehkutussimulaatiossa käytetään ehdollista "lämpötilatekijää", joka määrittää tapahtuvien uudelleenjärjestelyjen tason ja kunkin uudelleenjärjestelyn todennäköisyystason. On tyypillistä käyttää vuorottelevia korkean uudelleenkohdistuksen ja alhaisen todennäköisyyden jaksoja (kohdistusalueen syrjäisimpien alueiden löytämiseksi) alhaisten uudelleenkohdistusjaksojen ja suuren todennäköisyyden jaksojen kanssa tutkiakseen tarkemmin paikallisia minimejä uusien kohdistussarakkeiden lähellä. Tämä lähestymistapa otettiin käyttöön MSASA-ohjelmassa ( Multiple Sequence Alignment by  Simulated Hehkutus ) [26] .

Fylogeneettiseen analyysiin perustuvat menetelmät

Useimmat useat kohdistusmenetelmät yrittävät minimoida lisäysten/poistojen (aukot) määrän, mikä johtaa kompakteihin kohdistuksiin. Tämä lähestymistapa voi johtaa kohdistusvirheisiin, jos kohdistetut sekvenssit sisälsivät ei-homologisia alueita ja jos aukot ovat informatiivisia fylogeneettisessä analyysissä. Nämä ongelmat ovat yleisiä uusissa sekvensseissä, jotka ovat huonosti merkittyjä ja voivat sisältää kehyssiirtymiä , vääriä verkkotunnuksia tai ei-homologisia silmukoituneita eksoneja .

Ensimmäisen fylogenianalyysiin perustuvan menetelmän kehittivät Loitinoge ja Goldman vuonna 2005 [27] . Vuonna 2008 samat kirjoittajat julkaisivat vastaavan ohjelmiston - PRANK [28] . PRANK parantaa kohdistuksia, kun on lisäyksiä. Se on kuitenkin hitaampi kuin vuosia aiemmin kehitetyt progressiiviset ja/tai iteratiiviset menetelmät [29] .

Vuonna 2012 ilmestyi kaksi uutta fylogeneettiseen analyysiin perustuvaa menetelmää. Ensimmäisen, nimeltä PAGAN, kehitti PRANK-tiimi, ja toisen, nimeltä ProGraphMSA, kehitti Zhalkovsky [30] . Niiden ohjelmistot kehitettiin itsenäisesti, mutta niillä on yhteisiä piirteitä: molemmat käyttävät graafialgoritmeja parantaakseen ei-homologisten alueiden tunnistamista, ja koodin parannukset tekevät niistä nopeampia kuin PRANK .

Etsi motiiveja

Motiivihaku tai muuten profilointi on menetelmä motiivin sijainnin löytämiseksi globaalissa moninkertaisessa kohdistuksessa keinona saada paras MSA ja tuloksena olevan matriisin keskimääräinen paino, jotta sitä voidaan käyttää muiden samankaltaisten sekvenssien etsimiseen. motiiveja. Motiivien määrittämiseen on kehitetty monia menetelmiä, mutta ne kaikki perustuvat lyhyiden, erittäin konservoituneiden kuvioiden löytämiseen suuremmassa kohdistuskuviossa ja substituutiomatriisin kaltaisen matriisin rakentamiseen. Tämä matriisi heijastaa nukleotidi- tai aminohappokoostumusta oletetun motiivin kussakin kohdassa. Kohdistus voidaan sitten tarkentaa käyttämällä näitä matriiseja. Standardiprofiilianalyysissä tämä matriisi sisältää merkinnät sekä jokaiselle mahdolliselle symbolille että aukolle [9] . Sitä vastoin tilastollinen kuviohakualgoritmi etsii ensin motiiveja ja käyttää sitten löydettyjä motiiveja moninkertaisen kohdistuksen rakentamiseen. Monissa tapauksissa, kun alkuperäinen sekvenssijoukko sisältää pienen määrän sekvenssejä tai vain hyvin samankaltaisia ​​sekvenssejä, pseudo -määrät lisätään normalisoimaan painomatriisissa heijastuvaa jakaumaa. Erityisesti se auttaa välttämään nollia todennäköisyysmatriisissa, jotta paikkapainomatriisiin ei saada äärettömän arvoa .

Lohkoanalyysi on motiivien hakumenetelmä, joka suoritetaan aukottomilla kohdistusalueilla. Lohkoja voidaan generoida useista rinnastuskohdista tai johtaa väärin kohdistetuista sekvensseistä ennalta laskemalla useita yhteisiä motiiveja tunnetuista geeniperheistä [31] . Lohkon estimointi perustuu yleensä korkeataajuisten symbolien avaruuteen eikä korvausmatriisien eksplisiittiseen laskentaan. BLOCKS - palvelin tarjoaa vaihtoehtoisen menetelmän tällaisten motiivien paikallistamiseksi kohdistamattomissa sekvensseissä.

Tilastollinen mallisovitus suoritetaan käyttämällä odotusten maksimointia ja Gibbsin näytteenottoalgoritmia . Motiivien etsimiseen yleisimmin käytetty palvelin on MEME , joka käyttää odotusten maksimointialgoritmia ja piilotettujen Markov-mallien menetelmää sekä MEME/MAST [32] [33] , joka käyttää lisäksi MAST-algoritmia.

Ei-koodaavien sekvenssien moninkertainen kohdistus

Jotkut DNA:n ei-proteiinia koodaavat alueet, erityisesti transkriptiotekijän sitomiskohdat (TFBS), ovat konservoituneempia eivätkä välttämättä ole evoluution suhteen sukua, koska nämä kohdat voivat esiintyä ei-homologisissa sekvensseissä. Siten proteiinisekvenssien ja DNA:ta koodaavien alueiden rinnastamiseen käytetyt oletukset eivät ole sopivia transkriptiotekijän sitoutumiskohtien sekvensseille. Vaikka on järkevää kohdistaa proteiinia koodaavia DNA-alueita homologisille sekvensseille käyttämällä mutaatiooperaattoreita, saman transkriptiotekijän sitoutumiskohdan sekvenssien rinnastaminen ei voi perustua evoluutioon liittyviin mutaatiooperaatioihin. Samoin evoluution pistemutaatiooperaattoria voidaan käyttää määrittämään muokkausetäisyyttä koodaaville sekvensseille, mutta siitä on vähän hyötyä transkriptiotekijän sitoutumiskohdan sekvensseille johtuen siitä tosiasiasta, että minkä tahansa sekvenssin muutoksen on säilytettävä tietty spesifisyyden taso sitoutumistoiminnon suorittamiseksi. Tämä tulee erityisen tärkeäksi, kun tarvitaan transkriptiotekijän sitoutumiskohtien sekvenssien rinnastamista havaittavien mallien rakentamiseksi saman TFBS :n tuntemattomien lokusten ennustamiseksi. Siksi useita kohdistusmenetelmiä on mukautettava ottamaan huomioon tärkeimmät evoluutiohypoteesit ja käyttämään tiettyjä operaattoreita, kuten termodynaamisesti herkässä EDNA -menetelmässä sitoutumiskohtien kohdistamiseen [34] .

Kohdistuksen visualisointi ja laadunvalvonta

Tarve käyttää heuristisia lähestymistapoja moninkertaiseen kohdistukseen johtaa siihen, että mielivaltaisesti valittu proteiinijoukko voi kohdistaa väärin suurella todennäköisyydellä. Esimerkiksi joidenkin johtavien kohdistusohjelmien arviointi BAliBase-benchmarkilla [35] osoitti, että vähintään 24 % kaikista kohdistetuista aminohappopareista on kohdistettu väärin [36] . Nämä virheet voivat johtua ainutlaatuisista lisäyksistä yhdessä tai useammassa sekvenssin osassa. Ne voivat myös johtua monimutkaisemmasta evoluutioprosessista, joka johtaa proteiineihin, joita on vaikea kohdistaa peräkkäin yksinään, ja hyvän kohdistuksen saavuttamiseksi sinun on tiedettävä jotain muuta, kuten rakenne. Kun kohdistettujen sekvenssien määrä kasvaa ja niiden erot kasvavat, virhe kasvaa useiden kohdistusalgoritmien heuristisen luonteen vuoksi. Useiden kohdistusten visualisoijien avulla voit arvioida kohdistuksen visuaalisesti usein tarkistamalla kahden tai useamman sekvenssin kohdistamisen laadun huomautuksilla merkittyjen toiminnallisten alueiden osalta. Monet visualisoijat mahdollistavat myös kohdistuksen muokkaamisen korjaamalla (yleensä vähäisiä) virheitä optimaalisen kuratoidun kohdistuksen saamiseksi, joka sopii käytettäväksi fylogeneettisessä analyysissä tai vertailevassa mallintamisessa [37] .

Kuitenkin, kun sekvenssien määrä kasvaa, erityisesti genominlaajuisissa tutkimuksissa, joihin liittyy useita useita rinnastuksia, on mahdotonta kuroida kaikkia rinnastuksia manuaalisesti. Myös manuaalinen kuratointi on subjektiivista. Ja lopuksi, paraskaan asiantuntija ei voi varmuudella kohdistaa monia epäselviä tapauksia hyvin erilaisiin sarjoihin. Tällaisissa tapauksissa on yleinen käytäntö käyttää automaattisia toimenpiteitä useiden kohdistusten epäluotettavasti kohdistettujen alueiden eliminoimiseksi. Fylogeneettisten rekonstruktioiden saamiseksi Gblocks-ohjelmaa käytetään laajalti poistamaan oletettavasti huonolaatuisia kohdistuslohkoja erilaisten sekvenssien lukumäärän rajausten mukaisesti, joissa kohdistussarakkeissa on aukkoja [38] . Samanaikaisesti nämä kriteerit voivat suodattaa liikaa pois alueita, joissa on lisäyksiä/deleetioita, jotka voidaan luotettavasti kohdistaa, ja nämä alueet voivat olla hyödyllisiä positiivisen valinnan tunnistamisessa. Harvat kohdistusalgoritmit tuottavat paikkakohtaisen kohdistuspainon, joka voisi mahdollistaa erittäin konservoituneiden alueiden valinnan. Tämän mahdollisuuden tarjosi ensin SOAP -ohjelma [39] , joka testaa jokaisen sarakkeen kestävyyttä parametrien vaihteluille suositussa ClustalW-kohdistusohjelmassa. T -Coffee [39] -ohjelma käyttää kohdistuskirjastoa luomaan lopullisen moninkertaisen kohdistuksen ja tuottaa moninkertaisen tasauksen, joka on väritetty luottamuspisteiden mukaan, joka kuvastaa kirjaston eri kohdistusten välistä vastaavuutta kullekin kohdistetulle jäännökselle. TCS ( Transitive Consistency Score ) on laajennus, joka käyttää T-Coffeen parittaista kohdistuskirjastoa pisteyttääkseen joka kolmannen monitasauksen .  Pariprojektio voidaan luoda nopeilla tai hitailla menetelmillä, joten laskentanopeuden ja tarkkuuden välillä voidaan löytää kompromissi [40] [41] . Toinen kohdistusohjelma, FSA ( eng. Fast statistical alignment ), käyttää tilastollisia malleja kohdistusvirheen laskemiseen ja voi tuottaa useita kohdistuksia arvioimalla sen luotettavuustasoa. HoT-pisteitä ( Heads -Or-Tails ) voidaan käyttää paikkakohtaisten kohdistusten virheiden mittaamiseen, joissa virheitä voi esiintyä useiden yhteisoptimaalisten ratkaisujen olemassaolon vuoksi. GUIDANCE [42] -ohjelma laskee samanlaisen paikkakohtaisen luottamusmitan ohjauspuun epävarmuuteen kohdistuvan kohdistuksen vakauden perusteella, jota käytetään, kuten edellä mainittiin, progressiivisissa kohdistusohjelmissa . Samanaikaisesti tilastollisesti järkevämpi lähestymistapa kohdistusepävarmuuksien arvioimiseen on käyttää todennäköisyyspohjaisia ​​evoluutiomalleja arvioimaan yhdessä filogeniaa ja kohdistusta. Bayesin lähestymistapa laskee filogeneettisten ja kohdistusestimaattien jälkitodennäköisyydet, jotka mittaavat näiden arvioiden luotettavuustasoa. Tässä tapauksessa posteriorinen todennäköisyys voidaan laskea kullekin kohdistuksen kohdalle. Tämä lähestymistapa on otettu käyttöön Bali-Phy-ohjelmassa [43] .   

Käyttö fylogenetiikassa

Useita sekvenssikohdistuksia voidaan käyttää fylogeneettisen puun rakentamiseen [44] . Tämä on mahdollista kahdesta syystä. Ensinnäkin funktionaalisia domeeneja, jotka tunnetaan annotoiduista sekvensseistä, voidaan käyttää annotoimattomien sekvenssien kohdistamiseen. Toiseksi konservatiivisilla alueilla voi olla toiminnallista merkitystä. Tästä johtuen useita rinnastuksia voidaan käyttää analysoimaan ja löytämään evoluutiosuhteita sekvenssihomologian avulla. Pistemutaatioita ja insertioita/jakaumia voidaan myös havaita [45] .

Konservoituneiden domeenien paikantamista usealla kohdistuksella voidaan myös käyttää tunnistamaan toiminnallisesti tärkeitä paikkoja, kuten sitoutumiskohtia , säätelykohteita tai paikkoja, jotka vastaavat muista avaintoiminnoista. Kun analysoidaan useita kohdistuksia, on hyödyllistä ottaa huomioon erilaiset ominaisuudet. Tällaisia ​​käyttökelpoisia rinnastusominaisuuksia ovat sekvenssi -identtisyys, samankaltaisuus ja homologia . Identiteetti määrittää, että sekvensseillä on samat tähteet vastaavissa kohdissa. Samankaltaisuus määräytyy samanlaisilla tähteillä kvantitatiivisessa suhteessa. Esimerkiksi nukleotidisekvenssien suhteen pyrimidiinejä pidetään samanlaisina keskenään, kuten myös puriineja . Samankaltaisuus johtaa lopulta homologiaan, joten mitä enemmän samankaltaisia ​​sekvenssejä ovat, sitä läheisempiä ne ovat homologeja. Myös sekvenssien samankaltaisuus voi auttaa löytämään yhteisen alkuperän [46] .

Muistiinpanot

  1. Apua sekvenssivertailutyökaluissa käytettyjen matriisien kanssa (downlink) . Euroopan bioinformatiikkainstituutti. Haettu 3. maaliskuuta 2010. Arkistoitu alkuperäisestä 11. maaliskuuta 2010. 
  2. Wang L. , Jiang T. Useiden sekvenssien kohdistamisen monimutkaisuudesta.  (englanniksi)  // Journal of computational Biology : laskennallisen molekyylisolubiologian lehti. - 1994. - Voi. 1, ei. 4 . - s. 337-348. - doi : 10.1089/cmb.1994.1.337 . — PMID 8790475 .
  3. Just W. Useiden sekvenssien kohdistamisen laskennallinen monimutkaisuus SP-pisteiden kanssa.  (englanniksi)  // Journal of computational Biology : laskennallisen molekyylisolubiologian lehti. - 2001. - Voi. 8, ei. 6 . - s. 615-623. - doi : 10.1089/106652701753307511 . — PMID 11747615 .
  4. Elias I. Moninkertaisen kohdistuksen vaikeaselkoisuuden ratkaiseminen.  (englanniksi)  // Journal of computational Biology : laskennallisen molekyylisolubiologian lehti. - 2006. - Voi. 13, ei. 7 . - s. 1323-1339. - doi : 10.1089/cmb.2006.13.1323 . — PMID 17037961 .
  5. Carrillo H., Lipman DJ The Multiple Sequence Alignment Problem in Biology  // SIAM  Journal of Applied Mathematics : päiväkirja. - 1988. - Voi. 48 , no. 5 . - s. 1073-1082 . - doi : 10.1137/0148063 .
  6. Lipman DJ , Altschul SF , Kececioglu JD Työkalu useiden sekvenssien kohdistamiseen.  (englanti)  // Proceedings of the National Academy of Sciences of the United of America. - 1989. - Voi. 86, nro. 12 . - P. 4412-4415. — PMID 2734293 .
  7. Geenianalyysiohjelmisto . National Center for Biotechnology Information. Käyttöpäivä: 3. maaliskuuta 2010. Arkistoitu alkuperäisestä 28. syyskuuta 2009.
  8. Hogeweg P. , Hesper B. Sekvenssien kohdistaminen ja fyleettisten puiden rakentaminen: integroitu menetelmä.  (englanti)  // Journal of Molecular Evolution. - 1984. - Voi. 20, ei. 2 . - s. 175-186. — PMID 6433036 .
  9. 1 2 3 4 5 6 7 8 Mount DM Bioinformatics: Sequence and Genome Analysis 2nd ed. (englanniksi)  // Cold Spring Harbor: Journal. – 2004.
  10. Higgins DG , Sharp PM CLUSTAL: paketti useiden sekvenssien kohdistamiseen mikrotietokoneessa.  (englanniksi)  // Gene. - 1988. - Voi. 73, nro. 1 . - s. 237-244. — PMID 3243435 .
  11. Thompson JD , Higgins DG , Gibson TJ CLUSTAL W: progressiivisen usean sekvenssin kohdistuksen herkkyyden parantaminen sekvenssipainotuksella, paikkakohtaisilla aukkorangaistuksilla ja painomatriisin valinnalla.  (englanniksi)  // Nukleiinihappotutkimus. - 1994. - Voi. 22, ei. 22 . - P. 4673-4680. — PMID 7984417 .
  12. EMBL-EBI-ClustalW2-Multiple Sequence Alignment . CLUSTALW2 . Haettu 12. huhtikuuta 2016. Arkistoitu alkuperäisestä 14. huhtikuuta 2016.
  13. Notredame C. , Higgins DG , Heringa J. T-Coffee: Uusi menetelmä nopeaan ja tarkaan useiden sekvenssien kohdistamiseen.  (Englanti)  // Journal of Molecular Biology. - 2000. - Voi. 302, nro 1 . - s. 205-217. - doi : 10.1006/jmbi.2000.4042 . — PMID 10964570 .
  14. Sze SH , Lu Y. , Yang Q. Usean sekvenssin kohdistamisen polynomiajalla ratkaistava formulaatio.  (englanniksi)  // Journal of computational Biology : laskennallisen molekyylisolubiologian lehti. - 2006. - Voi. 13, ei. 2 . - s. 309-319. - doi : 10.1089/cmb.2006.13.309 . — PMID 16597242 .
  15. Gotoh O. Merkittävä parannus useiden proteiinisekvenssien rinnastuksen tarkkuudessa iteratiivisella tarkennuksella arvioituna rakenteellisten rinnastuksia koskevien vertailujen perusteella.  (Englanti)  // Journal of Molecular Biology. - 1996. - Voi. 264, nro 4 . - s. 823-838. - doi : 10.1006/jmbi.1996.0679 . — PMID 8980688 .
  16. 1 2 Brudno M. , Chapman M. , Göttgens B. , Batzoglou S. , Morgenstern B. Suurien genomisekvenssien nopea ja herkkä moninkertainen rinnastus.  (englanti)  // BMC bioinformatics. - 2003. - Voi. 4. - P. 66. - doi : 10.1186/1471-2105-4-66 . — PMID 14693042 .
  17. Edgar RC MUSCLE: useiden sekvenssien kohdistus suurella tarkkuudella ja suurella suorituskyvyllä.  (englanniksi)  // Nukleiinihappotutkimus. - 2004. - Voi. 32, nro. 5 . - s. 1792-1797. doi : 10.1093 / nar/gkh340 . — PMID 15034147 .
  18. Collingridge PW , Kelly S. MergeAlign: parantaa useiden sekvenssien kohdistamisen suorituskykyä dynaamalla rekonstruoimalla konsensus-monisekvenssikohdistuksia.  (englanti)  // BMC bioinformatics. - 2012. - Vol. 13. - s. 117. - doi : 10.1186/1471-2105-13-117 . — PMID 22646090 .
  19. Hughey R. , Krogh A. Piilotetut Markovin mallit sekvenssianalyysiin: perusmenetelmän laajennus ja analyysi.  (englanti)  // Tietokonesovellukset biotieteissä : CABIOS. - 1996. - Voi. 12, ei. 2 . - s. 95-107. — PMID 8744772 .
  20. Grasso C. , Lee C. Osittaisen järjestyksen kohdistuksen ja progressiivisen monisekvenssikohdistuksen yhdistäminen lisää kohdistusnopeutta ja skaalautuvuutta erittäin suuriin kohdistusongelmiin.  (englanti)  // Bioinformatiikka. - 2004. - Voi. 20, ei. 10 . - s. 1546-1556. - doi : 10.1093/bioinformatics/bth126 . — PMID 14962922 .
  21. Hughey R, Krogh A. SAM: Sekvenssikohdistus- ja mallinnusohjelmistojärjestelmä. Tekninen raportti UCSC-CRL-96-22, University of California, Santa Cruz, CA, syyskuu 1996.
  22. Durbin R, Eddy S, Krogh A, Mitchison G. Biologinen sekvenssianalyysi: proteiinien ja nukleiinihappojen todennäköisyysmallit . - Cambridge University Press, 1998. - ISBN 0-521-63041-4 .
  23. Battey JN , Kopp J. , Bordoli L. , Read RJ , Clarke ND , Schwede T. Automaattiset palvelinennusteet CASP7:ssä.  (englanniksi)  // Proteiinit. - 2007. - Voi. 69 Suppl 8.-P. 68-82. - doi : 10.1002/prot.21761 . — PMID 17894354 .
  24. Notredame C. , Higgins DG SAGA: sekvenssin kohdistus geneettisellä algoritmilla.  (englanniksi)  // Nukleiinihappotutkimus. - 1996. - Voi. 24, nro. 8 . - s. 1515-1524. — PMID 8628686 .
  25. Notredame C. , O'Brien EA , Higgins DG RAGA: RNA-sekvenssin kohdistus geneettisellä algoritmilla.  (englanniksi)  // Nukleiinihappotutkimus. - 1997. - Voi. 25, ei. 22 . - P. 4570-4580. — PMID 9358168 .
  26. Kim J. , Pramanik S. , Chung MJ . Usean sekvenssin kohdistus simuloitua lämpökäsittelyä käyttäen.  (englanti)  // Tietokonesovellukset biotieteissä : CABIOS. - 1994. - Voi. 10, ei. 4 . - s. 419-426. — PMID 7804875 .
  27. Löytynoja A. , Goldman N. Algoritmi sekvenssien progressiiviseen moninkertaiseen rinnastukseen insertioiden kanssa.  (englanti)  // Proceedings of the National Academy of Sciences of the United of America. - 2005. - Voi. 102, nro. 30 . - P. 10557-10562. - doi : 10.1073/pnas.0409137102 . — PMID 16000407 .
  28. Löytynoja A. , Goldman N. Fylogeny-aware gap placement ehkäisee virheet sekvenssien kohdistuksessa ja evoluutioanalyysissä.  (englanti)  // Tiede (New York, NY). - 2008. - Voi. 320, nro. 5883 . - s. 1632-1635. - doi : 10.1126/tiede.1158395 . — PMID 18566285 .
  29. Lupyan D. , Leo-Macias A. , Ortiz AR Uusi progressiivinen iteratiivinen algoritmi useiden rakenteiden kohdistamiseen.  (englanti)  // Bioinformatiikka. - 2005. - Voi. 21, ei. 15 . - P. 3255-3263. - doi : 10.1093/bioinformatics/bti527 . — PMID 15941743 .
  30. Szalkowski AM Nopea ja vankka useiden sekvenssien kohdistus fylogiatietoisella aukkojen sijoittelulla.  (englanti)  // BMC bioinformatics. - 2012. - Vol. 13. - s. 129. - doi : 10.1186/1471-2105-13-129 . — PMID 22694311 .
  31. Henikoff S. , Henikoff JG Proteiinilohkojen automaattinen kokoonpano tietokantahakuun.  (englanniksi)  // Nukleiinihappotutkimus. - 1991. - Voi. 19, ei. 23 . - P. 6565-6572. — PMID 1754394 .
  32. Bailey TL , Elkan C. Seosmallin sovittaminen odotusten maksimoinnilla motiivien löytämiseksi biopolymeereistä.  (englanti)  // Proceedings / ... Kansainvälinen konferenssi älykkäistä molekyylibiologian järjestelmistä; ISMB. Molekyylibiologian älykkäitä järjestelmiä käsittelevä kansainvälinen konferenssi. - 1994. - Voi. 2. - s. 28-36. — PMID 7584402 .
  33. Bailey TL , Gribskov M. Todisteiden yhdistäminen p-arvojen avulla: sovellus sekvenssihomologiahakuihin.  (englanti)  // Bioinformatiikka. - 1998. - Voi. 14, ei. 1 . - s. 48-54. — PMID 9520501 .
  34. Salama RA , Stekel DJ Ei-riippumaton energiapohjainen useiden sekvenssien rinnastaminen parantaa transkriptiotekijän sitoutumiskohtien ennustamista.  (englanti)  // Bioinformatiikka. - 2013. - Vol. 29, ei. 21 . - P. 2699-2704. - doi : 10.1093/bioinformatics/btt463 . — PMID 23990411 .
  35. Bahr A. , ​​Thompson JD , Thierry JC , Poch O. BAliBASE (Benchmark Alignment dataBASE): parannuksia toistoille, transmembraanisille sekvensseille ja ympyrämäisille permutaatioille.  (englanniksi)  // Nukleiinihappotutkimus. - 2001. - Voi. 29, ei. 1 . - s. 323-326. — PMID 11125126 .
  36. Nuin PA , Wang Z. , Tillier ER Useiden proteiinien useiden sekvenssien kohdistusohjelmien tarkkuus.  (englanti)  // BMC bioinformatics. - 2006. - Voi. 7. - P. 471. - doi : 10.1186/1471-2105-7-471 . — PMID 17062146 .
  37. Aidan Budd. MSA:iden (Multiple Sequence Alignments) manuaalinen muokkaaminen ja säätö (downlink) . www.embl.de. Haettu 23. huhtikuuta 2016. Arkistoitu alkuperäisestä 24. syyskuuta 2015. 
  38. Castresana J. Konservoituneiden lohkojen valinta useista kohdistuksista niiden käyttöä varten fylogeneettisessä analyysissä.  (englanti)  // Molekyylibiologia ja evoluutio. - 2000. - Voi. 17, ei. 4 . - s. 540-552. — PMID 10742046 .
  39. 1 2 Löytynoja A. , Milinkovitch MC SOAP, useiden linjausten puhdistus epävakaista lohkoista.  (englanti)  // Bioinformatiikka. - 2001. - Voi. 17, ei. 6 . - s. 573-574. — PMID 11395440 .
  40. Chang JM , Di Tommaso P. , Notredame C. TCS: uusi usean sekvenssin kohdistuksen luotettavuusmitta kohdistustarkkuuden arvioimiseksi ja fylogeneettisen puun rekonstruoinnin parantamiseksi.  (englanti)  // Molekyylibiologia ja evoluutio. - 2014. - Vol. 31, ei. 6 . - s. 1625-1637. - doi : 10.1093/molbev/msu117 . — PMID 24694831 .
  41. Chang JM , Di Tommaso P. , Lefort V. , Gascuel O. , Notredame C. TCS: verkkopalvelin useiden sekvenssien kohdistusten arviointiin ja fylogeneettiseen rekonstruktioon.  (englanniksi)  // Nukleiinihappotutkimus. - 2015. - Vol. 43, nro. W1 . - s. 3-6. - doi : 10.1093/nar/gkv310 . — PMID 25855806 .
  42. Penn O. , Privman E. , Landan G. , Graur D. , Pupko T. Kohdistusluottamuspisteet, jotka kuvaavat kestävyyttä puun epävarmuuden ohjaamiseksi.  (englanti)  // Molekyylibiologia ja evoluutio. - 2010. - Vol. 27, nro. 8 . - s. 1759-1767. - doi : 10.1093/molbev/msq066 . — PMID 20207713 .
  43. Redelings BD , Suchard MA Yhteinen bayesilainen estimaatio kohdistuksesta ja filogeneistä.  (englanti)  // Systemaattinen biologia. - 2005. - Voi. 54, nro. 3 . - s. 401-418. - doi : 10.1080/10635150590947041 . — PMID 16012107 .
  44. Kumar, S. ja Filipski, A. Useita sekvenssien rinnastaminen: pyrittäessä homologisiin DNA-asemiin  // Genomitutkimus. - 2007. - Voi. 17, nro 2 . - s. 127-135. - doi : 10.1101/gr.5232407 .
  45. Barton, NH, Briggs, DEG, Eisen, JA, Goldstein, DB ja Patel, NH Fylogenetic Reconstruction  // Evoluutio. - Cold Spring Harbor, NY: Cold Spring Harbor Laboratory Press, 2007. - ISBN 978-0-87969-684-9 .
    TA Ruskea. DNA-pohjaisten fylogeneettisten puiden rekonstruktio  // Genomit 3. - Garland Science, 2007. - P. 599-609. — ISBN 0-8153-4138-5 .
  46. Aidan Budd. Useita järjestyskohdistuksia: Harjoitukset ja demonstraatiot (linkki ei ole käytettävissä) . www.embl.de. Haettu 23. huhtikuuta 2016. Arkistoitu alkuperäisestä 5. maaliskuuta 2012.