Multiple sequence alignment ( englanniksi multiple sequence alignment , MSA ) - kolmen tai useamman biologisen sekvenssin, yleensä proteiinien , DNA :n tai RNA :n, rinnastaminen . Useimmissa tapauksissa oletetaan, että sekvenssien syötejoukolla on evolutionaarinen suhde. Useita rinnastuksia käyttämällä sekvenssien evoluutionaalinen alkuperä voidaan arvioida fylogeneettisen analyysin avulla.
Kohdistuksen visuaalinen esitys kuvaa mutaatiotapahtumia pistemutaatioina ( muutoksia yhdessä aminohapossa tai nukleotidissa ) erillisinä merkkeinä yhdessä kohdistussarakkeessa sekä niiden insertioita ja deleetioita (esitetty yhdysviivalla , aukkoja).
Useita sekvenssien rinnastuksia käytetään usein arvioimaan proteiinidomeenien , tertiääristen ja sekundaaristen rakenteiden ja jopa yksittäisten aminohappotähteiden tai nukleotidien säilymistä .
Koska laskennallinen monimutkaisuus on suurempi parikohtaiseen kohdistukseen verrattuna, monitasaus vaatii monimutkaisempia algoritmeja. Monet asiaan liittyvät ohjelmat käyttävät heuristisia algoritmeja, koska globaalin optimaalisen kohdistuksen löytäminen monille sekvensseille voi olla hyvin aikaa vievää.
Globaalin optimaalisen kohdistuksen muodostamiseksi käytetään suoraan dynaamista ohjelmointia . Proteiinisekvenssejä varten on olemassa kaksi parametrijoukkoa: aukon sakko ja substituutiomatriisi, joka sisältää todennäköisyydet parin yhteensopivuuteen perustuen niiden kemiallisten ominaisuuksien samanlaisuuteen ja mutaation evolutionaariseen todennäköisyyteen. Nukleotidisekvensseille käytetään myös aukon sakkoa, mutta substituutiomatriisi on paljon yksinkertaisempi, se ottaa huomioon vain täydelliset nukleotidien yhteensopimattomuudet tai yhteensopimattomuudet, eli täydelliset yhteensopimattomuudet [1] .
N:lle yksittäiselle sekvenssille naiivi menetelmä edellyttää n-ulotteisen vastineen muodostamista matriisille, jota käytetään parittaiseen kohdistukseen. Kun n kasvaa, hakuavaruus kasvaa eksponentiaalisesti . Siten naiivilla algoritmilla on laskennallinen monimutkaisuus O (sekvenssien pituus Nsekvenssit ). Globaalin optimin löytäminen n sekvenssille on NP-täydellinen ongelma [2] [3] [4] .
Vuonna 1989 Altschul esitteli Carrillo-Lipman-algoritmiin [5] perustuen käytännöllisen lähestymistavan, joka käytti parittaista kohdistusta n-ulotteisen hakuavaruuden rajoittamiseen [6] . Tällä lähestymistavalla dynaaminen ohjelmointi suoritetaan jokaiselle sekvenssiparille tulojoukosta ja vain aluetta, joka sijaitsee lähellä näiden polkujen n-ulotteista leikkauspistettä, etsitään. Ohjelma optimoi kaikkien merkkiparien summan tasauksen jokaisessa kohdassa (parien painojen summa) [7]
Laajasti käytetty lähestymistapa on progressiivinen kohdistus käyttäen Paulien Hogewegin ja Ben Hesperin vuonna 1984 kehittämää heuristista algoritmia [8] . Kaikissa progressiivisissa kohdistusmenetelmissä on kaksi tärkeää vaihetta: binääripuun ( polkupuun) rakentaminen, jossa lehdet ovat sekvenssejä, ja moninkertaisen kohdistuksen rakentaminen lisäämällä sekvenssejä kasvavaan kohdistukseen polkupuun mukaisesti. Itse polkupuu voidaan rakentaa klusterointimenetelmillä, kuten UPGMA ja naapuriliitos [9] .
Progressiivinen kohdistus ei takaa globaalia optimaalista kohdistusta. Ongelmana on, että missä tahansa kasvavan moninkertaisen kohdistuksen vaiheessa syntyvät virheet päätyvät lopulliseen kohdistukseen. Lisäksi kohdistus voi olla erityisen huono, jos sekvenssit ovat hyvin kaukana toisistaan. Useimmissa nykyaikaisissa progressiivisissa menetelmissä on modifioitu painotusfunktio, jossa on toissijainen painotusfunktio, joka määrittää kertoimet tietojoukon yksittäisille elementeille epälineaarisesti perustuen niiden fylogeneettiseen etäisyyteen lähimmistä naapureista [9] .
Progressiiviset kohdistusmenetelmät ovat riittävän tehokkaita, jotta niitä voidaan soveltaa suureen määrään (100-1000) sekvenssejä. Suosituin progressiivinen kohdistusmenetelmä kuuluu Clustal [10] -perheeseen , erityisesti painotettu ClustalW [11] -variantti , johon pääsee portaaleista kuten GenomeNet , EBI , EMBNet Arkistoitu 1. toukokuuta 2011 Wayback Machinessa . ClustalW:tä käytetään aktiivisesti fylogeneettisten puiden rakentamiseen huolimatta kirjoittajan varoituksista, että tarkistamattomia linjauksia ei tule käyttää puun rakentamisessa tai syötteenä proteiinirakenteen ennustamiseen . Clustalin nykyinen versio on Clustal Omega, joka perustuu polkupuihin ja HMM-profiiliprofiilimenetelmiin proteiinien kohdistuksissa. Erilaisia työkaluja ehdotetaan myös DNA-sekvenssien progressiivisten rinnastusten rakentamiseen. Yksi niistä on MAFFT ( Multiple Alignment using Fast Fourier Transform ) [12] .
Toinen yleinen progressiivinen kohdistusmenetelmä, T-Coffee [13] , on hitaampi kuin Clustal ja sen johdannaiset, mutta tuottaa yleensä tarkempia rinnastuksia kaukaa sukua oleville sekvensseille. T-Coffee rakentaa parillisten kohdistusten kirjaston, jota se käyttää sitten useiden kohdistusten rakentamiseen.
Koska progressiiviset menetelmät ovat heuristisia, niiden ei voida taata lähentyvän globaaliin optimiin; linjauksen laatua ja sen biologista merkitystä voi olla vaikea arvioida. Puoliprogressiivinen menetelmä, joka parantaa kohdistuksen laatua eikä käytä häviöllistä heuristiikkaa, tehdään polynomiajassa ( PSAlign Arkistoitu 18. heinäkuuta 2011 Wayback Machinessa ) [14] .
Joukko menetelmiä useiden kohdistusten muodostamiseksi, jotka vähentävät progressiivisten menetelmien periytyviä virheitä, luokitellaan " iteratiiviseksi ". Ne toimivat samalla tavalla kuin progressiiviset menetelmät, mutta ne järjestävät toistuvasti alkuperäiset kohdistukset uudelleen, kun uusia sekvenssejä lisätään. Progressiiviset menetelmät ovat erittäin riippuvaisia alkuperäisten kohdistusten laadusta, koska ne päätyvät lopputulokseen ennallaan ja siten virheellisesti. Toisin sanoen, jos sekvenssi on jo linjassa, sen lisäsijainti ei muutu. Tämä likiarvo parantaa tehokkuutta, mutta vaikuttaa negatiivisesti tuloksen tarkkuuteen. Toisin kuin progressiiviset menetelmät, iteratiiviset menetelmät voivat palata alunperin laskettuihin parikohtaisiin kohdistuksiin ja alikohdistukseen, jotka sisältävät kyselyn sekvenssien osajoukkoja, ja siten optimoida yleisen tavoitefunktion ja parantaa laatua [9] .
Iteratiivisia menetelmiä on laaja valikoima. Esimerkiksi PRRN/PRRP käyttää vertex-kiipeilyalgoritmia useiden kohdistusten painon optimoimiseen [15] ja säätää iteratiivisesti kohdistuspainotuksia ja monivälialueen [9] . PRRP toimii tehokkaammin, kun se parantaa aiemmin nopealla menetelmällä rakennettua kohdistusta [9] .
Toinen iteratiivinen ohjelma, DIALIGN , omaksuu epätavallisen lähestymistavan keskittymällä alasegmenttien tai sekvenssimotiivien paikallisiin kohdistuksiin ottamatta käyttöön aukkoja [16] . Yksittäisten motiivien kohdistus esitetään matriisimuodossa, kuten pistekuvaaja parikohdistuksessa. CHAOS/DIALIGN-ohjelmistossa [16] on vaihtoehtoinen menetelmä, joka käyttää nopeita paikallisia kohdistuksia ankkuripisteinä hitaamman globaalin kohdistuksen rakentamismenettelyyn .
Kolmas suosittu iteratiivinen menetelmä on nimeltään MUSCLE. Se on parannus progressiivisiin menetelmiin, koska se käyttää tarkempia etäisyyksiä kahden sekvenssin välisen suhteen arvioimiseen [17] . Etäisyydet päivitetään iteraatioiden välillä (vaikka MUSCLE sisälsi alun perin vain 2-3 iteraatiota).
Konsensusmenetelmillä yritetään valita optimaalinen monitasaus saman syöttödatajoukon erilaisista useista tasauksista. On olemassa kaksi yleisintä konsensusmenetelmää: M-COFFEE ja MergeAlign [18] . M-COFFEE käyttää useita tasauksia, jotka on luotu 7 eri menetelmällä konsensuskohdistusten saamiseksi. MergeAlign pystyy luomaan konsensuskohdistuksia mistä tahansa määrästä syötekohdistuksia, jotka on johdettu erilaisista sekvenssin kehitysmalleista ja rakennusmenetelmistä. MergeAlignin oletusvaihtoehto on johtaa konsensuskohdistus käyttämällä rinnastuksia, jotka on johdettu 91 erilaisesta proteiinisekvenssin evoluution mallista.
Piilotetut Markov-mallit (HMM) ovat todennäköisyysmalleja, jotka voivat arvioida kaikkien mahdollisten aukkojen, osumien tai epäsopivuuksien yhdistelmien todennäköisyyden määrittääkseen niiden todennäköisimmän moninkertaisen kohdistuksen tai joukon. HMM:t voivat tuottaa yhden korkeapainoisen kohdistuksen, mutta ne voivat myös luoda perheen mahdollisia kohdistuksia, jotka voidaan sitten arvioida niiden biologisen merkityksen suhteen. HMM:iä voidaan käyttää sekä globaalien että paikallisten kohdistusten saamiseksi. Vaikka HMM-pohjaiset menetelmät ovat suhteellisen uusia, ne ovat osoittautuneet menetelmiksi, joilla on merkittävästi parantunut laskennallinen monimutkaisuus, erityisesti sekvensseissä, jotka sisältävät päällekkäisiä alueita [9] .
HMM:ään perustuvat standardimenetelmät edustavat moninkertaista kohdistusta suunnatun asyklisen graafin muodossa , joka tunnetaan osittaisen järjestyksen graafina, joka koostuu sarjasta solmuja, jotka edustavat kohdistussarakkeiden mahdollisia tiloja. Tässä esityksessä täysin konservatiivinen sarake (ts. usean kohdistuksen sekvensseillä on tietty merkki kyseisessä paikassa) on koodattu yhdeksi solmuksi, jossa on monia lähteviä yhteyksiä, joiden merkit ovat mahdollisia seuraavassa kohdistuskohdassa. Standardin Hidden Markov -mallin kannalta havaitut tilat ovat yksittäisiä kohdistussarakkeita, ja "piilotetut" tilat edustavat oletettua esi-isän sekvenssiä, josta syötejoukon sekvenssit olisivat voineet laskea. Tehokas dynaaminen ohjelmointitekniikka, Viterbi-algoritmi , on laajalti käytössä hyvän kohdistuksen saavuttamiseksi [19] . Se eroaa progressiivisista menetelmistä siinä, että ensimmäisten sekvenssien kohdistus järjestetään uudelleen, kun jokainen uusi sekvenssi lisätään. Progressiivisten menetelmien tapaan tähän algoritmiin voi kuitenkin vaikuttaa järjestys, jossa syötejoukon sekvenssit tulevat kohdistukseen, erityisesti evoluutionaalisesti löyhästi kytkettyjen sekvenssien tapauksessa [9] .
Vaikka HMM-menetelmät ovat monimutkaisempia kuin yleisesti käytetyt progressiiviset menetelmät, on olemassa useita ohjelmia kohdistusten saamiseksi, kuten POA [20] , sekä samanlainen, mutta yleisempi menetelmä SAM [21] ja HMMER [22] paketeissa . SAM:ia käytetään linjausten saamiseksi proteiinirakenteen ennustamista varten CASP -kokeessa hiivan proteiineille. HH-hakua, joka perustuu HMM:ien parittaiseen vertailuun, käytetään etäältä sukua olevien sekvenssien etsimiseen. HHsearchia (HHpred) suorittava palvelin oli nopein 10 suurimmasta automaattisesta proteiinirakenteen ennustamisesta CASP7:ssä ja CASP8:ssa [23] .
Tietojenkäsittelytieteen vakiooptimointitekniikoita, jotka mahdollistavat mallinnuksen, mutta eivät suoraan toista fyysistä prosessia, käytetään myös useiden kohdistusten rakentamiseen tehokkaammin. Yhtä tällaista tekniikkaa, geneettistä algoritmia , on käytetty usean sekvenssin rinnastuksen rakentamiseen, joka perustuu hypoteettiseen evoluutioprosessiin, joka tarjosi sekvenssien eron. Tämä menetelmä toimii jakamalla sarjan mahdollisia MSA:ita paloiksi ja järjestämällä ne uudelleen ottamalla käyttöön taukoja eri paikoissa. Päätavoitteen funktio optimoidaan tämän prosessin aikana, yleensä maksimoimalla "parisummia" käyttämällä dynaamisia ohjelmointitekniikoita. Tämä menetelmä on toteutettu proteiinisekvensseille SAGA-ohjelmistossa ( Sequence Alignment by Genetic Algorithm ) [ 24] ja RNA-sekvensseille RAGAssa [25] .
Simulaatiohehkutusmenetelmää käyttämällä olemassa olevaa eri menetelmällä rakennettua monilinjausta jalostetaan sarjassa uudelleenjärjestelyjä, jotta löydetään parempia kohdistusalueita kuin se oli aiemmin. Kuten geneettisen algoritmin tapauksessa, hehkutussimulaatio maksimoi tavoitefunktion parien summien funktiona. Hehkutussimulaatiossa käytetään ehdollista "lämpötilatekijää", joka määrittää tapahtuvien uudelleenjärjestelyjen tason ja kunkin uudelleenjärjestelyn todennäköisyystason. On tyypillistä käyttää vuorottelevia korkean uudelleenkohdistuksen ja alhaisen todennäköisyyden jaksoja (kohdistusalueen syrjäisimpien alueiden löytämiseksi) alhaisten uudelleenkohdistusjaksojen ja suuren todennäköisyyden jaksojen kanssa tutkiakseen tarkemmin paikallisia minimejä uusien kohdistussarakkeiden lähellä. Tämä lähestymistapa otettiin käyttöön MSASA-ohjelmassa ( Multiple Sequence Alignment by Simulated Hehkutus ) [26] .
Useimmat useat kohdistusmenetelmät yrittävät minimoida lisäysten/poistojen (aukot) määrän, mikä johtaa kompakteihin kohdistuksiin. Tämä lähestymistapa voi johtaa kohdistusvirheisiin, jos kohdistetut sekvenssit sisälsivät ei-homologisia alueita ja jos aukot ovat informatiivisia fylogeneettisessä analyysissä. Nämä ongelmat ovat yleisiä uusissa sekvensseissä, jotka ovat huonosti merkittyjä ja voivat sisältää kehyssiirtymiä , vääriä verkkotunnuksia tai ei-homologisia silmukoituneita eksoneja .
Ensimmäisen fylogenianalyysiin perustuvan menetelmän kehittivät Loitinoge ja Goldman vuonna 2005 [27] . Vuonna 2008 samat kirjoittajat julkaisivat vastaavan ohjelmiston - PRANK [28] . PRANK parantaa kohdistuksia, kun on lisäyksiä. Se on kuitenkin hitaampi kuin vuosia aiemmin kehitetyt progressiiviset ja/tai iteratiiviset menetelmät [29] .
Vuonna 2012 ilmestyi kaksi uutta fylogeneettiseen analyysiin perustuvaa menetelmää. Ensimmäisen, nimeltä PAGAN, kehitti PRANK-tiimi, ja toisen, nimeltä ProGraphMSA, kehitti Zhalkovsky [30] . Niiden ohjelmistot kehitettiin itsenäisesti, mutta niillä on yhteisiä piirteitä: molemmat käyttävät graafialgoritmeja parantaakseen ei-homologisten alueiden tunnistamista, ja koodin parannukset tekevät niistä nopeampia kuin PRANK .
Motiivihaku tai muuten profilointi on menetelmä motiivin sijainnin löytämiseksi globaalissa moninkertaisessa kohdistuksessa keinona saada paras MSA ja tuloksena olevan matriisin keskimääräinen paino, jotta sitä voidaan käyttää muiden samankaltaisten sekvenssien etsimiseen. motiiveja. Motiivien määrittämiseen on kehitetty monia menetelmiä, mutta ne kaikki perustuvat lyhyiden, erittäin konservoituneiden kuvioiden löytämiseen suuremmassa kohdistuskuviossa ja substituutiomatriisin kaltaisen matriisin rakentamiseen. Tämä matriisi heijastaa nukleotidi- tai aminohappokoostumusta oletetun motiivin kussakin kohdassa. Kohdistus voidaan sitten tarkentaa käyttämällä näitä matriiseja. Standardiprofiilianalyysissä tämä matriisi sisältää merkinnät sekä jokaiselle mahdolliselle symbolille että aukolle [9] . Sitä vastoin tilastollinen kuviohakualgoritmi etsii ensin motiiveja ja käyttää sitten löydettyjä motiiveja moninkertaisen kohdistuksen rakentamiseen. Monissa tapauksissa, kun alkuperäinen sekvenssijoukko sisältää pienen määrän sekvenssejä tai vain hyvin samankaltaisia sekvenssejä, pseudo -määrät lisätään normalisoimaan painomatriisissa heijastuvaa jakaumaa. Erityisesti se auttaa välttämään nollia todennäköisyysmatriisissa, jotta paikkapainomatriisiin ei saada äärettömän arvoa .
Lohkoanalyysi on motiivien hakumenetelmä, joka suoritetaan aukottomilla kohdistusalueilla. Lohkoja voidaan generoida useista rinnastuskohdista tai johtaa väärin kohdistetuista sekvensseistä ennalta laskemalla useita yhteisiä motiiveja tunnetuista geeniperheistä [31] . Lohkon estimointi perustuu yleensä korkeataajuisten symbolien avaruuteen eikä korvausmatriisien eksplisiittiseen laskentaan. BLOCKS - palvelin tarjoaa vaihtoehtoisen menetelmän tällaisten motiivien paikallistamiseksi kohdistamattomissa sekvensseissä.
Tilastollinen mallisovitus suoritetaan käyttämällä odotusten maksimointia ja Gibbsin näytteenottoalgoritmia . Motiivien etsimiseen yleisimmin käytetty palvelin on MEME , joka käyttää odotusten maksimointialgoritmia ja piilotettujen Markov-mallien menetelmää sekä MEME/MAST [32] [33] , joka käyttää lisäksi MAST-algoritmia.
Jotkut DNA:n ei-proteiinia koodaavat alueet, erityisesti transkriptiotekijän sitomiskohdat (TFBS), ovat konservoituneempia eivätkä välttämättä ole evoluution suhteen sukua, koska nämä kohdat voivat esiintyä ei-homologisissa sekvensseissä. Siten proteiinisekvenssien ja DNA:ta koodaavien alueiden rinnastamiseen käytetyt oletukset eivät ole sopivia transkriptiotekijän sitoutumiskohtien sekvensseille. Vaikka on järkevää kohdistaa proteiinia koodaavia DNA-alueita homologisille sekvensseille käyttämällä mutaatiooperaattoreita, saman transkriptiotekijän sitoutumiskohdan sekvenssien rinnastaminen ei voi perustua evoluutioon liittyviin mutaatiooperaatioihin. Samoin evoluution pistemutaatiooperaattoria voidaan käyttää määrittämään muokkausetäisyyttä koodaaville sekvensseille, mutta siitä on vähän hyötyä transkriptiotekijän sitoutumiskohdan sekvensseille johtuen siitä tosiasiasta, että minkä tahansa sekvenssin muutoksen on säilytettävä tietty spesifisyyden taso sitoutumistoiminnon suorittamiseksi. Tämä tulee erityisen tärkeäksi, kun tarvitaan transkriptiotekijän sitoutumiskohtien sekvenssien rinnastamista havaittavien mallien rakentamiseksi saman TFBS :n tuntemattomien lokusten ennustamiseksi. Siksi useita kohdistusmenetelmiä on mukautettava ottamaan huomioon tärkeimmät evoluutiohypoteesit ja käyttämään tiettyjä operaattoreita, kuten termodynaamisesti herkässä EDNA -menetelmässä sitoutumiskohtien kohdistamiseen [34] .
Tarve käyttää heuristisia lähestymistapoja moninkertaiseen kohdistukseen johtaa siihen, että mielivaltaisesti valittu proteiinijoukko voi kohdistaa väärin suurella todennäköisyydellä. Esimerkiksi joidenkin johtavien kohdistusohjelmien arviointi BAliBase-benchmarkilla [35] osoitti, että vähintään 24 % kaikista kohdistetuista aminohappopareista on kohdistettu väärin [36] . Nämä virheet voivat johtua ainutlaatuisista lisäyksistä yhdessä tai useammassa sekvenssin osassa. Ne voivat myös johtua monimutkaisemmasta evoluutioprosessista, joka johtaa proteiineihin, joita on vaikea kohdistaa peräkkäin yksinään, ja hyvän kohdistuksen saavuttamiseksi sinun on tiedettävä jotain muuta, kuten rakenne. Kun kohdistettujen sekvenssien määrä kasvaa ja niiden erot kasvavat, virhe kasvaa useiden kohdistusalgoritmien heuristisen luonteen vuoksi. Useiden kohdistusten visualisoijien avulla voit arvioida kohdistuksen visuaalisesti usein tarkistamalla kahden tai useamman sekvenssin kohdistamisen laadun huomautuksilla merkittyjen toiminnallisten alueiden osalta. Monet visualisoijat mahdollistavat myös kohdistuksen muokkaamisen korjaamalla (yleensä vähäisiä) virheitä optimaalisen kuratoidun kohdistuksen saamiseksi, joka sopii käytettäväksi fylogeneettisessä analyysissä tai vertailevassa mallintamisessa [37] .
Kuitenkin, kun sekvenssien määrä kasvaa, erityisesti genominlaajuisissa tutkimuksissa, joihin liittyy useita useita rinnastuksia, on mahdotonta kuroida kaikkia rinnastuksia manuaalisesti. Myös manuaalinen kuratointi on subjektiivista. Ja lopuksi, paraskaan asiantuntija ei voi varmuudella kohdistaa monia epäselviä tapauksia hyvin erilaisiin sarjoihin. Tällaisissa tapauksissa on yleinen käytäntö käyttää automaattisia toimenpiteitä useiden kohdistusten epäluotettavasti kohdistettujen alueiden eliminoimiseksi. Fylogeneettisten rekonstruktioiden saamiseksi Gblocks-ohjelmaa käytetään laajalti poistamaan oletettavasti huonolaatuisia kohdistuslohkoja erilaisten sekvenssien lukumäärän rajausten mukaisesti, joissa kohdistussarakkeissa on aukkoja [38] . Samanaikaisesti nämä kriteerit voivat suodattaa liikaa pois alueita, joissa on lisäyksiä/deleetioita, jotka voidaan luotettavasti kohdistaa, ja nämä alueet voivat olla hyödyllisiä positiivisen valinnan tunnistamisessa. Harvat kohdistusalgoritmit tuottavat paikkakohtaisen kohdistuspainon, joka voisi mahdollistaa erittäin konservoituneiden alueiden valinnan. Tämän mahdollisuuden tarjosi ensin SOAP -ohjelma [39] , joka testaa jokaisen sarakkeen kestävyyttä parametrien vaihteluille suositussa ClustalW-kohdistusohjelmassa. T -Coffee [39] -ohjelma käyttää kohdistuskirjastoa luomaan lopullisen moninkertaisen kohdistuksen ja tuottaa moninkertaisen tasauksen, joka on väritetty luottamuspisteiden mukaan, joka kuvastaa kirjaston eri kohdistusten välistä vastaavuutta kullekin kohdistetulle jäännökselle. TCS ( Transitive Consistency Score ) on laajennus, joka käyttää T-Coffeen parittaista kohdistuskirjastoa pisteyttääkseen joka kolmannen monitasauksen . Pariprojektio voidaan luoda nopeilla tai hitailla menetelmillä, joten laskentanopeuden ja tarkkuuden välillä voidaan löytää kompromissi [40] [41] . Toinen kohdistusohjelma, FSA ( eng. Fast statistical alignment ), käyttää tilastollisia malleja kohdistusvirheen laskemiseen ja voi tuottaa useita kohdistuksia arvioimalla sen luotettavuustasoa. HoT-pisteitä ( Heads -Or-Tails ) voidaan käyttää paikkakohtaisten kohdistusten virheiden mittaamiseen, joissa virheitä voi esiintyä useiden yhteisoptimaalisten ratkaisujen olemassaolon vuoksi. GUIDANCE [42] -ohjelma laskee samanlaisen paikkakohtaisen luottamusmitan ohjauspuun epävarmuuteen kohdistuvan kohdistuksen vakauden perusteella, jota käytetään, kuten edellä mainittiin, progressiivisissa kohdistusohjelmissa . Samanaikaisesti tilastollisesti järkevämpi lähestymistapa kohdistusepävarmuuksien arvioimiseen on käyttää todennäköisyyspohjaisia evoluutiomalleja arvioimaan yhdessä filogeniaa ja kohdistusta. Bayesin lähestymistapa laskee filogeneettisten ja kohdistusestimaattien jälkitodennäköisyydet, jotka mittaavat näiden arvioiden luotettavuustasoa. Tässä tapauksessa posteriorinen todennäköisyys voidaan laskea kullekin kohdistuksen kohdalle. Tämä lähestymistapa on otettu käyttöön Bali-Phy-ohjelmassa [43] .
Useita sekvenssikohdistuksia voidaan käyttää fylogeneettisen puun rakentamiseen [44] . Tämä on mahdollista kahdesta syystä. Ensinnäkin funktionaalisia domeeneja, jotka tunnetaan annotoiduista sekvensseistä, voidaan käyttää annotoimattomien sekvenssien kohdistamiseen. Toiseksi konservatiivisilla alueilla voi olla toiminnallista merkitystä. Tästä johtuen useita rinnastuksia voidaan käyttää analysoimaan ja löytämään evoluutiosuhteita sekvenssihomologian avulla. Pistemutaatioita ja insertioita/jakaumia voidaan myös havaita [45] .
Konservoituneiden domeenien paikantamista usealla kohdistuksella voidaan myös käyttää tunnistamaan toiminnallisesti tärkeitä paikkoja, kuten sitoutumiskohtia , säätelykohteita tai paikkoja, jotka vastaavat muista avaintoiminnoista. Kun analysoidaan useita kohdistuksia, on hyödyllistä ottaa huomioon erilaiset ominaisuudet. Tällaisia käyttökelpoisia rinnastusominaisuuksia ovat sekvenssi -identtisyys, samankaltaisuus ja homologia . Identiteetti määrittää, että sekvensseillä on samat tähteet vastaavissa kohdissa. Samankaltaisuus määräytyy samanlaisilla tähteillä kvantitatiivisessa suhteessa. Esimerkiksi nukleotidisekvenssien suhteen pyrimidiinejä pidetään samanlaisina keskenään, kuten myös puriineja . Samankaltaisuus johtaa lopulta homologiaan, joten mitä enemmän samankaltaisia sekvenssejä ovat, sitä läheisempiä ne ovat homologeja. Myös sekvenssien samankaltaisuus voi auttaa löytämään yhteisen alkuperän [46] .