Substituutiomalli (biologiassa) - joukko teoreettisia tai empiirisiä sääntöjä, jotka kuvaavat nukleotidien tai aminohappojen substituutioprosessia DNA- tai proteiinisekvenssin evoluution aikana .
Nukleotidisekvenssien muuttaminen satunnaisten nukleotidisubstituutioiden, insertioiden ja deleetioiden seurauksena johtaa sekvenssien eroihin evoluution aikana. Tällaiset muutokset voivat jäädä DNA-tasolle tai ne voivat johtaa muutokseen proteiinisekvenssissä, jonka seurauksena proteiini voi menettää toimintakykynsä tai saada uusia ominaisuuksia. Sääntöjen valinta, joiden mukaan yksi nukleotidi tai aminohappo korvataan ajan myötä toisella, on tärkeä osa evoluution mallintamista ja fylogeneettisten hypoteesien testaamista.
Sekvenssimuutosten taustalla olevat todelliset prosessit ovat varsin monimutkaisia: eri nukleotidit voivat mutatoitua eri nopeuksilla, joidenkin kohtien kehitys voi riippua sekvenssin muiden osien evoluutiosta, substituutiot samoissa kohdissa voivat tapahtua toistuvasti. Kaikki nämä tekijät lisäävät malliparametrien määrää ja heikentävät estimoinnin tarkkuutta. Siksi laskettavien mallien rakentamiseen käytetään useita eri realismiasteita olevia edellytyksiä.
Yleinen lähtökohta evoluution todennäköisyysmallien rakentamisessa on molekyylikellon hypoteesi . Tämän hypoteesin mukaisesti jälkeläisten haarojen pituuden oletetaan riippuvan substituutioiden lukumäärästä paikkaa kohti, jotka ovat tapahtuneet sen jälkeen, kun ne erotettiin viimeisestä yhteisestä esi-isästä (MRCA). Jos fossiileista on mahdollista saada sekvenssejä, voidaan tarkasti määrittää tutkittavan puun oksan korvausmäärä per vuosi. Mallilla katsotaan olevan tiukka molekyylikello, jos vaihtojen määrä vuodessa on vakio kaikille tarkasteltavana olevan puulajeille. Oletus tiukasta molekyylikellosta ei useinkaan ole realistinen. Esimerkiksi huolimatta siitä, että jyrsijät ovat geneettisesti lähellä kädellisiä, jyrsijöiden evoluutionopeus on paljon nopeampi (johtuen luultavasti siitä, että jyrsijöiden sukupolven pituus on paljon lyhyempi ja aineenvaihduntanopeus ja populaatiokoko suurempi ). Malleja, jotka mahdollistavat erilaisten evoluution nopeuksien huomioon ottamisen eri sukupolvissa, kutsutaan ei-tiukkaiksi (vapaiksi). Evoluutionopeuden vaihtelua viivojen välillä kuvataan yleensä eksponentiaalisilla tai lognormaalijakaumilla. Erillinen tapaus on ns. paikallinen molekyylikello. Tämän mallin avulla tutkija voi tunnistaa fylogeneettisten sukulinjojen ryhmiä, joista jokaisella on oma mallinsa tiukasta molekyylikellosta.
Useimmat korvaavat mallit perustuvat oletuksiin neutraalisuudesta, riippumattomuudesta ja rajallisesta määrästä paikkoja. Neutraalisuus tarkoittaa, että neutraalin molekyylievoluutioteorian mukaisesti suurin osa substituutioista ei ole valinnan kohteena, mikä tarkoittaa, että sekvenssien välisten substituutioiden lukumäärän perusteella voimme arvioida niiden välisen eron ajan. Tässä tapauksessa riippumattomuus osoittaa, että korvaaminen tässä asennossa ei vaikuta naapurimaiden korvauksiin. Kohteiden lukumäärän äärellisyys johtaa siihen, että substituutiot tietyssä paikassa voivat tapahtua monta kertaa evoluution aikana. Tämä tarkoittaa, että kun tarkastellaan kahta rinnastettua aminohappoa (A ja L) homologisissa sekvensseissä, emme yleensä tiedä, tapahtuiko muutos A:sta L:ksi vai esimerkiksi muutoksesta A->S->T-> L.
Mallin rakentamiseen on kaksi pääasiallista lähestymistapaa: empiirinen ja parametrinen (Lio ja Goldman, 1998) [1] .
Parametrisia substituutiomalleja on kehitetty ensisijaisesti nukleotidisekvensseille. Tällaisissa malleissa substituutioiden todennäköisyys määritetään useiden parametrien funktiona, jotka arvioidaan kullekin tutkittavalle datajoukolle (yleensä maksimitodennäköisyyden menetelmällä ). Tässä tapauksessa tarkastellaan kahta pääparametrien luokkaa: 1) nukleotidifrekvenssien parametrit ja 2) substituutioiden nopeuden (nopeuden) parametrit. Yleisimmin käytetyt mallit ovat GTR-perheestä (General Time-Reversible, Simon Tavaré 1986). Tämä perhe sisältää kaikki standardit nukleotidisubstituutiomallit (JC69, K80 tai K2P, F81, HKY85, TN93, GTR), jotka on toteutettu fylogeneettisen analyysin standardipaketeissa, kuten MEGA, PAUP, PHYLIP ja PHYML.
Empiiriset substituutiomallit toimivat menestyksekkäästi linjausten rakentamisessa ja proteiinisekvenssien fylogeneettisen suhteen arvioinnissa. Aminohapposubstituution todennäköisyyden arvioimiseksi käytetään empiirisiä substituutiomatriiseja , kuten BLOSUM, PAM, WAG, JTT, jotka on saatu perustuen tilastolliseen analyysiin havaittujen substituutioiden esiintymistiheydistä eri evoluutioasteisissa konservatiivisissa proteiinidomeeneissa. eroa.
Nukleotidisekvenssien kehityksen kuvaamiseen käytetään useimmiten GTR-perheen parametrisia malleja (General Time-Reversible models). Tämä perhe sisältää kaikki standardit nukleotidisubstituutiomallit (JC69, K80 tai K2P, F81, HKY85, TN93, GTR), jotka on toteutettu fylogeneettisen analyysin standardipaketeissa, kuten MEGA, PAUP, PHYLIP ja PHYML. Nämä mallit eroavat arvioitujen parametrien lukumäärän ja vastaavasti oletusten realistisuuden suhteen.
Yleisimmässä muodossaan GTR-malli (Tavaré 1986 [2] ) ei tee oletuksia nukleotiditaajuuksista ja niiden välisen substituution todennäköisyydestä. Se edellyttää neljän parametrin arviointia nukleotidien tasapainotaajuuksille ja kuuden parametrin arvioimista niiden välisten substituutioiden nopeudelle:
Lopullinen korvausastematriisi tällaisessa mallissa näyttää tältä:
Sitä vastoin yksinkertaisin JC-malli (Jukes ja Cantor 1969) [3] tekee eniten yksinkertaistavia oletuksia ja vaatii vain yhden parametrin arvioinnin. Malli olettaa, että kaikki nukleotidit ovat yhtä tiheitä ja kaikkien nukleotidien välinen substituutionopeus on sama (mallin ainoa parametri). Korvausastematriisi tällaisessa mallissa on muotoa:
JC-malli on huono siinä mielessä, että siinä ei oteta huomioon joitain tärkeitä DNA:n evoluution ominaisuuksia, kuten siirtymien eri frekvenssiä (puriiniemäksen substituutio toisella tai pyrimidiiniemäs toisella.) ja transversioita (puriinin substituutiot). emäs pyrimidiiniemäkselle ja päinvastoin), samoin kuin nukleotiditaajuuksien epätasa-arvo todellisissa nukleotidisekvensseissä. GTR-mallin haittana on suuri parametrien määrä, mikä vaikeuttaa mallin arviointia. Siksi käytännössä käytetään usein välimalleja, mikä heikentää osaa JC:n edellytyksistä. Esimerkiksi K80-malli (Kimura 2-parameter 1980) [4] olettaa yhtäläiset nukleotiditaajuudet, mutta erilaiset siirtymien ja transversioiden nopeudet.
Alla on luettelo GTR-perheen yleisimmistä malleista. Mallia kutsutaan "sisätetyksi" (sisäkkäiseksi) toisessa mallissa, jos tämä (yksinkertaisempi) malli vastaa monimutkaisempaa mallia tietyillä asetuksilla. Esimerkiksi JC-malli on sisäkkäin K2P:ssä. Eli JC on K2P-mallin erikoistapaus: jos asetat saman siirtymien ja transversioiden taajuuden K2P:ssä, malleista tulee vastaavia.
Jukes-Cantor (JC)Jukesin ja Cantorin (1969) [3] malli on yksinkertaisin. Se olettaa samat nukleotiditaajuudet (25 %) ja saman todennäköisyyden substituutiolle minkä tahansa nukleotidiparin välillä. Tätä mallia käytetään harvoin todellisen datan filogeneettiseen analyysiin.
Felsenstein 1981 (F81)Felsenstein-mallia voidaan pitää Jukes–Cantor-mallin jatkeena. Nukleotidien taajuudet voivat vaihdella 25 %:sta, kaikki substituutiot ovat yhtä todennäköisiä (Felsenstein 1981) [5]
Kimura 2-parametrinen (K80)Kimuran kaksiparametrinen malli olettaa saman nukleotidien esiintymistiheyden, substituutioiden todennäköisyys on erilainen siirtymille ja transversioille (Kimura 1980) [4] .
Hasegawa-Kishino-Yano (HKY)Tämä malli mahdollistaa Felsenstein- ja Kimura-malleissa käyttöön otettujen lisäparametrien samanaikaisen käytön. Nukleotidien taajuudet voivat vaihdella, substituutioiden todennäköisyys on erilainen siirtymille ja transversioille (Hasegawa et. al. 1985) [6] .
Tamura-Nei (TrN)Tamura–Ney-malli ehdottaa erilaisia nukleotiditaajuuksia. Substituutioiden todennäköisyys on sama transversioille, mutta voi vaihdella siirtymillä (Tamura Nei 1993) [7] .
Yleinen aika käännettävä (GTR)Monimutkaisin malli on GTR. Se käyttää eri taajuuksia nukleotideja (4 parametria) ja erilaisia substituutiotaajuuksia nukleotidien välillä (6 parametria) (Lanave et ai. 1984, Tavare 1986, Rodriguez et. al. 1990).
Korvausmallia voidaan täydentää estimaatiolla esiintymistiheyden vaihtelusta paikkojen välillä. Mutaationopeus ei ole sama sekvenssin koko pituudella. Jatkuvasti positiivisen valinnan alaiset kohdat (esim. antigeeniset determinantit) muuttuvat useammin kuin negatiivisessa valinnassa olevat proteiinia sitovat kohdat. Koodaavissa sekvensseissä kodonien toisessa asemassa olevat substituutiot ovat useimmissa tapauksissa ei-synonyymejä, ja niitä esiintyy paljon harvemmin kuin substituutiot kolmansissa asemissa (synonyymejä). Substituutioiden tiheys eri kohdissa vaihtelee gamma-jakauman mukaan (Uzzel ja Corbin, 1971; Jin ja Nei, 1990; Tamura ja Nei, 1993; Wakeley, 1993, Yang, 1996). Gamma-jakauman muoto määräytyy parametrilla a. Kun a=1, gamma-jakauma muuttuu eksponentiaaliseksi, ja a:n kasvaessa siitä tulee yhä enemmän normaalin kaltainen. Mitä suurempi ero vaihtotaajuuksissa odotamme löytävämme sekvenssistä, sitä pienempää parametrin a arvoa tulisi käyttää. Yllä luetelluissa malleissa voidaan ottaa huomioon vaihtotiheyden ero eri asennoissa. Substituutioiden frekvenssin gamma-jakaumaa koskevan hypoteesin lisäksi mallia voidaan täydentää parametrilla, joka kuvaa invarianttien osuutta sekvenssissä, eli konservatiivisia kohtia, jotka ovat negatiivisen valinnan vaikutuksen alaisia.
Koodaavien sekvenssien väliset etäisyydet mitataan tarkemmin käyttämällä aminohappoihin perustuvia lähestymistapoja nukleotidivertailujen sijaan. Proteiinin aminohappomuutos johtuu nukleotidien satunnaisesta substituutiosta. Kuitenkin todennäköisyys, että korvaus korjataan, riippuu sen aminohappoparin samankaltaisuudesta, joiden välillä korvaus tapahtuu. Ominaisuudeltaan samanlaiset (hydrofobisuus, koko, varaus jne.) aminohapot korvataan useammin toisillaan, koska tämä ei vaikuta proteiinin toimintaan. (Tämä pätee useimpiin proteiineihin neutraalisuusteorian mukaisesti ja negatiivisen valinnan vallitsevan vuoksi. Antigeenideterminanttien osalta tilanne voi olla erilainen). Lisäksi substituution todennäköisyys riippuu näiden aminohappojen esiintymistiheydestä luonnossa ja nukleotidisubstituutioiden lukumäärästä (1, 2 tai 3), jotka erottavat aminohappoparin.
Toisin kuin DNA-substituutiomallit (nukleotidisubstituutiomallit), yleisimmät aminohapposubstituutiomallit on kehitetty empiirisesti. Kokeellisten havaintojen perusteella on mahdollista arvioida kunkin aminohapon todennäköisyys sen säilymiseen tai korvautumiseen toisilla aminohapoilla erilaisissa homologisten proteiinien ryhmissä. Näin ollen jokaiselle tapahtumalle (aminohapon säilyttäminen tai sen korvaaminen toisella aminohapolla) voidaan antaa tiettyjä arvoja (positiivisia tai rangaistuksia) näiden tapahtumien todennäköisyydestä riippuen. Nämä arvot voidaan esittää taulukon (matriisin) muodossa ja käyttää laskettaessa aminohappoetäisyyksiä. Tällä lähestymistavalla vähemmän todennäköisempien (harvempien) substituutioiden lasketaan lisäävän sekvenssien välistä etäisyyttä paljon enemmän kuin todennäköisemmillä substituutioilla. Tuloksena saadut korvausmatriisit ovat symmetrisiä, eli todennäköisyys korvata L->S on yhtä suuri kuin todennäköisyys S->L.
Aminohapposubstituutioiden malleissa aminohappojen esiintymistiheyden ja niiden toistensa substituutioiden todennäköisyyden parametreja ei eroteta. Korvausmallina käytetään matriiseja, joissa nämä parametrit yhdistetään (niiden empiirisen luonteen vuoksi). Aminohappokorvausmatriisi on 20x20 taulukko (matriisi), jonka jokainen solu kuvaa todennäköisyyttä korvata i:nnen rivin aminohappo j:nnen sarakkeen aminohapolla tietyn ajan. Substituution suunnalla ei ole väliä (substituutiomatriisit ovat symmetrisiä). On helpointa olettaa, että aminohapon korvaaminen toisella on kielletty. Tällöin todennäköisyys, että aminohappo ei ole muuttunut, on 1. Tämän mallin substituutiomatriisi on seuraava:
Tätä matriisia voidaan käyttää erittäin samankaltaisten proteiinien karkeaan analyysiin, mutta erittäin poikkeaville sekvensseille se on täysin sopimaton. Geneettisten etäisyyksien tarkkaa arviointia varten on laskettava kunkin todellisuutta vastaavan aminohappoparin väliset korvaustodennäköisyydet. Parhaat tulokset saadaan laskemalla nämä todennäköisyydet ennalta kohdistettujen sekvenssien sarjoista.
PAM (piste hyväksytty mutaatio) - kiinteä pistemutaatio - yhden aminohapon korvaaminen, joka tapahtui luonnollisen valinnan seurauksena. Tämä määritelmä ei sisällä kaikkia organismissa esiintyviä pistemutaatioita. Hiljaiset substituutiot, tappavat mutaatiot ja valinnalla hylätyt mutaatiot eivät ole "kiinteäpistemutaatioita" tässä yhteydessä. Dayhoffin ym. (Dayhoff et ai. 1978) [8] kehittämät PAM-luokan matriisit olivat ensimmäiset matriisit, jotka perustuivat aminohappojen substituution todennäköisyyksiin. Substituutiotaajuudet johdettiin samankaltaisten proteiinien rinnastuksista, joiden samankaltaisuus oli vähintään 85 %. Suuri samankaltaisuuden taso antaa meille mahdollisuuden toivoa, että erot tietyssä paikassa johtuvat todennäköisemmin yhdestä peräkkäisestä vaihdosta kuin useista peräkkäisistä korvauksista. Tuloksena saatujen kohdistusten perusteella laskettiin PAM1-matriisi. Merkintä PAM1-matriisin j:nnen sarakkeen i:nnelle riville vastaa todennäköisyyttä, että aminohapot i ja j ovat korvanneet toisillaan yhden tai useamman "kiinteän pisteen mutaation" seurauksena evoluution aikana. joka vastaa 1 % substituutioista sekvenssiparin välillä (korvaa 1/100). PAM1-matriisista nostamalla se n:n potenssiin saatiin PAMn-matriisit (PAM50, PAM250 jne.). Jokainen näistä matriiseista on suunniteltu analysoimaan sekvenssejä, joiden välillä on tarpeeksi evoluutioaikaa, jotta n mutaatiota tapahtuu 100 aminohappoa kohti. (Joissakin paikoissa voi tapahtua useampi kuin yksi substituutio tänä aikana.) Siten tiedot läheisesti liittyvien sekvenssien substituutioiden todennäköisyyksistä ekstrapoloidaan vähemmän sukulaisiksi.
JTT matriisitTämä matriisiryhmä on suunniteltu samalla tavalla kuin PAM-matriisit, mutta uusimpien tietokantojen proteiinikohdistuksilla (Jones et al. 1992 [9] ; Gonnett et ai., 1992 [10] ). On myös matriisi, joka on erityisesti suunniteltu useiden transmembraanisten proteiinien kohdistuksille (Jones et ai., 1994), joka on suunniteltu määrittämään transmembraanisten proteiinien väliset etäisyydet.
BLOSUM-matriisitDaihoffin käyttämä metodologinen lähestymistapa läheisten sekvenssien vertailuun ei ole aina optimaalinen analysoitaessa kaukaa sukua olevia sekvenssejä. Tämä ongelma on ratkaistu BLOSUM-matriiseilla (Block-substituutiomatriisit, Henikoff ja Henikoff, 1992) [11] . BLOSUM-matriisien kehittäminen perustuu vain ei-läheisesti sukua olevien sekvenssien konservatiivisten alueiden (lohkojen) analyysiin. Näitä alueita pidetään toiminnallisesti merkittävinä. Käytetään matriiseja BLOSUM62, BLOSUM50, BLOSUM30 jne. (suurempi luku vastaa suurempaa sekvenssin samankaltaisuutta). BLOSUMn-matriisi lasketaan sellaisten sekvenssien kohdistamisen perusteella, jotka ovat enintään n % samankaltaisia. (Esimerkiksi BLOSUM62-templaatti perustuu proteiinien rinnastukseen, jotka ovat enintään 62 % samanlaisia). Siten, toisin kuin PAM-matriiseja, tässä ei käytetä ekstrapolaatiota, ja matriisit, jotka on suunniteltu analysoimaan erittäin erilaisia sekvenssejä, perustuvat sellaisten lohkojen analyysiin, joilla on sama erotustaso.
BLOSUM-matriisin pisteet ovat logaritmi sen todennäköisyyden suhteesta, että kaksi rinnastuksessa olevaa aminohappoa liittyvät todennäköisyyteen, että ne eivät ole sukua, vaan täsmäävät rinnastuksessa satunnaisista syistä:
Tässä on todennäköisyys, että aminohapot ja ovat sukulaisia ja korvaavat toisensa evoluutioprosessissa, ja ja ovat todennäköisyydet tavata vastaavat aminohapot ja satunnaisessa proteiinisekvenssissä. Kerroin lisätty matriisiarvojen muuntamiseksi kokonaislukuarvoiksi.
BLOSUM62-matriiseja käytetään (oletusarvoisesti) proteiinisekvenssien kohdistuksen laadun arvioimiseen ohjelmissa, kuten BLAST.
Matriisi selkärankaisten mitokondrioproteiineilleAdachi ja Hasegawa (1996) [12] kehittivät matriisin, joka perustuu 20 selkärankaisen lajin mitokondrioproteiinien substituutioiden kuvaukseen. Kirjoittajat osoittavat, että tämä malli mahdollistaa parhaiden fylogien rakentamisen mitokondrioproteiinien kanssa työskennellessä.
Nei (1987) ehdotti yksinkertaista teoreettista mallia aminohapposubstituutiolle. Kun otetaan huomioon useita vaihtoja yhdessä paikassa, oletetaan, että vaihtojen määrä eri paikoissa vaihtelee harvinaisten Poisson-tapahtumien jakauman mukaan. Tämä menetelmä mahdollistaa hyvän arvion aminohapposubstituutioiden lukumäärästä läheisissä lajeissa.
Taajuusvaihtelun gammajakauma sivustojen välilläAminohapposekvenssejä kohdistettaessa (samalla tavalla kuin nukleotidisekvenssejä) voidaan ottaa huomioon eri kohtien epätasaiset evoluution nopeudet. Substituutioiden tiheys eri paikoissa vaihtelee gamma-jakauman mukaan (Nei at all, 1976) [13] . Kohdistusarvion korjaus epätasaisten evoluutionopeuksien osalta voidaan asettaa monissa sekvenssien kohdistusohjelmissa.
Fylogenetiikkaan perustuvaa todennäköisyyspohjaista lähestymistapaa käytetään fylogeneettisten puiden laadun vertailuun ja arviointiin sekä erilaisten evoluutiohypoteesien testaamiseen (esimerkiksi todennäköisyys löytää organismiryhmä samasta puun oksasta).
Lähestymistavan tavoitteena on asettaa puut paremmuusjärjestykseen joko niiden todennäköisyyden P(data|ltree) tai (käyttäen Bayesin lähestymistapaa ) niiden posteriorisen todennäköisyyden P(puu|data) mukaan. Yksi tämän lähestymistavan edellytyksistä on korvaavan mallin valinta, jonka mukaan puun oksilla olevia sekvenssejä muutetaan.
Olkoon P(x*|T,t . ) tietojoukon todennäköisyys puun ehdolla. Data x* on joukko n sekvenssiä xj, j =1...n. T on puu, jossa on n lehteä ja sekvenssi j lehdellä j ja t . ovat puun reunojen pituudet. Oletetaan seuraavaksi, että voimme määrittää P(x|y,t), todennäköisyyden, että esi-isien sarja y muunnetaan sekvenssiksi x ajanjakson t aikana. Sitten puun T todennäköisyys, jolla on kärkeille osoitetut esi-isosekvenssejä, voidaan saada kertomalla todennäköisyydet puun kaikille oksille, esimerkiksi:
P(x 1 ,...,x 5 |T,t.)= P(x 1 |x 4 ,t 1 )P(x 2 |x 4 ,t 2 )P(x 3 |x 5 ,t 3 )P(x 4 |x 5 ,t 4 )P(x 5 ), missä P(x 5 ) on todennäköisyys, että sekvenssi x 5 on puun juuressa.
Jotta kullekin tietylle P(x|y,t) määritetään todennäköisyys, että sekvenssi x muodostuu sekvenssistä y ajassa t, käytetään substituutiomallia. Malleja voidaan soveltaa sekä nukleotidi- että aminohapposekvensseihin. Yksinkertaisimmassa tapauksessa oletetaan, että muutokset jokaisessa paikassa tapahtuvat itsenäisesti, eikä poistoja ja lisäyksiä tapahdu. Tällainen malli, jota täydennetään deleetioiden ja insertioiden todennäköisyyksillä, mahdollistaa realistisemman kuvauksen Markovin prosessista , jonka seurauksena merkkijono (nukleotidit tai aminohapot) muuttuu ajan myötä.
Olkoon P(b|a) todennäköisyys, että merkki a on korvattu merkillä b ajanjaksolla, jonka pituus on t. Sitten kahdelle aukkoamattomalle kohdistetulle sekvenssille x ja y, missä u on paikka kohdistuksessa.
K-koon aakkosten korvaustodennäköisyydet P(b|a,t) kaikille merkkipareille a ja b muodostavat matriisin S(t), jonka koko on :
Matriisin S(t) spesifinen muoto lasketaan valitun korvausmallin perusteella. Joten JC-mallissa tämä matriisi saa muodon:
Tässä tapauksessa r t = s t = 1/4 kanssa
K80-mallissa ehdollisten korvaustodennäköisyyksien S(t) matriisi on seuraavanlainen:
Samoin voidaan käyttää empiirisiä substituutiomalleja proteiinisekvensseille.
Yleensä kannattaa valita yksinkertaisin malli (minimiparametreilla), joka kuvaa riittävästi dataa. Monimutkaisempaa mallia tulisi suosia, jos se mahdollistaa suuremman puun laadun parantamisen tutkittavassa datassa kuin jos sitä sovelletaan satunnaisdataan.
Menetelmät, joita käytetään parhaan korvaavan mallin valitsemiseen:
1) Hierarkkinen todennäköisyyssuhdetesti Todennäköisyyssuhdetestiä käytetään vain "sisättyjen" mallien parittaiseen vertailuun (Felsenstein, 1981; Huelsenbeck ja Crandall, 1997) lnL2) LRT-tilaston jakauma on lähellä khin neliöjakaumaa. Siksi näiden kahden mallin välisten erojen tilastollisen merkitsevyyden määrittämiseksi on määritettävä vapausasteiden lukumäärä. Se vastaa monimutkaisempaan malliin lisättyjen parametrien määrää, jotta se vastaa yksinkertaista mallia. Sinun on esimerkiksi säädettävä 4 parametria HKY85:ssä, jotta se vastaa GTR:ää. Nämä tiedot riittävät määrittämään testitilaston kriittisen arvon standarditaulukoista.
2) Akaike-informaatiokriteeri (Hurvich ja Tsai 1989, Sugiura 1978).
3) Bayesilainen informaatiokriteeri (Schwarz 1978).
Ohjelmat, joilla voit valita parhaan mallin: jModelTest, PartFinder, MEGA, TreeFinder.
R. Durbin, S. Eddy, A. Krogg, G. Mitchison (2006). "Biologisten sekvenssien analyysi". M.-Izhevsk: Tutkimuskeskus "Sääntely- ja kaoottinen dynamiikka", Computer Research Institute - 480p. V.V. Lukashov (2009). "Molekylaarinen evoluutio ja filogeneettinen analyysi". M.-Binom. Knowledge Lab - 228s.