RNA:n sekundaarirakenteen ennustaminen on menetelmä nukleiinihapon sekundaarirakenteen määrittämiseksi sen nukleotidisekvenssistä . Toissijainen rakenne voidaan ennustaa yhdelle sekvenssille, tai voidaan analysoida sukulaisten RNA:iden perheen moninkertainen rinnastus .
Nukleiinihapon sekundäärinen rakenne riippuu pääasiassa emäspariutumis- ja pinoamisvuorovaikutuksista . Kuitenkin monissa tapauksissa RNA:n sekundaarirakenne säilyy evoluution aikana enemmän kuin sen primäärisekvenssi [1] . Monet toissijaisen rakenteen ennustusmenetelmät perustuvat dynaamiseen ohjelmointiin eivätkä pysty havaitsemaan tehokkaasti näennäissolmuja .
Yhtäläisyyksistä huolimatta DNA:n ja RNA :n rakenteiden ennustamismenetelmissä on joitain eroja . Luonnollisissa olosuhteissa DNA on useimmiten täysin komplementaarinen dupleksi, kun taas RNA muodostaa monimutkaisia sekundaarisia ja tertiaarisia rakenteita , kuten tRNA :issa , ribosomaalisissa RNA :issa tai silmukointisomeissa . Tämä johtuu osittain siitä , että riboosin ylimääräinen happiatomi lisää taipumusta vetysidoksiin nukleiinihapon rungon kanssa. Myös näiden kahden nukleiinihapon energiaparametrit eroavat toisistaan.
Pienten RNA - molekyylien sekundäärirakenne määräytyy suurelta osin vahvoista paikallisista vuorovaikutuksista , kuten vetysidosten ja emäsparien pinoamisesta . Tällaisten vuorovaikutusten vapaiden energioiden summan pitäisi varmistaa tämän rakenteen vakaus. Lähin naapuri -mallia käytetään toisiorakenteen pinoamisen vapaan energian ennustamiseen . Tässä mallissa kunkin motiivin vapaan energian muutos riippuu itse motiivin ja sitä lähimpien emäsparien järjestyksestä [2] . Minimienergiamalli ja -parametrit klassisille Watson-Crick-pareille, guaniini - urasiili -pareille ja silmukoille saatiin empiiristen kalorimetristen kokeiden avulla, uusimmat parametrit julkaistiin vuonna 2004 [3] , vaikka useimmat ohjelmistopaketit käyttävät edelleen aikaisempaa. sarja koottu vuonna 1999 [4] .
Helpoin tapa löytää vapaan energian vähimmäisrakenne on generoida kaikki mahdolliset rakenteet ja laskea niille vapaa energia, mutta mahdollisten sekvenssirakenteiden määrä kasvaa eksponentiaalisesti RNA:n pituuden myötä (Sekundäärirakenteiden lukumäärä = (1.8) N , missä N on nukleotidien lukumäärä ) [5] . Siten RNA:lle, jonka pituus on vain 200 emäsparia, on yli 10 50 mahdollista rakennetta, joissa on emäspari [1] .
Yksi lähestymistapoja RNA:n sekundaarirakenteen ennustamiseen on Nussin-algoritmi , joka perustuu dynaamiseen ohjelmointiin ja koostuu suurimman emäsparimäärän rakenteen löytämisestä [6] . Tämä algoritmi on kuitenkin liian yksinkertainen eikä se ota huomioon tärkeitä rakenteellisia ominaisuuksia, kuten tiettyjen silmukan pituuksien tai tiettyjen lähimpien naapureiden suosituksia, jotka johtuvat RNA - hiusneulojen vierekkäisten emäsparien pinoamisesta [1] . Lisäksi ratkaisu ei usein ole ainoa. Vuonna 1980 Nussinov ja kollegat julkaisivat lähestymistavan mukautuksen käyttämällä yksinkertaista lähin naapurin energiamallia [7] .
RNA:n laskostumista ohjaavat fysikaaliset syyt, ei emäsparien lukumäärän laskeminen ja maksimoiminen. Michael Zuckerin ja Patrick Steiglerin vuonna 1981 ehdottama menetelmä olettaa, että oikealla tasapainorakenteella on pienin vapaa energia ( ΔG ) [8] . RNA:n sekundaarirakenteen ΔG arvioidaan silmukoiden, emäsparien ja muiden sekundaarirakenteen elementtien vapaiden energioiden summana. Tärkeä ero yksinkertaisempaan Nussin-algoritmiin on se, että hiusneulojen energiaa laskettaessa pinoamisenergia vastaa viereisten emäsparien vuorovaikutusta, ei itse pareja [1] .
Dynaaminen ohjelmointi mahdollistaa kaikkien mahdollisten RNA:n sekundaarirakenteiden muunnelmien testaamisen ilman, että niitä luodaan suoraan. Algoritmi toimii rekursiivisesti . Paras rakenne, jolla on mahdollisimman pieni energia, lasketaan ensin kaikille mahdollisille pienille osasarjoille ja sitten yhä suuremmille osasarjoille. RNA-molekyylin tarkka rakenne määritetään laskemalla koko sekvenssin pienin vapaa energia [2] .
Dynaamisia ohjelmointialgoritmeja käytetään yleisesti havaitsemaan "hyvin sisäkkäisiä" emäsparikuvioita , eli sellaisia, jotka muodostavat vetysidoksia, jotka eivät mene päällekkäin sekvenssin muiden alueiden kanssa. Tällaisia rakenteita ovat kaksoiskierteet, varsisilmukat ja apilanlehtimuunnelmat, joita löytyy esimerkiksi siirto-RNA:sta. Nämä menetelmät perustuvat ennalta määrättyihin suunnitteluparametreihin, jotka arvioivat tietyntyyppisten emäsparien, mukaan lukien Watson-Crick- ja Hoogsteen-parien , muodostamisen vapaan energian . Menetelmän monimutkaisuudesta riippuen yksittäisiä emäspareja voidaan pitää samalla tavalla kuin kahden tai kolmen emäsparin lyhyitä segmenttejä pinoamisvuorovaikutusten vaikutuksen huomioon ottamiseksi. Ilman merkittäviä algoritmisia modifikaatioita, jotka vaativat äärimmäisen suuria laskentakustannuksia, nämä menetelmät eivät pysty määrittämään näennäissolmuja [9] .
Yhden RNA-molekyylin sekundaarirakenteen ennustamisen tarkkuutta minimoimalla vapaata energiaa rajoittavat useat tekijät:
Tästä syystä menetelmä sekundaaristen rakenteiden ennustamiseksi, joilla on yhtä vähän vapaata energiaa, voi tarjota merkittävää tietoa. Tällaisia rakenteita kutsutaan suboptimaalisiksi. MFOLD on yksi ohjelmista, jotka luovat alioptimaalisia rakenteita [10] .
Yksi ongelmista RNA:n sekundaarirakenteen ennustamisessa on se, että standardi vapaan energian minimointi ja tilastolliset menetelmät eivät pysty paljastamaan pseudokostereita [4] . Tämä haitta selittyy sillä, että tavanomaiset dynaamiset ohjelmointialgoritmit ottavat huomioon vain lähimpien nukleotidien väliset vuorovaikutukset, kun taas näennäissolmuja muodostuu kaukaisten nukleotidien välisten vuorovaikutusten seurauksena. Rivas ja Eddy julkaisivat dynaamisen ohjelmointialgoritmin pseudoknot ennustamiseen [9] . Tämä dynaaminen ohjelmointialgoritmi on kuitenkin hyvin hidas. Vakiodynaaminen ohjelmointialgoritmi vapaan energian minimoimiseksi toimii O(N 3 ) :ssa (N on sekvenssin nukleotidien lukumäärä), kun taas Rivasin ja Eddyn algoritmi ottaa O(N 6 ) ajassa. Tämä sai tutkijat ottamaan käyttöön algoritmin version, joka rajoittaa pseudoknot-luokkia, mikä säästää aikaa. Esimerkiksi pknotsRG, joka sisältää vain luokan yksinkertaisia rekursiivisia pseudoknotteja, vaatii O(N 4 ) -operaatioita [11] .
Toinen tapa ennustaa RNA:n sekundaarirakennetta on määrittää laskos käyttämällä Boltzmann - ensembleä [12] [13] esimerkiksi SFOLD-ohjelmassa. Tämä ohjelma luo tilastollisen näytteen kaikista mahdollisista RNA:n sekundaarisista rakenteista. Algoritmi valitsee toissijaiset rakenteet Boltzmann-jakauman mukaan . Tällainen valintamenetelmä tarjoaa hyvän ratkaisun pinoamisen epävarmuusongelmaan [13] .
Kovarianttimallit perustuvat sukulaisten RNA:iden perheiden olemassaoloon, joilla ei ole vain yhteistä sekundaarirakennetta, vaan myös joitain yhteisiä sekvenssimotiiveja. Nämä menetelmät analysoivat yksittäisten emäskohtien kovarianssia evoluution aikana; kahden melko etäällä toisistaan olevan nukleotidin säilyminen osoittaa rakenteellisesti välttämättömän vetysidoksen olemassaolon niiden välillä. On osoitettu, että pseudoknot-ennustusongelma on NP-täydellinen ongelma [14]
Kohdistusongelma ja konsensusrakenteen ennustaminen liittyvät läheisesti toisiinsa. Konsensusrakenteiden ennustamiseen on kolme erilaista lähestymistapaa [15] :
Tämä lähestymistapa koostuu RNA-sekvenssien moninkertaisen rinnastuksen rakentamisesta, konsensussekvenssin löytämisestä ja sen sitten taittamisesta. Kohdistuksen laatu määrää konsensusrakennemallin tarkkuuden. Konsensussekvenssi sopii käyttämällä erilaisia lähestymistapoja, samoin kuin yksittäisten RNA-molekyylien sekundaarirakenteen ennustamisessa. Termodynaamista taittamista hyödyntävää lähestymistapaa käyttää esimerkiksi RNAalifold-ohjelma [16] . Eri lähestymistavat käyttävät Pfold- ja ILM-ohjelmia. Pfold -ohjelma toteuttaa stokastiset yhteydettömät kieliopit (SCGS) [17] . ILM (iteroitu silmukkasovitus), toisin kuin muut kohdistuspinoamisalgoritmit, voi palauttaa näennäissolmuja. Se käyttää termodynamiikan ja relevantin tietosisällön arvioinnin yhdistelmää [18] .
Evoluutio säilyttää usein RNA:n toiminnallisen rakenteen paremmin kuin sen sekvenssi [16] . Siten haasteena on luoda yhteinen rakenne kahdelle tai useammalle erittäin erilaiselle mutta homologiselle RNA-sekvenssille. Käytännössä sekvenssien rinnastukset tulevat käyttökelvottomiksi eivätkä paranna rakenteen ennusteen tarkkuutta, kun kahden sekvenssin samankaltaisuus on alle 50 % [19] .
Rakenteiden kohdistusohjelmat parantavat näiden menetelmien suorituskykyä, joista useimmat ovat Sankoff-algoritmin muunnelmia [20] . Periaatteessa Sankoff-algoritmi on yhdistelmä sekvenssikohdistusalgoritmeista ja Nussinovista [6] , joka etsii maksimiparikohtaa dynaamisen ohjelmoinnin avulla [21] . Sankoff-algoritmi itsessään on teoreettinen, koska se vaatii erittäin suuria laskentaresursseja (aika O (n3m) ja O (n2m) muisti, missä N on sekvenssin pituus, m on sekvenssien lukumäärä). Sankoff-algoritmista on kuitenkin yritetty toteuttaa rajoitettuja versioita. Näitä ovat esimerkiksi Foldalign [22] [23] , Dynalign [24] [25] , PMmulti/PMcomp [21] , Stemloc [26] ja Murlet [27] . Nämä toteutukset rajoittavat kohdistuksen maksimipituutta tai mahdollisten konsensusrakennevaihtoehtojen määrää. Joten Foldalign rakentaa paikallisia kohdistuksia ja rajoittaa sekvenssikohdistusten mahdollista pituutta.
Ennustettujen rakenteiden kohdistusta käytetään vähemmän. Tämä lähestymistapa käyttää yksittäisille RNA-molekyyleille ennustettuja rakenteita. Se kohdistaa ne puiden avulla [28] . Tämän lähestymistavan suurin heikkous on, että yhden sekvenssin ennusteet ovat usein epätarkkoja, mikä rikkoo kaiken lisäanalyysin tarkkuuden.
Nukleiinihappotyypit _ | ||||
---|---|---|---|---|
Typpipitoiset emäkset | ||||
Nukleosidit | ||||
Nukleotidit | ||||
RNA | ||||
DNA | ||||
Analogit | ||||
Vektorityypit _ |
| |||
|