RNA:n sekundaarirakenteen ennustaminen

RNA:n sekundaarirakenteen ennustaminen  on menetelmä nukleiinihapon sekundaarirakenteen määrittämiseksi sen nukleotidisekvenssistä . Toissijainen rakenne voidaan ennustaa yhdelle sekvenssille, tai voidaan analysoida sukulaisten RNA:iden perheen moninkertainen rinnastus .

Nukleiinihapon sekundäärinen rakenne riippuu pääasiassa emäspariutumis- ja pinoamisvuorovaikutuksista . Kuitenkin monissa tapauksissa RNA:n sekundaarirakenne säilyy evoluution aikana enemmän kuin sen primäärisekvenssi [1] . Monet toissijaisen rakenteen ennustusmenetelmät perustuvat dynaamiseen ohjelmointiin eivätkä pysty havaitsemaan tehokkaasti näennäissolmuja .

Yhtäläisyyksistä huolimatta DNA:n ja RNA :n rakenteiden ennustamismenetelmissä on joitain eroja . Luonnollisissa olosuhteissa DNA on useimmiten täysin komplementaarinen dupleksi, kun taas RNA muodostaa monimutkaisia ​​sekundaarisia ja tertiaarisia rakenteita , kuten tRNA :issa , ribosomaalisissa RNA :issa tai silmukointisomeissa . Tämä johtuu osittain siitä , että riboosin ylimääräinen happiatomi lisää taipumusta vetysidoksiin nukleiinihapon rungon kanssa. Myös näiden kahden nukleiinihapon energiaparametrit eroavat toisistaan.

Yhden RNA-molekyylin rakenteen ennustus

Pienten RNA - molekyylien sekundäärirakenne määräytyy suurelta osin vahvoista paikallisista vuorovaikutuksista , kuten vetysidosten ja emäsparien pinoamisesta . Tällaisten vuorovaikutusten vapaiden energioiden summan pitäisi varmistaa tämän rakenteen vakaus. Lähin  naapuri -mallia käytetään toisiorakenteen pinoamisen vapaan energian ennustamiseen . Tässä mallissa kunkin motiivin vapaan energian muutos riippuu itse motiivin ja sitä lähimpien emäsparien järjestyksestä [2] . Minimienergiamalli ja -parametrit klassisille Watson-Crick-pareille, guaniini - urasiili -pareille ja silmukoille saatiin empiiristen kalorimetristen kokeiden avulla, uusimmat parametrit julkaistiin vuonna 2004 [3] , vaikka useimmat ohjelmistopaketit käyttävät edelleen aikaisempaa. sarja koottu vuonna 1999 [4] .

Helpoin tapa löytää vapaan energian vähimmäisrakenne on generoida kaikki mahdolliset rakenteet ja laskea niille vapaa energia, mutta mahdollisten sekvenssirakenteiden määrä kasvaa eksponentiaalisesti RNA:n pituuden myötä (Sekundäärirakenteiden lukumäärä = (1.8) N , missä N on nukleotidien lukumäärä ) [5] . Siten RNA:lle, jonka pituus on vain 200 emäsparia, on yli 10 50 mahdollista rakennetta, joissa on emäspari [1] .

Dynaamiseen ohjelmointiin perustuvat algoritmit

Yksi lähestymistapoja RNA:n sekundaarirakenteen ennustamiseen on Nussin-algoritmi , joka perustuu dynaamiseen ohjelmointiin ja koostuu suurimman emäsparimäärän rakenteen löytämisestä [6] . Tämä algoritmi on kuitenkin liian yksinkertainen eikä se ota huomioon tärkeitä rakenteellisia ominaisuuksia, kuten tiettyjen silmukan pituuksien tai tiettyjen lähimpien naapureiden suosituksia, jotka johtuvat RNA - hiusneulojen vierekkäisten emäsparien pinoamisesta [1] . Lisäksi ratkaisu ei usein ole ainoa. Vuonna 1980 Nussinov ja kollegat julkaisivat lähestymistavan mukautuksen käyttämällä yksinkertaista lähin naapurin energiamallia [7] .

RNA:n laskostumista ohjaavat fysikaaliset syyt, ei emäsparien lukumäärän laskeminen ja maksimoiminen. Michael Zuckerin ja Patrick Steiglerin vuonna 1981 ehdottama menetelmä olettaa, että oikealla tasapainorakenteella on pienin vapaa energia ( ΔG ) [8] . RNA:n sekundaarirakenteen ΔG arvioidaan silmukoiden, emäsparien ja muiden sekundaarirakenteen elementtien vapaiden energioiden summana. Tärkeä ero yksinkertaisempaan Nussin-algoritmiin on se, että hiusneulojen energiaa laskettaessa pinoamisenergia vastaa viereisten emäsparien vuorovaikutusta, ei itse pareja [1] .

Dynaaminen ohjelmointi mahdollistaa kaikkien mahdollisten RNA:n sekundaarirakenteiden muunnelmien testaamisen ilman, että niitä luodaan suoraan. Algoritmi toimii rekursiivisesti . Paras rakenne, jolla on mahdollisimman pieni energia, lasketaan ensin kaikille mahdollisille pienille osasarjoille ja sitten yhä suuremmille osasarjoille. RNA-molekyylin tarkka rakenne määritetään laskemalla koko sekvenssin pienin vapaa energia [2] .

Dynaamisia ohjelmointialgoritmeja käytetään yleisesti havaitsemaan "hyvin sisäkkäisiä" emäsparikuvioita , eli sellaisia, jotka muodostavat vetysidoksia, jotka eivät mene päällekkäin sekvenssin muiden alueiden kanssa. Tällaisia ​​rakenteita ovat kaksoiskierteet, varsisilmukat ja apilanlehtimuunnelmat, joita löytyy esimerkiksi siirto-RNA:sta. Nämä menetelmät perustuvat ennalta määrättyihin suunnitteluparametreihin, jotka arvioivat tietyntyyppisten emäsparien, mukaan lukien Watson-Crick- ja Hoogsteen-parien , muodostamisen vapaan energian . Menetelmän monimutkaisuudesta riippuen yksittäisiä emäspareja voidaan pitää samalla tavalla kuin kahden tai kolmen emäsparin lyhyitä segmenttejä pinoamisvuorovaikutusten vaikutuksen huomioon ottamiseksi. Ilman merkittäviä algoritmisia modifikaatioita, jotka vaativat äärimmäisen suuria laskentakustannuksia, nämä menetelmät eivät pysty määrittämään näennäissolmuja [9] .

Suboptimaaliset rakenteet

Yhden RNA-molekyylin sekundaarirakenteen ennustamisen tarkkuutta minimoimalla vapaata energiaa rajoittavat useat tekijät:

  1. Lähinaapurimallissa vapaan energian arvo ei voi ottaa tiettyjä sallittuja arvoja.
  2. Kaikki tunnetut RNA-laskokset eivät vastaa termodynaamista minimiä.
  3. Joillakin RNA-sekvensseillä on useampi kuin yksi biologisesti aktiivinen konformaatio (kutsutaan riboswitcheiksi)

Tästä syystä menetelmä sekundaaristen rakenteiden ennustamiseksi, joilla on yhtä vähän vapaata energiaa, voi tarjota merkittävää tietoa. Tällaisia ​​rakenteita kutsutaan suboptimaalisiksi. MFOLD on yksi ohjelmista, jotka luovat alioptimaalisia rakenteita [10] .

Pseudoknot-ennustus

Yksi ongelmista RNA:n sekundaarirakenteen ennustamisessa on se, että standardi vapaan energian minimointi ja tilastolliset menetelmät eivät pysty paljastamaan pseudokostereita [4] . Tämä haitta selittyy sillä, että tavanomaiset dynaamiset ohjelmointialgoritmit ottavat huomioon vain lähimpien nukleotidien väliset vuorovaikutukset, kun taas näennäissolmuja muodostuu kaukaisten nukleotidien välisten vuorovaikutusten seurauksena. Rivas ja Eddy julkaisivat dynaamisen ohjelmointialgoritmin pseudoknot ennustamiseen [9] . Tämä dynaaminen ohjelmointialgoritmi on kuitenkin hyvin hidas. Vakiodynaaminen ohjelmointialgoritmi vapaan energian minimoimiseksi toimii O(N 3 ) :ssa (N on sekvenssin nukleotidien lukumäärä), kun taas Rivasin ja Eddyn algoritmi ottaa O(N 6 ) ajassa. Tämä sai tutkijat ottamaan käyttöön algoritmin version, joka rajoittaa pseudoknot-luokkia, mikä säästää aikaa. Esimerkiksi pknotsRG, joka sisältää vain luokan yksinkertaisia ​​rekursiivisia pseudoknotteja, vaatii O(N 4 ) -operaatioita [11] .

Muita lähestymistapoja RNA:n sekundaarirakenteen ennustamiseen

Toinen tapa ennustaa RNA:n sekundaarirakennetta on määrittää laskos käyttämällä Boltzmann - ensembleä [12] [13] esimerkiksi SFOLD-ohjelmassa. Tämä ohjelma luo tilastollisen näytteen kaikista mahdollisista RNA:n sekundaarisista rakenteista. Algoritmi valitsee toissijaiset rakenteet Boltzmann-jakauman mukaan . Tällainen valintamenetelmä tarjoaa hyvän ratkaisun pinoamisen epävarmuusongelmaan [13] .

Sukulaisten RNA:iden perheiden toissijaisen rakenteen ennustaminen

Kovarianttimallit perustuvat sukulaisten RNA:iden perheiden olemassaoloon, joilla ei ole vain yhteistä sekundaarirakennetta, vaan myös joitain yhteisiä sekvenssimotiiveja. Nämä menetelmät analysoivat yksittäisten emäskohtien kovarianssia evoluution aikana; kahden melko etäällä toisistaan ​​olevan nukleotidin säilyminen osoittaa rakenteellisesti välttämättömän vetysidoksen olemassaolon niiden välillä. On osoitettu, että pseudoknot-ennustusongelma on NP-täydellinen ongelma [14]

Kohdistusongelma ja konsensusrakenteen ennustaminen liittyvät läheisesti toisiinsa. Konsensusrakenteiden ennustamiseen on kolme erilaista lähestymistapaa [15] :

  1. Asennuksen linjaus;
  2. Samanaikainen sekvenssikohdistus ja pinoaminen;
  3. Ennustettujen rakenteiden kohdistus.

Tasoitus ja sen jälkeen asettaminen

Tämä lähestymistapa koostuu RNA-sekvenssien moninkertaisen rinnastuksen rakentamisesta, konsensussekvenssin löytämisestä ja sen sitten taittamisesta. Kohdistuksen laatu määrää konsensusrakennemallin tarkkuuden. Konsensussekvenssi sopii käyttämällä erilaisia ​​lähestymistapoja, samoin kuin yksittäisten RNA-molekyylien sekundaarirakenteen ennustamisessa. Termodynaamista taittamista hyödyntävää lähestymistapaa käyttää esimerkiksi RNAalifold-ohjelma [16] . Eri lähestymistavat käyttävät Pfold- ja ILM-ohjelmia. Pfold -ohjelma toteuttaa stokastiset yhteydettömät kieliopit (SCGS) [17] . ILM (iteroitu silmukkasovitus), toisin kuin muut kohdistuspinoamisalgoritmit, voi palauttaa näennäissolmuja. Se käyttää termodynamiikan ja relevantin tietosisällön arvioinnin yhdistelmää [18] .

Synkronoitu tasoitus ja pinoaminen

Evoluutio säilyttää usein RNA:n toiminnallisen rakenteen paremmin kuin sen sekvenssi [16] . Siten haasteena on luoda yhteinen rakenne kahdelle tai useammalle erittäin erilaiselle mutta homologiselle RNA-sekvenssille. Käytännössä sekvenssien rinnastukset tulevat käyttökelvottomiksi eivätkä paranna rakenteen ennusteen tarkkuutta, kun kahden sekvenssin samankaltaisuus on alle 50 % [19] .

Rakenteiden kohdistusohjelmat parantavat näiden menetelmien suorituskykyä, joista useimmat ovat Sankoff-algoritmin muunnelmia [20] . Periaatteessa Sankoff-algoritmi on yhdistelmä sekvenssikohdistusalgoritmeista ja Nussinovista [6] , joka etsii maksimiparikohtaa dynaamisen ohjelmoinnin avulla [21] . Sankoff-algoritmi itsessään on teoreettinen, koska se vaatii erittäin suuria laskentaresursseja (aika O (n3m) ja O (n2m) muisti, missä N on sekvenssin pituus, m on sekvenssien lukumäärä). Sankoff-algoritmista on kuitenkin yritetty toteuttaa rajoitettuja versioita. Näitä ovat esimerkiksi Foldalign [22] [23] , Dynalign [24] [25] , PMmulti/PMcomp [21] , Stemloc [26] ja Murlet [27] . Nämä toteutukset rajoittavat kohdistuksen maksimipituutta tai mahdollisten konsensusrakennevaihtoehtojen määrää. Joten Foldalign rakentaa paikallisia kohdistuksia ja rajoittaa sekvenssikohdistusten mahdollista pituutta.

Asennus ja tasoitus

Ennustettujen rakenteiden kohdistusta käytetään vähemmän. Tämä lähestymistapa käyttää yksittäisille RNA-molekyyleille ennustettuja rakenteita. Se kohdistaa ne puiden avulla [28] . Tämän lähestymistavan suurin heikkous on, että yhden sekvenssin ennusteet ovat usein epätarkkoja, mikä rikkoo kaiken lisäanalyysin tarkkuuden.

Katso myös

Muistiinpanot

  1. 1 2 3 4 R. Durbin, S. Eddy, A. Krogh, G. Mitchison. Biologisten sekvenssien analyysi .. - M.-Izhevsk .: Tutkimuskeskus "säännöllinen ja kaoottinen dynamiikka", Computer Research Institute, 2006. - P. 347-402. – 480 s. — ISBN 5-93972-559-7 .
  2. 1 2 Mathews D.H. Revolutions in RNA sekundaarinen rakenne ennustaminen.  (Englanti)  // Journal of Molecular Biology. - 2006. - Voi. 359, nro 3 . - s. 526-532. - doi : 10.1016/j.jmb.2006.01.067 . — PMID 16500677 .
  3. Mathews DH , Disney MD , Childs JL , Schroeder SJ , Zuker M. , Turner DH Kemiallisten modifikaatiorajoitusten sisällyttäminen dynaamiseen ohjelmointialgoritmiin RNA:n sekundaarirakenteen ennustamiseksi.  (englanti)  // Proceedings of the National Academy of Sciences of the United of America. - 2004. - Voi. 101, nro. 19 . - P. 7287-7292. - doi : 10.1073/pnas.0401799101 . — PMID 15123812 .
  4. 1 2 Mathews DH , Sabina J. , Zuker M. , Turner DH Termodynaamisten parametrien laajennettu sekvenssiriippuvuus parantaa RNA:n sekundaarirakenteen ennustamista.  (Englanti)  // Journal of Molecular Biology. - 1999. - Voi. 288, nro 5 . - s. 911-940. - doi : 10.1006/jmbi.1999.2700 . — PMID 10329189 .
  5. Zuker M., Sankoff D. RNA:n sekundaarirakenteet ja niiden ennustaminen  (neopr.)  // Bull. Matematiikka. Biol.. - 1984. - T. 46 . - S. 591-621 .
  6. 1 2 Nussinov R, Piecznik G, Grigg JR ja Kleitman DJ. Algoritmit silmukkasovituksiin  // SIAM Journal on Applied Mathematics. - 1978. - Voi. 35, nro 1 . - s. 68-82.
  7. Nussinov R. , Jacobson AB Nopea algoritmi yksijuosteisen RNA:n sekundaarirakenteen ennustamiseen.  (englanti)  // Proceedings of the National Academy of Sciences of the United of America. - 1980. - Voi. 77, nro. 11 . - P. 6309-6313. — PMID 6161375 .
  8. Zuker M. , Stiegler P. Suurien RNA-sekvenssien optimaalinen tietokonelaskos käyttämällä termodynamiikkaa ja apuinformaatiota.  (englanniksi)  // Nukleiinihappotutkimus. - 1981. - Voi. 9, ei. 1 . - s. 133-148. — PMID 6163133 .
  9. 1 2 Rivas E. , Eddy SR Dynaaminen ohjelmointialgoritmi RNA-rakenteen ennustamiseen, mukaan lukien pseudoknot.  (Englanti)  // Journal of Molecular Biology. - 1999. - Voi. 285, nro 5 . - s. 2053-2068. - doi : 10.1006/jmbi.1998.2436 . — PMID 9925784 .
  10. Zuker M. Mfold -verkkopalvelin nukleiinihappolaskostumisen ja hybridisaation ennustamiseen.  (englanniksi)  // Nukleiinihappotutkimus. - 2003. - Voi. 31, ei. 13 . - P. 3406-3415. — PMID 12824337 .
  11. Reeder J. , Giegerich R. Käytännön termodynamiikkaan perustuvan pseudoknot-taittoalgoritmin suunnittelu, toteutus ja arviointi.  (englanti)  // BMC bioinformatics. - 2004. - Voi. 5. - P. 104. - doi : 10.1186/1471-2105-5-104 . — PMID 15294028 .
  12. McCaskill JS RNA:n sekundaarirakenteen tasapainopartitiofunktio ja emäsparien sitoutumistodennäköisyydet.  (englanti)  // Biopolymeerit. - 1990. - Voi. 29, ei. 6-7 . - s. 1105-1119. - doi : 10.1002/bip.360290621 . — PMID 1695107 .
  13. 1 2 Ding Y. , Lawrence CE Tilastollinen näytteenottoalgoritmi RNA:n sekundaarirakenteen ennustamiseen.  (englanniksi)  // Nukleiinihappotutkimus. - 2003. - Voi. 31, ei. 24 . - P. 7280-7301. — PMID 14654704 .
  14. Lyngsø RB , Pedersen CN RNA pseudoknot ennustaminen energiapohjaisissa malleissa.  (englanniksi)  // Journal of computational Biology : laskennallisen molekyylisolubiologian lehti. - 2000. - Voi. 7, ei. 3-4 . - s. 409-427. - doi : 10.1089/106652700750050862 . — PMID 11108471 .
  15. Gardner PP , Giegerich R. Kattava vertailu RNA-rakenteen ennustusmenetelmistä.  (englanti)  // BMC bioinformatics. - 2004. - Voi. 5. - P. 140. - doi : 10.1186/1471-2105-5-140 . — PMID 15458580 .
  16. 1 2 Hofacker IL , Fekete M. , Stadler PF Toissijaisen rakenteen ennuste rinnastetuille RNA-sekvensseille.  (Englanti)  // Journal of Molecular Biology. - 2002. - Voi. 319, nro 5 . - s. 1059-1066. - doi : 10.1016/S0022-2836(02)00308-X . — PMID 12079347 .
  17. Knudsen B. , Hein J. Pfold: RNA:n toissijaisen rakenteen ennustaminen stokastisten yhteydettömien kielioppien avulla.  (englanniksi)  // Nukleiinihappotutkimus. - 2003. - Voi. 31, ei. 13 . - P. 3423-3428. — PMID 12824339 .
  18. Ruan J. , Stormo GD , Zhang W. ILM: verkkopalvelin RNA:n sekundaarirakenteiden ennustamiseen pseudokolmuilla.  (englanniksi)  // Nukleiinihappotutkimus. - 2004. - Voi. 32. - s. 146-149. doi : 10.1093 / nar/gkh444 . — PMID 15215368 .
  19. Bernhart SH , Hofacker IL Konsensusrakenteen ennustamisesta RNA-geenin löytämiseen.  (englanniksi)  // Briefings infunctional genomics & proteomics. - 2009. - Vol. 8, ei. 6 . - s. 461-471. doi : 10.1093 / bfgp/elp043 . — PMID 19833701 .
  20. Sankoff D. RNA:n laskostumis-, kohdistus- ja protosekvenssiongelmien samanaikainen ratkaisu  // SIAM Journal on Applied Mathematics. - 1985. - Voi. 45, nro 5 . - s. 810-825. Arkistoitu alkuperäisestä 13. kesäkuuta 2007.
  21. 1 2 Hofacker IL , Bernhart SH , Stadler PF RNA-emäspariutumistodennäköisyysmatriisien kohdistus.  (englanti)  // Bioinformatiikka. - 2004. - Voi. 20, ei. 14 . - P. 2222-2227. - doi : 10.1093/bioinformatics/bth229 . — PMID 15073017 .
  22. Havgaard JH , Lyngsø RB , Stormo GD , Gorodkin J. RNA-sekvenssien paikallinen rakenteellinen rinnastaminen sekvenssien samankaltaisuuden ollessa alle 40 %.  (englanti)  // Bioinformatiikka. - 2005. - Voi. 21, ei. 9 . - P. 1815-1824. - doi : 10.1093/bioinformatics/bti279 . — PMID 15657094 .
  23. Torarinsson E. , Havgaard JH , Gorodkin J. Multiple structure alignment and clustering of RNA-sekvenssit.  (englanti)  // Bioinformatiikka. - 2007. - Voi. 23, ei. 8 . - s. 926-932. - doi : 10.1093/bioinformatics/btm049 . — PMID 17324941 .
  24. Mathews DH , Turner DH Dynalign: algoritmi kahdelle RNA-sekvenssille yhteisen sekundaarirakenteen löytämiseksi.  (Englanti)  // Journal of Molecular Biology. - 2002. - Voi. 317, nro 2 . - s. 191-203. - doi : 10.1006/jmbi.2001.5351 . — PMID 11902836 .
  25. Harmanci AO , Sharma G. , Mathews DH Tehokas parikohtainen RNA-rakenteen ennustus käyttämällä todennäköisyyspohjaisia ​​kohdistusrajoituksia Dynalignissa.  (englanti)  // BMC bioinformatics. - 2007. - Voi. 8. - P. 130. - doi : 10.1186/1471-2105-8-130 . — PMID 17445273 .
  26. Holmes I. Nopeutettu todennäköisyyspäätelmä RNA-rakenteen evoluutiosta.  (englanti)  // BMC bioinformatics. - 2005. - Voi. 6. - s. 73. - doi : 10.1186/1471-2105-6-73 . — PMID 15790387 .
  27. Kiryu H. , Tabei Y. , Kin T. , Asai K. Murlet: käytännöllinen moninkertainen kohdistustyökalu rakenteellisiin RNA-sekvensseihin.  (englanti)  // Bioinformatiikka. - 2007. - Voi. 23, ei. 13 . - s. 1588-1598. - doi : 10.1093/bioinformatics/btm146 . — PMID 17459961 .
  28. Shapiro BA , Zhang KZ Useiden RNA:n sekundaarirakenteiden vertailu puuvertailuilla.  (englanti)  // Tietokonesovellukset biotieteissä : CABIOS. - 1990. - Voi. 6, ei. 4 . - s. 309-318. — PMID 1701685 .

Kirjallisuus