Proteiinirakenteen ennuste on suuntaus molekyylimallinnukseen , kolmiulotteisen proteiinirakenteen [ 1] ( sekundaarinen , tertiäärinen tai kvaternäärinen ) ennustaminen aminohapposekvenssin perusteella. Tämä tehtävä on yksi bioinformatiikan ja teoreettisen kemian tärkeimmistä tavoitteista . Ennustetietoja käytetään lääketieteessä (esimerkiksi lääkkeissä ) ja bioteknologiassa uusien entsyymien luomiseen .
Valtavia määriä proteiinisekvensointidataa on tullut saataville nykypäivän laajamittaisten DNA - sekvensointitoimien , kuten Human Genome Projectin , seurauksena . Huolimatta koko yhteisön ponnisteluista rakennegenomiikan alalla , kokeellisesti määritettyjen proteiinirakenteiden määrä - yleensä työvoimavaltaisella ja suhteellisen kalliilla röntgenkristallografialla tai NMR-spektroskopialla - on huomattavasti jäljessä proteiinisekvenssien lukumäärästä , mikä tekee proteiinin tertiaarirakenteen ennustaminen erittäin kysyttyä [2] .
Proteiinin rakenteen ennustaminen on edelleen erittäin vaikea ja ratkaisematon ongelma. Kaksi pääongelmaa ovat vapaan energian laskeminen ja tämän energian globaalin minimin löytäminen [3] . Proteiinirakenteen ennustusmenetelmällä on tutkittava kaikkien mahdollisten proteiinirakenteiden tila , joka on tähtitieteellisesti suuri. Nämä ongelmat voidaan osittain kiertää vertailevalla (homologisella) mallinnuksella ja laskosten tunnistusmenetelmillä , joissa hakutilaa pienennetään, koska oletetaan, että kyseessä oleva proteiini omaksuu rakenteen, joka on lähellä toisen homologisen proteiinin kokeellisesti määritettyä rakennetta. Toisaalta ab initio -proteiinirakenteen ennustusmenetelmien pitäisi eksplisiittisesti ratkaista nämä ongelmat luottamatta alkuperäisiin oletuksiin [4] [5] .
Joulukuussa 2020 DeepMind -tiimi ( Googlen tutkimusosasto ) ilmoitti ratkaisseensa proteiinirakenteen ennustamisen tieteellisen perusongelman. Yrityksen kehittämä ja hermoverkkoihin perustuva ohjelma pystyi ennustamaan proteiinin rakenteen suurella tarkkuudella. [6]
Alfaheliksi on yleisin proteiinien sekundaarirakennetyyppi. Alfakierteessä on 3,6 aminohappoa kierrosta kohti, ja joka neljännen tähteen väliin muodostuu H-sidos ; keskimääräinen pituus on 10 aminohappoa (3 kierrosta) tai 10 Å , mutta vaihtelee välillä 5 - 40 (1,5 - 11 kierrosta). H-sidosten kohdistus luo kierteelle dipolimomentin , jossa kierteen aminopäässä on positiivinen nettovaraus . α-heliksien yleisin sijainti on proteiinien pinnalla, jossa ne tarjoavat vuorovaikutusta vesiympäristön kanssa [7] .
Heliksin sisäpuoli sisältää yleensä hydrofobisia aminohappoja ja ulkopuoli hydrofiilisiä aminohappoja. Siten joka kolmas ketjun neljästä aminohaposta on hydrofobinen, ja siksi tämä aminohappo voidaan helposti havaita. Leusiinivetoketjussa leusiinijäämien toistuva kuvio kahden vierekkäisen heliksin ulkosivuilla on suurelta osin osoitus rakenteesta. Muissa proteiinin hydrofobisessa ytimessä tai proteiinien transmembraanidomeeneissa esiintyvissä α-kierteissä on suurempi prosenttiosuus hydrofobisia aminohappoja, jotka jakautuvat tasaisemmin ketjussa, mikä toimii myös hyvänä merkkiaineena näille proteiinin osille. . Laadullinen aminohappopitoisuus voi olla hyvä merkki α-kierteiselle alueelle. Alueet, joilla on korkea pitoisuus erilaisia aminohappoja , kuten alaniinia (A), glutamiinihappoa (E), leusiinia (L) ja metioniinia (M), sekä huonommat pitoisuudet proliinia (P), glysiiniä (G), tyrosiinia (Y) ja seriini (S) pyrkivät muodostamaan α-heliksin [8] [9] .
β-listaβ-levyt muodostuvat H-sidoksista keskimäärin 5-10 peräkkäisen aminohapon välillä ketjun yhdessä osassa ja toisen 5-10 ketjun alempana. Jokainen ketju voi kulkea samaan suuntaan muodostaen yhdensuuntaisen levyn, jos ketjut kulkevat eri suuntiin, muodostuu vastasuuntainen levy. H-sidoksen luonne on erilainen rinnakkaisessa ja anti-rinnakkaiskonfiguraatiossa. Arkkien aminohappojen ψ- ja φ-kulmat vaihtelevat huomattavasti yhdellä Ramachandran-kartan alueella . β-levyjen sijainnin ennustaminen proteiinirakenteessa on vaikeampaa kuin α-heliksien ennustaminen [10] [11] .
LoopSilmukat ovat proteiiniketjun alueita, jotka ovat α-kierteiden ja β-levyjen välissä, eripituisia ja kolmiulotteisia konfiguraatioita, ja ne voivat sijaita sekä proteiinin pinnalla että lähempänä ydintä [12] .
Hiusneulasilmukat, jotka edustavat täydellistä käännettä kaksi antirinnakkaista β-juostetta yhdistävässä polypeptidiketjussa , voivat olla jopa kaksi aminohappoa pitkiä. Silmukat voivat olla vuorovaikutuksessa ympäristön (veden ja muiden liuottimien) ja muiden proteiinien kanssa. Koska silmukoiden aminohappojen geometria ei ole avaruudessa rajoitettu, koska aminohapot ytimen alueella, jossa ketju on erittäin tiheästi laskostunut, eivätkä vaikuta proteiinin oikeaan laskostumiseen niin paljon, olla enemmän substituutioita, insertioita ja deleetioita , jotka eivät vaikuta proteiinin toimintoihin. Siten, kun sekvenssit ovat rinnastettuja, näiden mutaatioiden (insertit, deleetiot, substituutiot) läsnäolo voi viitata silmukaan. Genomisen DNA : n introniasemat vastaavat joskus silmukkakohtia koodatussa proteiinissa, silmukoissa on myös yleensä varautuneita ja polaarisia aminohappoja, ja ne ovat usein osa sitoutumiskohtia [13] .
Tertiäärinen rakenne - sekundaarirakenteen kaikkien elementtien avaruudellinen rakenne (mukaan lukien konformaatio ), joka koostuu yhdestä aminohappoketjusta. Lineaarisen polypeptidiketjun spiralisointi pienentää sen kokoa noin 4 kertaa; ja asettaminen tertiääriseen rakenteeseen tekee siitä kymmenen kertaa tiiviimmän kuin alkuperäinen ketju [14] .
Koska polypeptidiketju, α-heliksit ja β-levyt eivät anna käsitystä polypeptidiketjun tilavuudesta , muodosta, tutkijalla on aina tarve määrittää proteiinin kolmiulotteinen tai spatiaalinen konfiguraatio . [viisitoista]
Kvaternaarinen rakenne - tapa asettaa avaruuteen yksittäisiä polypeptidiketjuja, joilla on sama (tai erilainen) primaarinen , sekundaarinen tai tertiäärinen rakenne, ja yksittäisen makromolekyylimuodostelman muodostaminen rakenteellisesti ja toiminnallisesti. Proteiinien kvaternaarisen rakenteen spesifisyys ilmenee proteiinimakromolekyylin muodostavien polypeptidifragmenttien tietyssä konformaatiossa. Hydrofobisten vuorovaikutusten osuus proteiinien tertiäärisen ja kvaternaarisen rakenteen stabiloinnissa on erittäin merkittävä: tertiäärisen rakenteen tapauksessa ne muodostavat yli puolet stabilointivoimasta. [16]
Monet proteiinit ovat useiden polypeptidiketjujen kokoonpanoja. Esimerkkejä kvaternäärisen rakenteen omaavista proteiineista ovat hemoglobiini , DNA-polymeraasi ja erilaiset ionikanavat [17]
Toissijaisen rakenteen ennustusalgoritmit ovat joukko menetelmiä proteiinien paikallisen sekundaarirakenteen ennustamiseksi, joka perustuu vain tietoon niiden aminohapposekvenssistä [18] . Proteiinien osalta ennustus koostuu aminohapposekvenssin yksittäisten osien yhdistämisestä todennäköisimpiin sekundaarirakenteiden luokkiin, kuten α-heliksit, β-säikeet tai silmukat [18] . Ennustetarkkuus määritellään niiden aminohappojen lukumäärän suhteeksi, joille ennustettu rakenneluokka vastasi tälle aminohapolle DSSP [en] -algoritmilla (tai vastaavalla algoritmilla, esimerkiksi STRIDE-algoritmilla ) määritettyä rakenneluokkaa. aminohappojen kokonaismäärä sekvenssissä. Nämä algoritmit merkitsevät proteiinin aminohapposekvenssin sen mukaan, kuuluvatko aminohapot johonkin sekundaarirakenteen luokkiin, jotka eroavat spesifisillä vetysidosmalleilla ja dihedraalisten kulmien sarjoilla. DSSP:lle nämä ovat 8 luokkaa, jotka voidaan yhdistää kolmeen ryhmään: 3 heliksiluokkaa (α-heliksi, π-heliksi ja 3 10 -kierre ), kaksi β-rakenteiden luokkaa (eristetyt β-sillat ja β-levyt) ja kolmenlaisia silmukoita (käännöksiä, mutkia ja luokittelemattomia elementtejä, jotka täyttävät silmukan ominaisuudet) [19] . Useimmiten rakenteen laadun arvioimiseksi käytetään yksinkertaistettua luokitusta, jossa näiden kolmen ryhmän luokat pidetään identtisinä [2] . Algoritmit proteiinin sekundaarirakenteen ennustamiseksi voidaan jakaa ehdollisesti ryhmiin niiden taustalla olevien periaatteiden perusteella. Näihin ryhmiin kuuluvat tilastolliset menetelmät, lähin naapurin menetelmät, hermoverkkoja käyttävät menetelmät, tukivektorimenetelmät ja piilotettuihin Markovin malleihin perustuvat menetelmät . [kaksikymmentä]
Joitakin näistä algoritmeista käsitellään alla.
Chow-Fasmanin tilastollinen menetelmä perustuu arvioon siitä todennäköisyydestä, että tietty aminohappo kuuluu tietokantojen tiettyyn sekundaarirakenteen luokkaan. Ennuste tehdään kolmen sekundaarirakenteen luokan suhteen: silmukka, β-lehti ja rotaatio. Algoritmin tavoitteena on löytää kullekin toissijaiselle rakenneluokalle määritetystä peräkkäisten aminohappojen määrästä segmentti, jolle jokaiselle arvio todennäköisyydestä kuulua tähän sekundäärirakenneluokkaan on annettua arvoa suurempi. Tällaiset algoritmit tuottavat lähdössä tällä tavalla ennustettuja segmenttejä kullekin kolmelle toissijaisten rakenteiden pääluokalle, jotka on kartoitettu sekvenssiin. [21]
Lähimmän naapurin menetelmän ( NNSSP-algoritmi ) ensimmäinen vaihe on löytää homologinen sekvenssi, jonka kolmiulotteinen rakenne tunnetaan. Ottaen huomioon tietyn aminohappotähteen paikalliset rakenteelliset piirteet homologisen sekvenssin kolmiulotteisessa rakenteessa, kuten liuottimen saavutettavuus, polaarisuus ja sekundaarinen rakenne, kullekin aminohappotähteelle osoitetaan "ympäristöluokka". Arvio todennäköisyydestä, että tutkitun n aminohapon pituisen segmentin keskellä oleva aminohappo kuuluu tiettyyn sekundaarirakenteen luokkaan, lasketaan logaritmina tämän aminohapon esiintymistiheydestä ympäristössä, johon suurin osa sen naapurit kuuluvat tietokantoihin. [22]
Yksi neuroverkkoja käyttävistä algoritmeista, PSIPRED , sisältää neljä päävaihetta: sijaintipainomatriisin luominen PSI-BLAST :n avulla, toissijaisen rakenteen ensisijainen ennuste ja ennusteiden lisäsuodatus. Toinen ja kolmas vaihe sisältävät kaksi hermoverkkoa. Sen määrittämiseksi, kuuluuko aminohappo tiettyyn sekundaarirakenteen luokkaan, ensimmäisen hermoverkon sisäänmenoon syötetään fragmentti kooltaan 33x21 sijaintipainomatriisista, joka vastaa fragmenttia alkuperäisestä 33 aminohapon sekvenssistä. mielenkiinnon kohteena oleva aminohappo keskellä [23] . Tässä verkossa on kaksi piilotettua kerrosta ja kolme lähtösolmua, jotka vastaavat kolmea ennustettua toisiorakenneluokkaa. Toista hermoverkkoa käytetään suodattamaan ensimmäisen verkon ennusteet ja sillä on myös kolme lähtösolmua kullekin toissijaiselle rakenneluokalle tutkittavan ikkunan keskipisteessä. Lähdössä algoritmi tuottaa aminohapposekvenssin merkinnän sekundaarirakenteen elementtien avulla. [24]
Edellä mainittujen lisäksi klassisia algoritmeja, jotka käyttävät piilotettuja Markov-malleja, kuten eteenpäin-taakse- algoritmia , Viterbi-algoritmia ja Baum-Welsh-algoritmia , voidaan optimoida yhdistämään aminohapposekvenssi sekundäärirakenteiden luokkiin. [25]
Parhaat nykyaikaiset menetelmät proteiinin sekundaarirakenteen määrittämiseen saavuttavat noin 80 % tarkkuuden [26] . Nykyisten sekundaarirakenteiden ennustamismenetelmien tarkkuutta arvioivat viikoittain päivitetyt resurssit, kuten LiveBench arkistoitu 12.4.2020 Wayback Machinessa ja EVA Arkistoitu 24.2.2020 Wayback Machinessa [27] .
Useimmat tertiaarisen rakenteen mallinnusmenetelmät on optimoitu yksittäisten proteiinidomeenien tertiaarisen rakenteen mallintamiseen. Vaihe, jota kutsutaan domeeniraja-analyysiksi tai domeenirajan ennustamiseksi, suoritetaan yleensä ensin proteiinin erottamiseksi mahdollisiksi rakennedomeeneiksi. Kuten muutkin tertiäärisen rakenteen ennustusvaiheet, tämä voidaan tehdä vertaamalla tunnettuihin rakenteisiin tai ab initio pelkällä sekvenssillä (yleensä koneoppimisella , johon liittyy kovarianssi ) [28] [29] . Yksittäisten domeenien rakenteet yhdistetään yhdeksi lopulliseksi tertiäärirakenteeksi prosessissa, jota kutsutaan domain-kokoonpanoksi [30] .
Energiapohjaiset menetelmätAb initio -mallinnusmenetelmillä pyritään luomaan kolmiulotteisia proteiinimalleja tyhjästä, eli ne perustuvat fysikaalisiin periaatteisiin eikä suoraan kokeellisesti johdettuun rakennetietoon. On monia mahdollisia lähestymistapoja, jotka joko yrittävät jäljitellä proteiinin laskostumista tai soveltavat stokastisia menetelmiä mahdollisten ratkaisujen löytämiseen (eli etsivät jonkin energiafunktion globaalia maksimiarvoa ) [31] . Nämä lähestymistavat ovat yleensä laskennallisesti intensiivisiä ja siksi niitä voidaan soveltaa vain pieniin proteiineihin. Proteiinirakenteen ennustaminen ab initio suuremmille proteiineille vaatii kehittyneempiä algoritmeja ja suurempia laskentaresursseja, joita edustavat joko tehokkaat supertietokoneet (kuten Blue Gene tai MDGRAPE-3 ) tai hajautettu laskenta (kuten Folding@home , Human Proteome Folding Project ja Rosetta @Home ) [32] .
Yhdessä kehittyvät sekvenssit 3D-kontaktien ennustamisessaKun sekvensointi yleistyi 1990-luvulla, useat tutkijaryhmät käyttivät proteiinisekvenssien rinnastusta ennustaakseen korreloivia mutaatioita, ja toivottiin, että näitä yhdessä kehittyviä tähteitä voitaisiin käyttää tertiäärisen rakenteen ennustamiseen . Ajatellaan, että kun yhden aminohappotähteen mutaatio ei ole tappava, voi tapahtua kompensoiva mutaatio tähteiden välisten vuorovaikutusten stabiloimiseksi. Varhaisessa työssä käytettiin ns. paikallisia menetelmiä korreloituvien mutaatioiden laskemiseen proteiinisekvensseissä, kun taas kunkin jäännösparin itsenäisen tarkastelun vuoksi syntyi vääriä korrelaatioita [33] [34] .
Vuonna 2011 toinen tilastollinen lähestymistapa osoitti, että ennustetut yhdessä kehittyvät tähteet riittävät ennustamaan kolmiulotteisen proteiinin laskostumisen edellyttäen, että saatavilla on riittävästi sekvenssejä (tarvitaan > 1000 homologista sekvenssiä) [35] . EVfold-menetelmä ei käytä homologiamallinnusta, ja sitä voidaan ajaa tavallisella henkilökohtaisella tietokoneella jopa satoja jäämiä sisältäville proteiineille . Tämän ja siihen liittyvien lähestymistapojen ennustetarkkuus on osoitettu monilla rakenteilla ja kontaktikartoilla [36] [37] [38] .
Proteiinirakenteen vertaileva mallinnusVertaileva proteiinirakenteen mallinnus käyttää lähtökohdina aiemmin kokeellisilla menetelmillä saatuja rakenteita. Tämä on tehokasta, koska ilmeisesti vaikka olemassa olevien proteiinien määrä on valtava, tertiääristen rakenteellisten motiivien määrä , joihin useimmat proteiinit kuuluvat , on rajallinen [4] .
Nämä menetelmät voidaan myös jakaa kahteen ryhmään [39] :
Sivuaminohapporadikaalien sijainnin tarkka ennustaminen rakenteessa on erillinen ongelma proteiinirakenteen ennustamisessa. Menetelmiä, jotka ratkaisevat sivuradikaaligeometrian ennustamisen ongelman, ovat lukkiutuman eliminointi ja itsekonsistentit kenttämenetelmät [44] [45] . Matalaenergiset sivuketjukonformaatiot määritellään tavallisesti jäykässä polypeptidirungossa , ja niissä käytetään joukkoa erillisiä sivuketjukonformaatioita , "rotameereja". Tällaisten menetelmien toimintaperiaate on etsiä rotameerisarja, joka minimoi mallin kokonaisenergian [40] .
Näissä menetelmissä käytetään rotameerien kirjastoja, jotka ovat edullisia konformaatioita proteiinin kullekin tähtetyypille. Rotamer-kirjastot voivat sisältää tietoa konformaatiosta, sen taajuudesta ja keskihajonnoista suhteessa vääntökulmien keskiarvoihin, joita voidaan käyttää vaihtoehtojen valinnassa [46] . Rotameerikirjastot luodaan rakenteellisella bioinformatiikalla tai muulla tilastollisella analyysillä sivuketjujen konformaatioista kokeellisesti tunnetuissa proteiinirakenteissa. Rotamer-kirjastot voivat olla rungosta riippumattomia , toissijaisesta rakenteesta riippuvaisia tai rungosta riippumattomia. Rungosta riippumattomat rotameerikirjastot eivät käytä rungon konformaatiotietoja, ja ne lasketaan kaikista saatavilla olevista tietyn tyyppisistä sivuketjuista (esimerkiksi ensimmäinen esimerkki rotameerikirjastosta, jonka Ponder ja Richards tekivät Yalen yliopistossa vuonna 1987 [47] ). Toissijaisesta rakenteesta riippuvat kirjastot ovat erilaisia vääntökulmia ja/tai rotameeritaajuuksia sekundäärirakenteiden luokille (alfa heliksi, beetalevy tai silmukka [48] ). Rotameerien rungosta riippuvaiset kirjastot ovat konformaatioita ja (tai) niiden taajuuksia riippuen pääketjun paikallisesta konformaatiosta, jonka määräävät vääntökulmat phi ja psi, eikä se riipu sekundaarirakenteesta [49] . Useimmissa ohjelmissa käytetyt nykyaikaiset versiot näistä kirjastoista esitetään monimuuttujatodennäköisyys- tai taajuusjakaumina, joissa huiput vastaavat erillisinä rotamereina katsottuja vääntökulmakonformaatioita. [viisikymmentä]
Proteiini-proteiini-telakka (tai Protein-Protein Interaction (PPI) ) on molekyylimallinnusmenetelmä , jonka avulla voidaan ennustaa yhden molekyylin (ligandin) suotuisin orientaatio ja konformaatio toisen sitoutumiskeskuksessa (reseptorissa) molekyylin muodostumista varten. vakaa kompleksi . Kumppaniproteiinien asemaa ja konformaatiota koskevia tietoja käytetään vuorovaikutuksen voimakkuuden ennustamiseen niin sanottujen pisteytysfunktioiden avulla. [51]
Laskennalliset menetelmät proteiini-proteiini-vuorovaikutusten ennustamiseenKoska vuorovaikutuksesta ei vielä ole täydellistä tietoa eikä kaikkia proteiini-proteiinivuorovaikutuksia ole löydetty, käytetään erilaisia laskennallisia menetelmiä vuorovaikutusten signalointi- tai metabolisten karttojen rekonstruoinnissa. Niiden avulla voit täyttää aukot ennustamalla tiettyjen verkkosolmujen välisiä vuorovaikutuksia. Laskennallisten menetelmien avulla on mahdollista ennustaa paitsi WBV:n mahdollisuus myös niiden vahvuus [52] .
Seuraavassa on useita laskennallisia lähestymistapoja proteiini-proteiini-vuorovaikutusten ennustamiseen:
CASP ( englanniksi. Critical Assessment of protein Structure Prediction - kriittinen arvio proteiinirakenteiden ennustamisesta) on laajamittainen koe proteiinirakenteiden ennustamisesta. Se on järjestetty vuodesta 1994 lähtien kahden vuoden välein [59] . CASP testaa objektiivisesti proteiinirakenteen ennustusmenetelmiä ja tarjoaa riippumattoman arvion rakenteellisesta mallintamisesta. CASP:n päätavoitteena on auttaa parantamaan menetelmiä proteiinien kolmiulotteisen rakenteen määrittämiseksi niiden aminohapposekvensseistä . Hankkeeseen osallistuu jatkuvasti yli 100 tutkimusryhmää. Yksi CASP:n pääperiaatteista on, että osallistujilla ei ole muuta ennakkotietoa proteiinista kuin aminohapposekvenssi. Tästä syystä CASP käyttää kaksoissokkomenetelmää – järjestäjät, asiantuntijat tai osallistujat eivät tiedä testattujen proteiinien rakennetta ennen ennustusvaiheen loppua. Testatut proteiinit ovat useimmiten ratkaisemattomia rakenteita, jotka on saatu röntgendiffraktioanalyysillä ja NMR:llä [60] .
Tämä tapahtuma auttaa vertailemaan kehittyneitä menetelmiä proteiinirakenteiden ennustamiseen ja etsimään "ihanteista" algoritmia, joka voi ennustaa proteiinin tertiaarisen rakenteen vain aminohapposekvenssin perusteella [61] .
Viimeisimmän CASP13:n voitti joukkue, joka käytti AlphaFold- hermoverkkoa . Joten todennäköisimmin proteiinirakenteiden ennustaminen tulevaisuudessa tehdään hermoverkkojen avulla [62] .
Foldit on online-proteiinin taittopulma. Peli on osa tutkimusprojektia ja kehitetty Washingtonin yliopistossa . Pelin tavoitteena on taittaa valittujen proteiinien rakenne parhaalla mahdollisella tavalla; parhaat käyttäjäratkaisut analysoivat tiedemiehet, jotka voivat ratkaista niiden avulla todellisia tieteellisiä rokotteiden etsintään ja biologisiin innovaatioihin liittyviä ongelmia. Useimmilla parhailla Folditin pelaajilla ei ole biokemian taustaa [63] .
Tämän pelin tavoitteena on ennustaa tietyn proteiinin kolmiulotteinen rakenne, jolla on alhaisin vapaaenergiataso [64] . Jokainen tehtävä julkaistaan sivustolla tietyn ajan, jonka aikana käyttäjät kilpailevat keskenään.
Pelin aikana pelaajat manipuloivat vuorovaikutteisesti molekyyliä muuttamalla proteiinin rungon kulmia ja myös aminohapporadikaalien järjestystä. Pelaajat voivat asettaa rajoituksia tietyille alueille ("kuminauhat") tai "jäädyttää" ne. Käyttäjille tarjotaan myös työkalurivi automaattisten tehtävien suorittamista varten, kuten "heilu"-komento minimoidakseen energian paikallisesti.
Käyttäjä saa tietoa siitä, kuinka hyvin hän onnistuu laskostamaan proteiinia, pisteinä, joita myönnetään erityisesti uusien vetysidosten muodostumisesta, hydrofobisten jäänteiden piilottamisesta molekyylin sisään jne. Ohjelma antaa myös pelaajille vihjeitä, esimerkiksi korostaa alueita, joilla tietyt ryhmät menevät päällekkäin ja jotka tulisi laimentaa, avoimet hydrofobiset alueet, jotka tulisi piilottaa veden vaikutuksilta jne. Sivuston avulla käyttäjät voivat jakaa ja keskustella ratkaisuista keskenään [63] .
Yksi ensimmäisistä algoritmeista proteiinin sekundaarirakenteen ennustamiseksi oli Chou - Fasmanin menetelmä , joka perustui ensisijaisesti todennäköisyysparametreihin, jotka määritettiin käyttämällä kunkin aminohapon suhteellista esiintymistiheyttä kussakin sekundaarirakenteen tyypissä [21] . Chow-Fasmanin menetelmän tarkkuus on noin 50-60 % [65] .
Seuraava huomionarvoinen ohjelma oli informaatioteoriaan perustuva menetelmä GOR , joka on nimetty kehittäjiensä nimien ensimmäisten kirjainten mukaan [66] . Se käyttää Bayesin päättelyn probabilistista menetelmää [66] . GOR-menetelmä ei ota huomioon vain todennäköisyyttä, että tietyn tyyppinen aminohappo sisältyy tiettyyn sekundaarirakenteeseen, vaan myös ehdollisen todennäköisyyden, että aminohappo sisältyy tähän sekundaarirakenteeseen, ottaen huomioon sen naapureiden panoksen. (ei oleta, että naapureilla olisi sama rakenne) [66] . Alkuperäisen GOR-menetelmän tarkkuus oli noin 65 %, ja se onnistui huomattavasti paremmin alfakierteiden ennustamisessa kuin beetaheliksit , jotka se usein ennusti väärin silmukoiksi tai epäorganisoituneiksi patchiksi 65] .
Toinen iso askel eteenpäin oli koneoppimismenetelmien käyttö: ensimmäisiä hermoverkkojen menetelmiä käytettiin ohjelmissa ennustamaan proteiinien toissijaisia rakenteita. Koulutusnäytteinä he käyttivät proteiinisekvenssejä, joissa oli kokeellisesti saatuja rakenteita, määrittämään yhteisiä motiiveja , jotka liittyvät tiettyyn sekundaarirakenteiden järjestelyyn [67] . Nämä menetelmät ovat yli 70 % tarkkoja ennusteissaan, vaikka beeta-säikeiden lukumäärä on myös usein aliarvioitu, koska kolmiulotteisesta rakenteesta ei ole tietoa, joka mahdollistaisi vetysidoskuvioiden arvioinnin , jotka voivat myötävaikuttaa solujen muodostumiseen. beta-arkki [65] . PSIPRED arkistoitu 21. heinäkuuta 2011 Wayback Machinessa ja JPRED arkistoitu 7. huhtikuuta 2020 Wayback Machinessa ovat tunnetuimpia hermoverkkoon perustuvia proteiinien sekundaarirakenteen ennustusohjelmia [68] [69] . Viime aikoina tukivektorikoneet ovat osoittautuneet erityisen hyödyllisiksi ennustamaan käännöksiä, joita on vaikea tunnistaa tilastollisilla menetelmillä [70] [71] .
Laajennuksia koneoppimismenetelmiin käytetään ennustamaan tarkempia proteiinien paikallisia ominaisuuksia, kuten vääntörunkokulmia luokittelemattoman rakenteen alueilla. Tämän ongelman ratkaisemiseen on käytetty sekä tukivektorikoneita että neuroverkkoja [70] [72] [73] . Äskettäin Wayback Machinen SPINE -X -ohjelma, joka on arkistoitu 12. huhtikuuta 2020, mahdollisti todellisten vääntökulmien tarkan ennustamisen ja onnistuneesti näiden tietojen käytön ennakoimaan ab initio -rakennetta [74] .