Sekvenssilogo ( bioinformatiikassa ) on menetelmä , joka esittää graafisesti nukleotidien ( RNA- tai DNA -ketjussa ) tai aminohappojen ( proteiineissa ) konservatiivisuutta . Logo on rakennettu joukosta kohdistettuja sarjoja . Tämän menetelmän avulla voit heijastaa seuraavat analysoidun alueen ominaisuudet yhdessä kaaviossa:
Logo koostuu kirjaimista jokaisessa paikassa. Logo osoittaa, kuinka hyvin nukleotidit (tai aminohappotähteet) ovat säilyneet evoluution aikana kussakin paikassa: mitä suurempi kirjaimen esiintymistiheys tietyssä sarakkeessa, sitä suurempi sen suhteellinen koko. Kirjainten kokonaiskorkeus kussakin yksittäisessä kohdassa kuvastaa tämän sarakkeen tietosisältöä . Logossa voi olla esimerkiksi konservoituneita sitoutumiskohtia transkriptiotekijöille tai muille ligandeille [1] .
Logon luomiseksi sekvenssijoukolle ne kohdistetaan ensin paikallisesti , jos tarpeen, suhteessa tiettyyn paikkaan (esimerkiksi ribosomin sitoutumiskohdat voidaan kohdistaa translaation aloituspisteen suhteen). Sarjalogon rakentaminen on järkevää vain konservatiiviselle alueelle [1] . Kohdistuksen tulosten perusteella rakennetaan taulukko kunkin elementin esiintymistiheydistä kussakin paikassa.
Sitten tuloksena olevassa taulukossa jokainen sarake lajitellaan laskevaan järjestykseen siten, että yleisin esiintyminen kyseisessä paikassa (ns. "konsensus") sijoitetaan taulukon ensimmäiselle riville.
Konsensuspohjaa käytetään usein luomaan sekvenssikonsensus. Tällainen konsensus ei kuitenkaan anna täydellistä tietoa sekvensseistä, koska myös muita kirjaimia voi esiintyä merkittävällä tiheydellä kohdistuksessa. Esimerkiksi yleisin prokaryoottinen aloituskodoni on AUG, mutta GUG ja UUG voivat olla myös aloituskodoni. Ilman näitä lisätietoja tiedot vääristyvät [1] . Tämä on yksi tärkeimmistä syistä, miksi konsensussekvenssi on huono malli sitoutumiskohtien kuvaamiseen.
Kunkin sijainnin tärkeys kuvataan kätevästi arvolla, jota kutsutaan sarakkeen tietosisällöksi . Se mitataan bitteinä , eli informaatioyksiköinä. Esimerkiksi, jos linjauksen sijainti sisältää vain yhden tyyppisen nukleotidin, tarvitaan täsmälleen 2 bittiä tietoa, eli vastauksia 2 binääriseen kyllä-ei-kysymykseen. Jos asema sisältää kahden tyyppisiä tähteitä, niin yksi kysymys riittää, koska kahden neljästä nukleotidista valinta vastaa toisen valintaa kahdesta [1] .
Jos nukleotidien taajuudet eivät ole yhtä suuret, tarvitaan kehittyneempi tapa laskea tietosisältö .
Logon rakentamisessa käytettävää epävarmuuden mittaa kutsutaan Shannonin entropiaksi :
,missä on typpipitoisen emäksen tai aminohappotähteen esiintymistiheys asemassa . Se mitataan myös tiedon bitteinä .
Täydelliset kohdistussarakkeen tiedot lasketaan epävarmuuden vähenemisenä kyseisessä paikassa:
,missä on Shannonin entropia sarakkeelle , on suurin epävarmuus, on 4 nukleotidisekvenssille ja 20 aminohapolle, ja on korjaus pienille näytteille, joiden koko on :
.Tällainen muutos ei salli logon tekemistä kohdistamalla pieni määrä sarjoja - saat logon, jossa on lähes sama tietosisältö eri paikoista [1] .
Arvojoukko heijastaa kunkin sijainnin roolia sitoutumiskohdassa. Jokaisen kirjaimen koko kussakin kohdassa (tietobitteinä) lasketaan tämän kirjaimen tiheyden ja koko sarakkeen tietosisällön tulosta:
.Seuraavaksi emäkset näytetään toistensa yläpuolella niiden taajuuden lisääntymisjärjestyksessä tässä sarakkeessa.
Jos sarakkeessa on aukkoja, tuloksena olevan kuvan symbolipinon kokonaiskorkeutta korjataan siinä olevien merkitsevien symbolien osuudella. Tämä on välttämätöntä, koska asemaa ei voida pitää konservatiivisena, jos insertio-deleetiopolymorfia esiintyy tässä paikassa monissa sekvensseissä [1] .
Logot sisältävät useita erilaisia tietoja. Ensin kussakin paikassa kannat luokitellaan niiden esityksen mukaan (yleisin kanta näkyy symbolipinon yläosassa) [1] . Siksi yleinen konsensus voidaan lukea kunkin kohdan ylimmältä kirjainriviltä.
Jokaisen neljän emäksen suhteellinen symbolikoko osoittaa kunkin nukleotidin suhteellisen esiintymistiheyden kyseisessä kohdassa [1] .
Koko merkistön korkeus on verrannollinen tämän kohdistussarakkeen sisältämiin tietoihin. Siksi tärkeimmät paikat on helppo korostaa visuaalisesti. Esimerkiksi bakteerien ribosomien sitoutumiskohtien logoissa vaihtoehtoisten aloituskodonien olemassaolon vuoksi yleisimmän AUG:n ensimmäinen kirjain on yleensä hieman pienempi kuin kaksi seuraavaa - se on vähemmän konservatiivinen [1] .
Transkriptiotekijän sitoutumiskohdat ovat usein palindromisia sekvenssejä , koska itse transkriptiotekijä toimii usein dimeerinä . Tällaiset kohdat ovat symmetrisiä nukleotidien koostumuksen lisäksi myös aseman säilymisen suhteen, mikä näkyy tällaisten paikkojen logoissa [1] .
On pidettävä mielessä, että odottamattoman korkea konservatiivisuus voi johtua kahden sitoutumiskohdan päällekkäisyydestä [2] .
Tämä on yksinkertaistettu versio sekvenssilogosta, jonka tärkein etu on mahdollisuus esittää tekstimuodossa [3] . Kuten sekvenssilogo, sekvenssin konsensuslogo on rakennettu useista DNA/RNA- tai proteiinisekvenssien rinnastuksia ja heijastaa rinnastuksia ja välittää tietoa konservatiivisuudesta kussakin sekvenssikohdassa.
Kaikkien mahdollisten nukleotidien (tai aminohappojen) ja niiden suhteellisen tiheyden kussakin paikassa sijasta konsensuslogo heijastaa vain konservatiivisuuden astetta käyttämällä konsensuskirjaimen korkeutta kussakin kohdassa [3] .
Tässä logoversiossa merkittävä osa tiedoista katoaa, se on välilinkki konsensussekvenssin ja yllä kuvatun logon välillä [3] .
Se on rakennettu samalla tavalla kuin yllä oleva logo, mutta kaikkien asentojen kirjainjoukkojen korkeus on sama [4] . Osoittautuu, että kunkin yksittäisen kirjaimen korkeus vastaa tämän nukleotidin tai aminohapon taajuutta vastaavassa kohdistussarakkeessa. Samaan aikaan tiedot konservatiivisuudesta katoavat lähes kokonaan, joten tämän tyyppistä logoa käytetään harvoin.