Multiple EM for Motif Elicitation ( MEME ) on samanniminen algoritmi ja työkalu, joka on algoritmin toteutus motiivien etsimiseen proteiinien ja DNA :n biologisista sekvensseistä . Algoritmi perustuu suurimman todennäköisyyden menetelmän toistuvaan soveltamiseen . Motiivi on lyhyt nukleotidien tai aminohappojen sekvenssi , joka on yhteinen jollekin sekvenssijoukolle.
Motiivien etsiminen on tärkeä tehtävä biologiassa, koska motiivin läsnäolo sekvenssissä voi toimia signaalina transkriptiotekijöiden tai restriktioendonukleaasien sekvenssin tunnistamiselle [1] .
MEME-algoritmin kehittivät vuonna 1994 Timothy Bailey ja Charles Elkan [2] . Se on laajennus suurimman todennäköisyyden menetelmälle motiivien löytämiseksi , jonka Lawrence ja Reilly julkaisivat vuonna 1990 [3] . Alkuperäinen menetelmä mahdollisti vain yhden motiivin löytämisen sekvenssijoukosta, ja tämä motiivi oli paikallisesti optimaalinen, koska algoritmi riippuu voimakkaasti aloitusparametrien valinnasta. Sen toiminnan oikeellisuus riippui myös vahvasti kohinatasosta tarkasteluissa jaksoissa. MEME-menetelmä mahdollisti näiden puutteiden kiertämisen. Vuonna 1996 luotiin MEME-toteutuksen sisältävä web-palvelin, jota käytti noin 800 yksilöllistä kävijää vuosina 2000-2006 [4] . Ja vuonna 2009 esiteltiin MEME Suite -paketti, joka sisältää MEME:n toteutuksen lisäksi monia muita siihen liittyviä ohjelmia [5] . Yhteensä seuraavat ihmiset työskentelivät MEME Suiten luomisessa: Timothy Bailey, William Stafford Nobel, Charles Elkan ja Michael Gribskov osallistuivat myös projektiin. Vuodesta 2017 lähtien MEME Suitea tuetaan NIH :n apurahalla , ja verkkopalvelin saa apua myös Googlelta ja Amazonilta [6] .
On välttämätöntä tunnistaa yksi tai useampi yleinen motiivi väärin kohdistettujen nukleotidi- tai aminohapposekvenssien joukosta, joista jokainen sisältää yhden, useamman tai ei yhtään motiivia. Tässä tapauksessa tarkastellaan motiiveja ilman aukkoja (aukoja), joilla on yhteinen biologinen tehtävä. Ne voivat esimerkiksi olla yhden DNA:ta sitovan proteiinin kohteita. MEME käyttää biologisen motiivin esitystä paikka -painomatriisin (PWM) muodossa [2] .
Yhteistä motiivia ei ole mahdollista havaita mistään sekvenssijoukosta, joten jotta algoritmi toimisi oikein, sekvenssit on valittava ja valmisteltava huolellisesti: tässä sarjassa on odotettava yhteinen motiivi (esim. sekvenssien tiedetään sitoutuvan yhdelle transkriptiotekijälle ), ja sekvenssien tulee olla niin lyhyitä, että mahdollisimman pitkälle (ihannetapauksessa <1000 nukleotidia ) [4] .
Oletusarvoisesti MEME-tulostus sisältää enintään kolme motiivia, joiden pituus on 6-50 ja jotka löytyvät sekä syöttösekvenssien myötä- että taaksepäin [6] . Jos hakuobjektien biologinen merkitys tiedetään, voidaan arvata ja asettaa motiivien lukumäärä ja pituus, joita tässä sekvenssijoukossa odotetaan. Tämä parantaa ennusteen laatua, jos motiivi ei sovi oletusparametreihin [4] .
EM-algoritmin syöte on:
Algoritmi palauttaa mahdollisen mallin löydetystä motiivista [3] .
Algoritmin jokaisessa vaiheessa motiivi määräytyy sijainti-painomatriisin (PWM) avulla, jonka koko on , jossa on aakkosten koko. Jokaisella PVM:n solulla on painoarvo , joka riippuu todennäköisyydestä, että kirjain ilmestyy sarakkeeseen , jossa . Nämä arvot lasketaan uudelleen jokaisen algoritmin iteraation aikana [3] .
Koska aluksi ei tiedetä, missä sekvenssissä tarkalleen motiivi sijaitsee, algoritmin jokaisessa vaiheessa lasketaan matriisin arvot , jossa matriisielementti on todennäköisyys, että motiivi alkaa sekvenssissä paikasta [3 ] .
Siten algoritmi koostuu seuraavista vaiheista:
EM-algoritmin tuloksen parantamiseksi on tarpeen valita oikea aloitusparametrisarja. Voit tehdä tämän useilla tavoilla:
Osasekvenssimenetelmä perustuu siihen, että halutun motiivin tulee vastata jotakin pituuden osajaksoa alkuperäisessä tiedossa. Jokaiselle tällaiselle osasekvenssille rakennetaan PVM:t, joista jokainen EM-algoritmin käynnistys alkaa. Suurin todennäköisyysfunktion arvo algoritmin kaikista ajoista on globaali maksimi ja antaa halutun motiivin. Juuri tämä periaate rajoittaa motiivien etsimistä aukoilla [8] .
Tietyn osasekvenssin mukaan PSM voidaan rakentaa eri tavoin. MEME-algoritmi käyttää seuraavaa: osajonon kirjainta vastaavan kirjaimen taajuudeksi otetaan , algoritmi toimii parhaiten . Ja kaikkien muiden kirjainten todennäköisyydet ovat [8] .
Osoittautuu, että oikeaa motiivia vastaavan osasekvenssin algoritmia ajettaessa EM-algoritmi konvergoi niin nopeasti, että yksi iteraatio riittää. Siksi ajan säästämiseksi riittää, että kulloinkin suoritetaan vain yksi iteraatio EM-algoritmista, joka on toteutettu MEME-algoritmissa [8] .
MEME-algoritmi perustuu EM-algoritmin toistuvaan soveltamiseen motiivin etsimiseen sekvensseistä. MEME-algoritmin syöte on:
EM-algoritmi muutetaan seuraavasti:
Ohjelman lähdöstä löydetyt aiheet on annettu LOGO :n muodossa .
MEME-pituuden motiivihakualgoritmi ottaa askeleita, missä on tuntematon vakio (välillä 10 ja 100), on syötesarjoissa olevien aakkosten kirjainten kokonaismäärä [9] . Eli algoritmin monimutkaisuus osoittautuu .
Toisin kuin EM, MEME antaa sinun työskennellä ja löytää tehokkaasti motiiveja sekvensseistä, jotka sisältävät useamman kuin yhden kopion motiivista tai eivät sisällä motiivia. Algoritmi pitää jälkimmäisiä kohina [8] . Iso plussa on myös kyky etsiä useita eri motiiveja yhdestä syöttösekvenssijoukosta [8] ja etsiä globaalia optimaalista motiivia, kun taas EM pysähtyy usein paikallisesti optimaaliseen motiiviin, mikä ei välttämättä ole motiivi [10] ] . Algoritmi on toteutettu PC-ohjelman ja web-palvelimen muodossa, jossa on kätevä käyttöliittymä lisäohjelmien kanssa jatkotyöskentelyä varten löydetyn motiivin kanssa [9] .
MEME-algoritmi tunnistaa huonosti pitkien sekvenssien motiivit, lisäksi suuri sekvenssien pituus pidentää huomattavasti algoritmin ajoaikaa [4] [9] . Lisäksi MEME-algoritmi tekee tärkeän perusoletuksen motiivin esiintymisen yhtäläisyydestä missä tahansa sekvenssin osassa. Tämä lähestymistapa ei sovellu motiivien etsimiseen RNA -sekvensseistä , koska ne muodostavat sekundaarisia ja tertiäärisiä rakenteita, mikä tekee motiivin ilmaantumisen enemmän tai vähemmän todennäköiseksi rakenteesta riippuen [11] . Algoritmi ei salli motiivien löytämistä aukoista, koska algoritmin ongelman muotoilu ei tarkoita niiden etsimistä.
Tämän algoritmin perusteella on toteutettu MEME Suite -työkalu, joka on saatavana verkkoversiona ja PC:lle [6] , vuodesta 2017 lähtien sitä tuetaan ja päivitetään.