Proteogenomiikka on biologisen tutkimuksen ala, joka käyttää proteomiikan , genomiikan ja transkriptomiikan yhdistelmää peptidien löytämiseen ja tunnistamiseen . Proteogenomiikkaa käytetään uusien peptidien tunnistamiseen vertaamalla MS/MS - spektrejä ( esim . Tandem massaspektrometria ) proteiinitietokantaan , joka on saatu genomisesta ja transkriptiosta . Proteogenomiikka viittaa usein tutkimuksiin, joissa käytetään esimerkiksi massaspektrometrialla saatua proteomista tietoa parantamaan genomimerkintöjä ( englanniksi DNA annotation ). [1] Genomiikka käsittelee kokonaisten organismien DNA :ta ja geneettistä koodia, kun taas transkriptomiikka käsittelee RNA -sekvenssejä ja transkriptioita . Proteomics käyttää tandemmassaspektrometriaa ja nestekromatografiaa proteiinien toimintojen määrittämiseen ja tutkimiseen. Proteomiikkaa käytetään kaikkien organismissa ilmentyvien proteiinien löytämiseen , joka tunnetaan sen proteomina. [2] [3] Proteomiikan ratkaisematon ongelma on, että se perustuu olettamukseen, että nykyiset geenimallit ovat oikeita ja että oikeat proteiinisekvenssit voidaan löytää käyttämällä vertailusekvenssien tietokantaa; Tämä ei kuitenkaan aina pidä paikkaansa, koska joitain peptidejä ei löydy tietokannoista. Lisäksi mutaatioista voi johtua uusia proteiinisekvenssejä. Tämä ongelma voidaan ratkaista käyttämällä proteomista, genomista ja transkriptomista dataa. Proteomiikan ja genomiikan menetelmien yhteiskäyttö johti proteogenomiikan syntymiseen, joka nousi itsenäiseksi alaksi vuonna 2004. [1] [4] [5]
Proteogenomisen lähestymistavan pääajatuksena on tunnistaa peptidit vertaamalla MS/MS-tietoja proteiinitietokantoihin, jotka sisältävät ennustettuja proteiinisekvenssejä. Proteiinitietokantoja luodaan monin eri tavoin käyttämällä genomista ja transkriptiotietoa. Seuraavassa on joitakin tapoja luoda proteiinitietokantoja:
Kaksijuosteisen DNA-molekyylin kuutta mahdollista translaatiota voidaan käyttää proteiinisekvenssejä ennustavan tietokannan luomiseen. Tämän menetelmän rajoituksena on, että tietokannat ovat erittäin suuria generoitujen sekvenssien lukumäärän vuoksi, joista suurinta osaa ei ole luonnossa. [yksi]
Tässä menetelmässä proteiinirunko luodaan käyttämällä geenien ennustusalgoritmeja, jotka mahdollistavat proteiinia koodaavien alueiden tunnistamisen . Tällä tavalla luotu tietokanta on samanlainen kuin kuuden kehyksen transkriptiolla luotu tietokanta, koska se voi olla hyvin suuri. [yksi]
Proteiinitietokantoja voidaan myös luoda käyttämällä RNA -sekvensointidataa, annotoituja RNA-transkriptejä ja proteiinisekvenssivariantteja. Lisäksi on olemassa muita erikoistuneempia proteiinitietokantoja, jotka voidaan luoda spesifisten peptidien tunnistamiseksi oikein. [yksi]
Toinen menetelmä proteiinien identifioimiseksi proteogenomiikassa on vertaileva proteogenomiikka, joka perustuu useiden sukulaislajien proteomitietojen vertaamiseen samanaikaisesti ja käyttää niiden proteiinien välistä homologiaa parantaakseen annotaatioita suuremmalla tilastollisella varmuudella. [6] [7]
Proteogenomiikan monien sovellusten joukossa on geenimerkintöjen parantaminen eri organismeissa. Kuten tiedät, geenien annotaatio sisältää geenien ja niiden toimintojen löytämisen. [8] Proteogenomiikasta on tullut erityisen hyödyllistä erilaisten prokaryoottisten organismien genomien annotaatioiden luomisessa ja parantamisessa. Proteogenomista lähestymistapaa on käytetty tutkimuksissa erilaisten mikro-organismien genomien annotaatiosta: Escherichia coli , erityyppiset Mycobacterium- ja Shewanella -suvun bakteerit . [9]
Geenimerkintöjen parantamisen lisäksi proteogenomiset tutkimukset voivat myös tarjota arvokasta tietoa ohjelmoitujen lukukehyssiirtymien, N-terminaalisen metioniinin deleetiosta, signaalipeptideistä, proteolyysistä ja muista translaation jälkeisistä modifikaatioista . [4] [6]
Proteogenomiikka voi tarjota menetelmiä peptidien tunnistamiseksi ilman proteomiikan kohtaamia epätäydellisiä ja epätarkkoja proteiinitietokantoja; kuitenkin muita vaikeuksia syntyy käytettäessä proteogenomista lähestymistapaa. [1] Yksi proteogenomiikan suurimmista ongelmista on tuotettujen proteiinitietokantojen koko. Tilastollisesti suuri proteiinitietokanta on todennäköisemmin ristiriidassa proteiinitietokannan ja MS/MS-tietojen kanssa, mikä voi häiritä uusien peptidien tunnistamista. Suuri määrä vääriä positiivisia tunnistustuloksia aiheuttaa myös vaikeuksia proteogenomisessa lähestymistavassa. Väärät positiiviset tulokset voivat johtua erittäin suurten proteiinitietokantojen muodostumisesta, joissa epäjohdonmukaiset tiedot johtavat virheelliseen tunnistamiseen. Toinen ongelma on MS/MS-spektrien yhteensopimattomuus proteiinisekvenssitietojen kanssa, jotka vastaavat samanlaista peptidiä todellisuudessa läsnä olevan peptidin sijaan. On mahdollista saada tietoa useissa kohdissa sijaitsevasta peptidistä, minkä seurauksena näitä tietoja voidaan tulkita eri tavoin. Näistä ongelmista huolimatta on olemassa tapoja vähentää tapahtuvien virheiden määrää. Esimerkiksi työskennellessäsi erittäin suuren proteiinitietokannan kanssa voidaan verrata tunnistettuja uusia peptidisekvenssejä kaikkiin tietokannan sekvensseihin ja verrata sitten translaation jälkeisiä modifikaatioita. Sitten voidaan määrittää, edustavatko nämä kaksi sekvenssiä samaa peptidiä vai ovatko ne kaksi eri peptidiä. [yksi]