Geeniekspression kvantitatiivinen analyysi - transkriptioanalyysi , geenin transkriptionaalisen aktiivisuuden mittaaminen määrittämällä sen tuotteen määrä, lähetti-RNA (mRNA) , universaali useimmille geeneille .
Tässä tapauksessa geeniekspression lopputuote on yleensä proteiineja mRNA:n sijaan .
Menetelmät mRNA : n määrän mittaamiseksi :
RNA-sekvensoinnin tuloksena syntyy lukukirjasto (tai lukukirjasto). Lukupituus vaihtelee 25 - 200 nukleotidin välillä valitusta sekvensointimenetelmästä riippuen . Sen jälkeen lukemat kartoitetaan (tai kohdistetaan) referenssigenomiin. Lukemat voidaan kohdistaa useisiin genomin alueisiin kerralla tai saman geenin eri isoformeihin. Tekniikka mahdollistaa vain transkriptin suhteellisen määrän mittaamisen solussa. Yksinkertaisin tapa on ottaa huomioon vain yksilöllisesti kohdistetut lukemat annotoiduille geenimalleille. Tässä tapauksessa RPKM [2] (lukemia kiloemäksestä miljoonaa kartoitettua lukua kohti) on sopiva transkriptioilmaisun kvantitatiivinen mitta [2] :
,
missä on transkriptin lukukertojen määrä, transkription pituus ja lukukertojen kokonaismäärä. Tämä kaava on maksimitodennäköisyysarvio polynomimallille , jossa lukuja kartoitetaan transkripteihin [ 3]
Monia lukemia ei kuitenkaan voida kartoittaa yksiselitteisesti . Esimerkiksi geenien päällekkäisyydet , koska tässä tapauksessa ei ole selvää, missä genomi tarkalleen kartoitetaan . Myöskään tietoa korkeampien eukaryoottien geenien rakenteesta ( vaihtoehtoinen silmukointi , vaihtoehtoiset promoottorit , erilaiset polyadenylaatiokohdat ) ei ole tutkittu riittävästi edes malliorganismeissa , mikä myös vaikeuttaa tulosten yksiselitteistä tulkintaa. Siksi käytetään lähestymistapoja, jotka mahdollistavat kartoituksen silmukointipisteiden [4] perustamisen ja sen jälkeen transkription kokoamisen [5] kanssa .
Tällä hetkellä on olemassa laaja valikoima malleja transkription määrän laskemiseen . ne voidaan jakaa seuraavien pääominaisuuksien mukaan [6] :
Tällä hetkellä on olemassa laaja valikoima ohjelmia geeniekspression kvantitatiiviseen analysointiin: Kalvosinnapit [7] , IsoEM, HTSeq, RSEM [8] , MISO. Näitä menetelmiä käytetään yhtä aktiivisesti transkriptomin määrän arvioinnissa, mutta tietyt vivahteet taustalla olevien algoritmien toiminnassa voivat tehdä ohjelman paremmaksi, tilanteesta riippuen.
HTSeqYksinkertainen lähestymistapa, joka laskee lukujen lukumäärän, jotka ovat päällekkäisiä tietyn genomin kanssa . Samaan aikaan ohjelma sisältää erilaisia määritelmiä lukemisen ja geenin leikkaamisen tosiasiasta. Lisää ilmentymistä voidaan määrittää RPKM:n avulla [8] .
KalvosinnapitTässä algoritmissa cDNA -kirjasto kartoitetaan ensin genomiin silmukoituneen kohdistuksen rakentamiseksi toisella TopHat- ohjelmalla . Sitten kohdistuksen perusteella rakennetaan graafi parillisilla cDNA -lukemilla kärkipisteissä, joihin reuna piirretään, jos kaksi parillista lukua voi olla samassa transkriptissa . Graafin perusteella palautetaan mahdolliset isomuodot (graafin minimipeitteenä). Tämän seurauksena lukemat kartoitetaan rakennettuihin transkriptioihin . Tilastollisen mallin puitteissa todennäköisyys , että ruoko kuuluu johonkin isoformiin, on verrannollinen transkriptin määrään , ja tämän perusteella muodostetaan maksimitodennäköisyysfunktio , jossa maksimitodennäköisyysfunktion maksimi vastaa haluttua lukua. transkriptioista [ 5] .
MISOMISO (Mixture of Isoforms) on todennäköisyyspohjainen kehys, joka kvantifioi vaihtoehtoisesti silmukoituneiden geenien ilmentymistason RNA-Seq-tiedoista ja tunnistaa näytteistä differentiaalisesti säädellyt isoformit tai eksonit. Perustuu tilastolliseen malliin geenien isoformien lukumäärän arvioimiseksi ( MISO ). MISO pitää isomuotojoukon ilmentymistasoa satunnaismuuttujana ja arvioi jakauman tämän muuttujan arvojen mukaan. Estimointialgoritmi on otospohjainen ja kuuluu Markov-ketjun Monte Carlon ("MCMC") menetelmiin.
Systemaattiset virheet ja toistettavuusRNA-sekvensoinnin seurauksena tapahtuu systemaattisia virheitä, jotka voivat vaikuttaa merkittävästi ilmentymisen arviointiin. Monia biokemiallisia piirteitä ei voida havaita ja niiden vaikutusta ottaa huomioon, mutta jotkin virheet, kuten epäsatunnainen ja epätasainen fragmentoituminen pituussuunnassa, voidaan silti ottaa jossain määrin huomioon [9] .
Kopioita käytetään virheiden korjaamiseen. Kopioita on kahdenlaisia: teknisiä ja biologisia. Tekniset jäljennökset sisältävät saman biologisen materiaalin sekvensoinnin useita kertoja. Biologiset jäljennökset sen sijaan sisältävät erilaisten biologisten materiaalien sekvensoinnin . Sekvensoiduista fragmenteista vain pieni osa luetaan. Kiinteään geeniin liittyvä lukujen osa tulee olemaan hieman erilainen näytteelle ja tarkasteltavalle pienelle osalle johtuen tämän osan satunnaisesta valinnasta. Jos osa tietyn geenin lukemista näytteessä on yhtä suuri kuin p, niin se osa lukemista, jotka osuvat geeniin , noudattaa binomiaalista tai Poisson-jakaumaa keskiarvolla p. Tämän osan arvioimiseksi tarvitaan teknisiä vihjeitä. Biologisten kopioiden tapauksessa ilmentymän vaihtelua ei selitetä Poisson-jakaumalla . Tässä tapauksessa käytetään negatiivista binomiaalista tai yleistettyä Poisson-jakaumaa. Tämä säilyttää oletuksen, että variaatio riippuu keskimääräisestä lausekkeesta . Biologisten jäljennösten pienestä määrästä johtuen vaihtelua arvioidaan erilaisilla regressiomenetelmillä [ 10] .
DNA-mikrosiru on pieni pinta, jolle on kerrostettu yksijuosteisen DNA :n fragmentteja, joilla on tunnettu sekvenssi. Nämä fragmentit toimivat koettimina, joiden kanssa komplementaariset DNA-juosteet tutkittavasta näytteestä hybridisoituvat. DNA-mikrosiruja on kahta eri tyyppiä - oligonukleotidi-mikrosiruja ja cDNA-mikrosiruja [11] .
cDNA-mikrosirujen avulla on kätevää tutkia muutoksia geenien ilmentymistasoissa esimerkiksi eri sairauksien yhteydessä. Kahdesta solunäytteestä (kontrolli ja testi) eristetään RNA , josta cDNA saadaan käänteistranskriptiolla . Jokainen saaduista näytteistä värjätään jollakin väriaineella (yleensä käytetään Cy3 :a ja Cy5 :tä ). Leimattuja näytteitä laitetaan mikrosirulle samanaikaisesti, ja hybridisoitumattomien molekyylien poispesun jälkeen fluoresenssi mitataan pyyhkäisykonfokaalimikroskoopilla [12] .
Kun näytettä valmistellaan analysoitavaksi oligonukleotidimikrosirulla , cRNA syntetisoidaan saadun cDNA :n matriisiin leiman (esimerkiksi biotiinin tai fluoreseiinin ) läsnä ollessa . Korotetun lämpötilan olosuhteissa leimattu cRNA hybridisoituu mikrosirussa olevien koettimien kanssa. Normalisointia varten mutatoidun oligonukleotidin sitoutumisarvot vähennetään tuloksena olevasta data-analyysistä. Lisäksi, koska kullekin geenille luodaan noin 25 erilaista koetinta, niiden lopulliset arvot lasketaan kaikkien näiden koettimien normalisoitujen intensiteettien keskiarvona [12] .
Microarray - hybridisaatio on erittäin tehokas menetelmä kaikkien testinäytteen geenien ekspressiotasojen arvioimiseksi samanaikaisesti . Tämän tutkimustekniikan luonne on kuitenkin sellainen, että kokeessa saatujen arvojen tarkka analyysi vaaditaan luotettavien laadullisten ja kvantitatiivisten tietojen saamiseksi. On tarpeen normalisoida tiedot ja maksimoida signaali-kohinasuhde, koska muutokset ekspressioprofiileissa verratuissa näytteissä voivat olla pieniä [11] .
Ennen käsittelyä data on digitaalinen kuva eri kanavien fluoresenssin intensiteetistä. Ensinnäkin substraatin fluoresenssi vähennetään kunkin tietyn näytteen fluoresenssista. Kaksi vaihtoehtoa on mahdollista: joko substraatin fluoresenssi lasketaan suoraan sen viereen kullekin näytteelle tai koko mikrosirun substraatin keskimääräinen fluoresenssi. Ensimmäistä vaihtoehtoa pidetään oikeampana, koska eri mikrosirualueiden fluoresenssi voi vaihdella [12] .
Taustavähennystä seuraa väriaineiden fluoresenssin intensiteettien normalisointi. Väriaineiden fluoresenssi ja niiden fuusio koettimien kanssa riippuu geenin sekvenssistä, kunkin spesifisen hybridisaation suorittamisen edellytyksistä , mikrosirun laadusta sekä niiden säilytysolosuhteista ja kestosta. Normalisointi suoritetaan joko kotipitogeenejä vastaavien näytteiden fluoresenssin perusteella tai tuomalla mikrosirulle ja näytteeseen tunnettu määrä tutkittaville soluille epätavallista eksogeenistä mRNA :ta . Luotettavampien arvojen saamiseksi identtisiä DNA - näytteitä käytetään saman mikrosirun eri alueille . Mikrosirun laatuindeksi määräytyy eri näytteissä olevien identtisten näytteiden data-arvojen erojen perusteella [12] .
Kaikesta tästä huolimatta kokeissa saadut tiedot eivät kuitenkaan ole geeniekspression kvantitatiivista arviota . Yhdestä geenistä saadut tulokset voivat vaihdella laboratorioittain ja mikrosiruista toiseen. Tällaisten kokeiden avulla on mahdollista arvioida kvalitatiivisia muutoksia ilmentymisprofiileissa eri näytteissä [11] .
Aiemmin tutkijat luokittelivat eri syöpätyyppejä vain sen perusteella, mihin elimeen ne olivat vaikuttaneet. DNA-mikrosirujen avulla on mahdollista luokitella kasvaimia solujen geeniaktiivisuusmallien mukaan . Tämä mahdollistaa lääkkeiden kehittämisen, jotka kohdistuvat tietyntyyppiseen syöpään . Lisäksi lääkkeellä käsiteltyjen ja käsittelemättömien solujen ilmentymisprofiilien analyysi antaa tutkijoille mahdollisuuden ymmärtää tarkasti, kuinka lääke vaikuttaa soluihin . Lisäksi tutkittavassa kasvainnäytteessä on usein eri kloonien soluja , jotka voivat poiketa merkittävästi geeniekspression profiilista . Pahanlaatuisen kasvaimen yksittäisten solujen geeniekspression tason arviointi ennustaa tarkemmin kasvaimen ja sen etäpesäkkeiden kehittymistä [13] .
Laboratoriotutkimuksissa geeniekspression kvantitatiivisen analyysin menetelmiä käytetään useissa eri geenien ilmentymisen tutkimukseen liittyvissä kokeissa . Kokeissa, joissa soluja pidettiin muissa kuin normaaleissa olosuhteissa, havaittiin enimmäkseen muutoksia geenien ilmentymisprofiileissa . Tällaisten tutkimusten tulokset valaisevat solujen reagoinnin mekanismeja ympäristön muutoksiin. Myös geenien ilmentymistasot muuttuvat aktiivisesti alkion ja sikiön jälkeisen kehityksen aikana , kun jotkut proteiinit korvataan toisilla, jotka säätelevät kehon kasvu- ja muodostumisprosesseja. Yhteiset muutokset useiden geenien ilmentymistasoissa mitä tahansa parametreja muuttaessa voivat viitata näiden geenien tuotteiden vuorovaikutukseen solussa [13] .
Geeniekspression kvantitatiivinen analyysi suoritetaan useilla tasoilla ja eri tavoitteilla [14] , [15] :
1) Yksittäisen geenin ilmentymisen muutoksen määrittäminen kokeen olosuhteista riippuen (näytteen käsittely).
2) Geenien klusterianalyysi yleistä toiminnallisuutta, vuorovaikutusta, yhteissäätelyä varten. Tässä tapauksessa käytetään dimensiovähennysmenetelmiä ja visualisointimenetelmiä. Esimerkkinä: Pääkomponenttien analyysi ja klusterointi . DNA - sekvenssejä analysoidaan säätelyalueiden, motiivien löytämiseksi.
3) Havaittuja mittaustuloksia vastaavien geenien ja proteiinien välisten vuorovaikutusverkostojen tunnistaminen ja ymmärtäminen .
Siten ilmentymisen muutosten analysointia voidaan pitää geenien klusteroimisena "muuttuneiksi" ja "muuttumattomiksi" [14] .
Geeniekspression muutosten analysointi voi olla monimutkaista huonon toistettavuuden vuoksi, koska monet monimutkaiset toisiinsa liittyvät tekijät ovat vuorovaikutuksessa eri tasoilla ja kokeen eri vaiheissa. Kaikki muunnelmat voidaan jakaa biologisiin, kokeellisiin ja teknisiin vaihtelulähteisiin. Saatujen tulosten vaihteluiden teknisiä lähteitä ovat: virhe mikrosirujen valmistuksessa, erot kuvien saanti- ja käsittelytekniikoissa, signaalinpoistomenetelmät ja tietojenkäsittely [15] .
BiologinenUskotaan, että suurin osuus variaatioiden esiintymiseen on eroilla yksittäisissä geeniekspression tasoissa eri soluissa ja solupopulaatioissa. Eroja ei havaita vain kliinisten näytteiden välillä (jotka sisältävät erityyppisiä soluja ), mutta jopa sellaisten monoklonaalisten "identtisten" viljelmien näytteiden välillä, jotka ovat saman solun klooneja ja joita pidetään "identtisissä" olosuhteissa, on eroja. Nämä erot johtuvat mikroympäristövaikutuksista (esim. epätasainen ravintosisältö, lämpötilagradientti), erot solujen kasvuvaiheessa viljelmässä, geeniekspression nopean muutoksen jaksot ja monet muut hallitsemattomat satunnaiset vaikutukset, kuten solujen vuorovaikutus ja satunnainen jakautuminen pienestä määrästä transkriptiotekijämolekyylejä (tiettyjen geenien ilmentyminen voi merkittävästi riippua muutamasta molekyylistä) [15] .
Transkriptin sekundäärisen rakenteen läsnäolo vaikuttaa myös RNA :n säilymiseen [15] .
Kokeellinen (näytteen valmistelu)Kaikkien näytteiden valmistelun vaiheiden standardointi on välttämätöntä (esimerkiksi lämpötilan, ravinteiden koostumuksen muuttaminen, jopa elävien solujen lyhytaikaisella sentrifugoinnilla , voi aiheuttaa muutoksen ilmentymisprofiilissa) [15] . Bakteerinäytteiden valmistuksessa RNA : n nopea hajoaminen RNaasien läsnä ollessa on välttämätöntä, ja siksi ehdotonta steriiliyttä on noudatettava RNA:n ennenaikaisen hajoamisen välttämiseksi.
Parhaana strategiana mRNA -näytteen valmistamiseksi pidetään vähimmäiskäsittelyaikaa olosuhteissa, jotka "jäädyttävät" mRNA :n tason näytteenottohetken tasolle, ja RNA:ta hajottavien entsyymien, RNaasien [15] toiminnan estämistä. [15] .
Näytteiden geeniekspressioprofiileja verrattaessa käytetään normalisointia ottaen huomioon kokeellisen ja biologisen variaation lähteet [16] :
Systemaattisissa vaihteluissa (joiden katsotaan olevan sama vaikutus verrattuihin näytteisiin) käytetään seuraavia menetelmiä [16] :
Samaan aikaan yksinkertaiset lähestymistavat normalisointiin ottavat huomioon vain verrattujen näytteiden fragmenttien kokonaismäärän, ja pieni määrä ekspressiota lisääviä geenejä voi johtaa huomattavan määrän ilmentymistä vähentävien geenien virheelliseen havaitsemiseen [16] .
Usein myös kartoitettujen fragmenttien lukumäärän arvojen kanssa tai sijasta käytetään arvoja RPKM - Read Per Kilobase per Million Mapped Reads tai FPKM - Fragments Per Kilobase per Million Mapped Reads [16] .
MenetelmätKaikissa normalisointimenetelmissä oletetaan, että suurin osa vertailtujen näytteiden geeneistä ilmentyy samalla tavalla ja niiden geenien osuus, joilla on vähentynyt ilmentyminen (alassäädelty), on suurin piirtein yhtä suuri kuin ylössäädeltyjen geenien osuus. TMM (Trimmed Mean of M-values) ja käytetty DESeq-paketissa [17] .
Haussa käytetään kahden näyteryhmän vertailua ja etsitään geenejä, joiden ilmentymistasot eroavat merkittävästi näiden kahden ryhmän välillä. Tarkista jokaisen geenin osalta, onko sen ilmentyminen muuttunut. Oletetaan, että tiedot ovat joukko toistuvia mittauksia kullekin geenille ja edustavat mitattua ilmentymistasoa tai sen logaritmia tutkimus- (hoito-) ja kontrollinäytteissä (kontrollinäytteissä). Käytetyt menetelmät voidaan jakaa jatkuvaan ( t-testi ) ja diskreettiin (PPDE) [18] [19] .
Analysoitaessa mikrosiruilla saatua tietoa , saadut mittaukset tulkitaan jatkuviksi arvoiksi ( lognormaalijakauma ). RNA-Seq-dataa analysoitaessa käytetään Poisson- , käänteisbinomiaali- ja jopa beeta-binomijakaumia [20] .
Kiinteä kynnys suhteelliselle muutokselle lausekkeessaVarhaisessa työssä käytettiin lähestymistapaa, jossa geeniä pidettiin eri tavalla ilmentyneenä, jos sen ilmentymisen suhteellinen muutos ylitti tietyn kynnyksen (yleensä 2) [21] .
Yksinkertainen t-testiT-testi on tunnettu kriteeri keskiarvojen yhtäläisyyden arvioinnissa vaihtelu huomioon ottaen. Normalisoitu etäisyys lasketaan käyttämällä sekä kontrolli- että testinäytteen otoskeskiarvoa ja niiden varianssia ja kaavan [22] mukaisesti.
,
missä ja . Tiedetään, että jakauma t on lähellä Studentin jakaumaa vapausasteiden lukumäärällä f, missä [22]
.
Kun t ylittää tietyn kynnyksen, riippuen valitusta merkitsevyystasosta, geenin katsotaan muuttaneen ilmentymistä [22] .
Koska etäisyys normalisoidaan t-testissä näytteen keskihajonnan avulla, sen käyttö on parempi kuin kiinteän kynnyksen käyttö lausekkeen suhteelliselle muutokselle [22] .
T-testin käytön suurin ongelma piilee mittaustoistojen pienessä määrässä ja kokeen korkeiden kustannusten tai monimutkaisuuden vuoksi [22] .
Regularisoitu t-testiTätä menetelmää käytetään arvioimaan geenin vaihtelua käyttämällä tietoa muista geeneistä. Geeniekspression logaritmin arvot mallinnetaan itsenäisinä normaalijakaumina , jotka on parametroitu vastaavilla keinoilla ja varianssilla [23] .
,
jossa C on vakio jakauman normalisoimiseksi [23] .
Hyväksy ja hyväksy a priori todennäköisyydet - skaalattu käänteisgamma ja - normaalijakautuma [23] .
On osoitettu, että arvon ja lausekkeen vaihtelun välillä on suhde. Läheisillä ekspressioarvoilla havaitaan läheisiä ekspression vaihtelun arvoja. Siten on mahdollista soveltaa a priori tietoa Bayesin tilastoissa saadakseen parempia arvioita yksittäisen geenin ilmentymisen vaihtelusta käyttämällä samasta kokeesta saadun huomattavan määrän muiden geenien, joilla on samanlaiset ilmentymistasot, mitattua ilmentymistasoa [23] . ] .
,
missä ,
,
,
Pisteestimaateissa käytetään posteriorestimaatin (MP) tai moodin (MAP - maksimi a posteriori ) keskiarvoa [24] .
Joustavassa toteutuksessa geenin ilmentymisen taustavarianssi lasketaan ottamalla huomioon tarkasteltavan viereiset geenit, esimerkiksi 100 symmetrisen ilmentymistasoikkunan sisällä olevaa geeniä [24] .
Vaikka tämä menetelmä ei poista toistuvien mittausten tarvetta, sen käyttö voi vähentää merkittävästi väärien positiivisten löydösten määrää jopa pienellä toistomäärällä [24] .
Differentiaalilausekkeen todennäköisyyden arviointiPPDE (Posterior Probability of Differential Expression), differentiaalisen ilmentymän posteriorinen todennäköisyys [25] .
Mitattujen tietojen meluisuuden ja vaihtelevuuden vuoksi on odotettavissa vääriä positiivisia ja vääriä negatiivisia löydöksiä eri tavalla ilmentyneistä geeneistä [26] .
Intuitiivinen tapa arvioida vääriä positiivisuutta on verrata samasta kontrollinäytteestä saatuja mittauksia, kun taas geenin ilmentymisen ei pitäisi muuttua [26] .
Myös tälle lähestymistavalle ehdotetaan muodollisempaa laskennallista toteutusta: ennakkotieto perustuu havaintoon, että mikäli geenin ilmentymisessä ei tapahdu muutoksia, kunkin geenin p -arvo tulisi jakaa tasaisesti 0:n ja 1:n välille. geenit minkä tahansa p -arvon alapuolella on yhtä suuri kuin p ja yllä oleva suhde on yhtä suuri kuin 1 -p ) . Jos muutoksia tapahtuu, geenien p - arvojen jakauma ”supistuu” enemmän kohti nollaa kuin kohti 1:tä, eli syntyy osajoukko eri tavalla ilmentyviä geenejä , joilla on ”merkittävillä” p - arvoilla. Tämä jakauma mallinnetaan yhtenäisten ja epäyhtenäisten jakaumien painotetulla yhdistelmällä. Jokaiselle geenille lasketaan todennäköisyys, että se liittyy epäyhtenäiseen jakaumaan - PPDE [27] .
Mallinnuksessa käytetään beeta-jakaumien sekoitusta [27] , jossa yhtenäinen on erikoistapaus [27] .
Yleensä EM-algoritmia käytetään määrittämään seoksen painot [27] .
Differentiaalisen ilmaisun posteriorinen todennäköisyys lasketaan [27] .
Usein toteutus olettaa, että p - arvot saadaan t-testijakaumasta uutena datana ja rakentaa niistä todennäköisyysmallin [27] .
AlgoritmitErilaisesti ilmentyneiden geenien analysointimenetelmien/-ohjelmien lähtötiedot ovat matriiseja , jotka sisältävät tietoja RNA-Seq-kokeessa kullekin näytteelle kartoitettujen fragmenttien lukumäärästä geeniä/eksonia kohti. Yleensä näytedataa käytetään suoraan (baySeq [28] , EBSeq [29] , ShrinkSeq [30] , edgeR [31] , DESeq [17] , NBPSeq [32] ja TSPM [33] ), mutta on olemassa algoritmeja, jotka muuntaa näytteitä ja käyttää algoritmeja, jotka on suunniteltu analysoimaan hybridisaatiomikrosiruilla saatua dataa (NOISeq [34] ja SAMseq [35] ).
Nopeuttaa merkittävästi RNA :n tietojen käsittelyä mahdollistaa "kevyet algoritmit" Sailfish [36]
Tiedetään, että luotettavan arvion saaminen kunkin geenin varianssiparametrista on ratkaisevan tärkeää differentiaalisen ilmentymisen analysoinnissa, ja tähän suuntaan on keskitetty paljon työtä. Tämän arvion saamista vaikeuttaa pieni näytekoko useimmissa RNA-seq-kokeissa, mikä motivoi tiedon jakamista geenien välillä tarkempien arvioiden saamiseksi. Ensimmäinen oletus oli olettaa, että varianssiparametri on sama kaikille geeneille, mikä mahdollisti sen estimoimisen kaikella saatavilla olevalla tiedolla ehdollisen maksimitodennäköisyyden menetelmällä. DESeq, edgeR, NBPSeq käyttävät geenidatan jakamista varianssin arvioimiseen , ero on menetelmässä. edgeR käyttää vähemmän rajoittavaa lähestymistapaa - varianssi määritetään jokaiselle geenille, mutta yksittäiset estimaatit "vedetään" kokonaisvarianssiin painotetun todennäköisyyden menetelmällä e dgeR [ 31] , [17] , [32] .
Useimmat parametriset mallit (baySeq, DESeq, edgeR ja NBPSeq) käyttävät käänteistä binomijakaumamallia selittämään ylimääräistä varianssia [31] , [17] , [32] .
TSPM (Two-Stage Poisson Model) perustuu näytteiden Poisson-malliin, jota on laajennettu lähes todennäköisyydellä kuvaamaan datan liiallista varianssia. Ensimmäinen vaihe on testata jokaista geeniä erikseen liiallisen varianssin varalta, jotta voidaan päättää, kumpaa kahdesta mallista käytetään differentiaaliseen ilmentymisanalyysiin. Differentiaalinen ilmentymistesti perustuu asymptoottisiin tilastoihin, joissa oletetaan, että kunkin geenin fragmenttien kokonaismäärä ei ole liian pieni. Kirjoittajat suosittelevat sellaisten geenien hylkäämistä, joiden fragmenttien kokonaismäärä on alle 10. On myös tärkeää, että geenit ovat läsnä näissä tiedoissa ilman liiallista hajaantumista [33] ).
ShrinkSeq antaa käyttäjälle mahdollisuuden valita joukosta jakaumia, mukaan lukien käänteisbinomi ja käänteisbinomi ylimääräisellä määrällä nollia [30] .
DESeq, edgeR, NBPSeq käyttävät klassista hypoteesitestausta [31] , [32] . baySeq, EBSeq, ShrinkSeq käyttävät Bayesin tilastoja [28] [29] [30] .
DESeq:ssä ja NBPSeq :ssä varianssiestimaatit saadaan mallintamalla havaittu keskiarvon ja varianssin välinen suhde paikallisella tai parametrisella regressiolla . NBPSeq:ssä käytetään saatuja varianssiarvoja, DESeqissä käytetään konservatiivista lähestymistapaa - valitaan suurin varianssiarvo (arviosta, jossa on erotettu tiedot muista geeneistä ja estimaatti yksittäisen geenin varianssista) . EdgeR:ssä, DESeq:ssä ja NBPSeq:ssä differentiaalisen ilmentymisen merkitys testataan eräänlaisella eksaktiolla (kahden ryhmän vertaamiseksi) tai yleistetyllä lineaarisella mallilla [31] [17] [32] .
Käyttäjä määrittää baySeqissä kokoelman malleja, jotka jakavat näytteet ryhmiin. Ryhmässä oletetaan samat pääjakauman parametrit. Kunkin mallin posteriori todennäköisyys arvioidaan sitten kullekin geenille. Tietoa koko geenijoukosta käytetään muodostamaan empiirinen ennakkojakauma käänteisen binomiaalisen jakauman parametreille [28] .
EBSeq käyttää samanlaista lähestymistapaa, mutta olettaa parametrisen muodon parametriprioreista, jolloin hyperparametrit jaetaan kaikkien geenien kesken ja estimoidaan tiedoista [29] .
Ei-parametrinenNOISeq ja SAMSeq ovat ei-parametrisiä menetelmiä, eivätkä ne tarkoita tietojen jakautumista [37] , [38] .
SAMSeq perustuu Wilcoxonin tilastoon, joka on keskiarvotettu useista datan arvioinneista käyttäen permutaatioita FDR:n (false discovery rate) arvioimiseksi. Näitä pisteitä käytetään määrittämään kunkin geenin q-arvo [38] .
NOISeq määrittää muutoksen punaisuuden jakauman ja absoluuttisten ilmaisuarvojen eron näytteiden välillä eri olosuhteissa ja vertaa tätä jakaumaa siihen, joka saadaan vertaamalla näytteitä samoissa olosuhteissa (kutsutaan "kohinajakaumaksi"). Lyhyesti sanottuna kullekin geenille lasketaan tilasto, joka määritellään kohinajakauman pisteiden osuutena, joka vastaa pienempää lievyyttä ja absoluuttisten ilmentymisarvojen eroa kuin ne, jotka on saatu kiinnostuksen kohteena olevalle geenille alkuperäisissä tiedoissa [37] .
Kun verrataan geenien ilmentymistä useissa kokeissa, tehdään joko useita parivertailuja tai käytetään malleja, jotka vertaavat koeryhmiä. Siinä tapauksessa, että huomioidaan Κ - vaikutukset (esimerkiksi hoito), Τ 0 …Τ κ-1 , geenien ilmentymiseen, voidaan käyttää useita pohjimmiltaan erilaisia vertailusuunnitelmia [39] [40] .
Kun verrataan suurta määrää kokeita, on tarpeen käyttää useiden vertailujen korjausta ( FDR , FWER , säädetty p-arvo tai muut) [43] , jotta voidaan sulkea pois mahdollisuus saada vahingossa merkittävä ero geenin ilmentymisessä. Vain parivertailujen käyttäminen analysoitaessa suurta määrää koeryhmiä (tekijöitä) ei ole optimaalista, koska se vaatii huomattavan paljon aikaa. Tällaisissa tapauksissa on järkevämpää käyttää malleja, jotka ottavat huomioon useiden tekijöiden vaikutukset [39] [40] .
Kokeet, joissa tarkastellaan useiden tekijöiden vaikutuksia, käyttävät olennaisesti samoja matemaattisia lähestymistapoja ( regressioanalyysi , Bayesin tilastot ) kuin yksimuuttujaanalyysissä, mutta ryhmävertailujen suunnittelu on monimutkaisempaa. Tässä on joitain niistä [45] .