Geeniekspression kvantitatiivinen analyysi

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 21. joulukuuta 2019 tarkistetusta versiosta . tarkastukset vaativat 20 muokkausta .

Geeniekspression kvantitatiivinen analyysi - transkriptioanalyysi , geenin transkriptionaalisen aktiivisuuden mittaaminen määrittämällä sen tuotteen määrä, lähetti-RNA (mRNA) , universaali useimmille geeneille .

Tässä tapauksessa geeniekspression lopputuote on yleensä proteiineja mRNA:n sijaan .

Menetelmät

Menetelmät mRNA : n määrän mittaamiseksi :

kvantitatiivinen reaaliaikainen PCR (qPCR) - menetelmän rajoituksista johtuen sitä käytetään suhteellisen pienen määrän geenien ilmentymistason analysointiin
vertaileva genominen hybridisaatio siruilla (CGH) - mahdollistaa kvantitatiivisten muutosten näkemisen geeniekspressiossa suoraan kromosomeissa
microarrays - voit saada tietoa useiden geenien ilmentymistasosta
korkean suorituskyvyn rinnakkais-RNA-sekvensointi (RNA-Seq) - voit laskea sekä lukuisten että pienten RNA :iden määrän [1] .

Ekspression kvantifiointi RNA-Seq:llä

RNA-sekvensoinnin tuloksena syntyy lukukirjasto (tai lukukirjasto). Lukupituus vaihtelee 25 - 200 nukleotidin välillä valitusta sekvensointimenetelmästä riippuen . Sen jälkeen lukemat kartoitetaan (tai kohdistetaan) referenssigenomiin. Lukemat voidaan kohdistaa useisiin genomin alueisiin kerralla tai saman geenin eri isoformeihin. Tekniikka mahdollistaa vain transkriptin suhteellisen määrän mittaamisen solussa. Yksinkertaisin tapa on ottaa huomioon vain yksilöllisesti kohdistetut lukemat annotoiduille geenimalleille. Tässä tapauksessa RPKM [2] (lukemia kiloemäksestä miljoonaa kartoitettua lukua kohti) on sopiva transkriptioilmaisun kvantitatiivinen mitta [2] :

$RPKM={\frac {X}{({\frac {l}{10^{3}}})\cdot ({\frac {N}{10^{6}}})}}$ ,

missä on transkriptin lukukertojen määrä, transkription pituus ja lukukertojen kokonaismäärä. Tämä kaava on maksimitodennäköisyysarvio polynomimallille , jossa lukuja kartoitetaan transkripteihin [ 3] $X$ $l$ $N$

Monia lukemia ei kuitenkaan voida kartoittaa yksiselitteisesti . Esimerkiksi geenien päällekkäisyydet , koska tässä tapauksessa ei ole selvää, missä genomi tarkalleen kartoitetaan . Myöskään tietoa korkeampien eukaryoottien geenien rakenteesta ( vaihtoehtoinen silmukointi , vaihtoehtoiset promoottorit , erilaiset polyadenylaatiokohdat ) ei ole tutkittu riittävästi edes malliorganismeissa , mikä myös vaikeuttaa tulosten yksiselitteistä tulkintaa. Siksi käytetään lähestymistapoja, jotka mahdollistavat kartoituksen silmukointipisteiden [4] perustamisen ja sen jälkeen transkription kokoamisen [5] kanssa .

Tällä hetkellä on olemassa laaja valikoima malleja transkription määrän laskemiseen . ne voidaan jakaa seuraavien pääominaisuuksien mukaan [6] :

lukukartoituksen generatiivinen malli: käytä polynomia , Poisson , negatiivinen binomi , yleistetty Poisson . Tiedetään, että generatiiviset mallit, valitusta jakauman tyypistä riippumatta, johtavat samoihin arvioihin transkriptin määrästä [3] .
ottaen huomioon "multi-reads" (luku, joka voi viitata sekä yhden geenin eri isoformeihin että eri geenien erilaisiin transkripteihin).
ottamalla huomioon parilliset lukemat ( sekvensoitujen fragmenttien päät) - ne tarjoavat arvokasta tietoa; niiden analyysissä on tarpeen arvioida fragmenttien pituuksien jakautuminen. Parillisten lukujen tapauksessa otetaan käyttöön FPKM-mitta (fragmentteja kiloemäksestä miljoonaa kartoitettua lukua kohti - fragmentteja kiloemäskohtaa kohti miljoonaa kartoitettua lukua kohti)
ottaen huomioon systemaattiset sijaintipoikkeamat, kuten epätasainen transkription peitto
ottaen huomioon järjestelmälliset poikkeamat, jotka riippuvat sekvenssin kontekstista, kuten lukujen päistä, koska ne ovat yleensä ei-satunnaisia ja osoittavat mieltymyksiä RNA -fragmentoitumiselle .

Tällä hetkellä on olemassa laaja valikoima ohjelmia geeniekspression kvantitatiiviseen analysointiin: Kalvosinnapit [7] , IsoEM, HTSeq, RSEM [8] , MISO. Näitä menetelmiä käytetään yhtä aktiivisesti transkriptomin määrän arvioinnissa, mutta tietyt vivahteet taustalla olevien algoritmien toiminnassa voivat tehdä ohjelman paremmaksi, tilanteesta riippuen.

HTSeq

Yksinkertainen lähestymistapa, joka laskee lukujen lukumäärän, jotka ovat päällekkäisiä tietyn genomin kanssa . Samaan aikaan ohjelma sisältää erilaisia määritelmiä lukemisen ja geenin leikkaamisen tosiasiasta. Lisää ilmentymistä voidaan määrittää RPKM:n avulla [8] .

Kalvosinnapit

Tässä algoritmissa cDNA -kirjasto kartoitetaan ensin genomiin silmukoituneen kohdistuksen rakentamiseksi toisella TopHat- ohjelmalla . Sitten kohdistuksen perusteella rakennetaan graafi parillisilla cDNA -lukemilla kärkipisteissä, joihin reuna piirretään, jos kaksi parillista lukua voi olla samassa transkriptissa . Graafin perusteella palautetaan mahdolliset isomuodot (graafin minimipeitteenä). Tämän seurauksena lukemat kartoitetaan rakennettuihin transkriptioihin . Tilastollisen mallin puitteissa todennäköisyys , että ruoko kuuluu johonkin isoformiin, on verrannollinen transkriptin määrään , ja tämän perusteella muodostetaan maksimitodennäköisyysfunktio , jossa maksimitodennäköisyysfunktion maksimi vastaa haluttua lukua. transkriptioista [ 5] .

MISO

MISO (Mixture of Isoforms) on todennäköisyyspohjainen kehys, joka kvantifioi vaihtoehtoisesti silmukoituneiden geenien ilmentymistason RNA-Seq-tiedoista ja tunnistaa näytteistä differentiaalisesti säädellyt isoformit tai eksonit. Perustuu tilastolliseen malliin geenien isoformien lukumäärän arvioimiseksi ( MISO ). MISO pitää isomuotojoukon ilmentymistasoa satunnaismuuttujana ja arvioi jakauman tämän muuttujan arvojen mukaan. Estimointialgoritmi on otospohjainen ja kuuluu Markov-ketjun Monte Carlon ("MCMC") menetelmiin.

Systemaattiset virheet ja toistettavuus

RNA-sekvensoinnin seurauksena tapahtuu systemaattisia virheitä, jotka voivat vaikuttaa merkittävästi ilmentymisen arviointiin. Monia biokemiallisia piirteitä ei voida havaita ja niiden vaikutusta ottaa huomioon, mutta jotkin virheet, kuten epäsatunnainen ja epätasainen fragmentoituminen pituussuunnassa, voidaan silti ottaa jossain määrin huomioon [9] .

Kopioita käytetään virheiden korjaamiseen. Kopioita on kahdenlaisia: teknisiä ja biologisia. Tekniset jäljennökset sisältävät saman biologisen materiaalin sekvensoinnin useita kertoja. Biologiset jäljennökset sen sijaan sisältävät erilaisten biologisten materiaalien sekvensoinnin . Sekvensoiduista fragmenteista vain pieni osa luetaan. Kiinteään geeniin liittyvä lukujen osa tulee olemaan hieman erilainen näytteelle ja tarkasteltavalle pienelle osalle johtuen tämän osan satunnaisesta valinnasta. Jos osa tietyn geenin lukemista näytteessä on yhtä suuri kuin p, niin se osa lukemista, jotka osuvat geeniin , noudattaa binomiaalista tai Poisson-jakaumaa keskiarvolla p. Tämän osan arvioimiseksi tarvitaan teknisiä vihjeitä. Biologisten kopioiden tapauksessa ilmentymän vaihtelua ei selitetä Poisson-jakaumalla . Tässä tapauksessa käytetään negatiivista binomiaalista tai yleistettyä Poisson-jakaumaa. Tämä säilyttää oletuksen, että variaatio riippuu keskimääräisestä lausekkeesta . Biologisten jäljennösten pienestä määrästä johtuen vaihtelua arvioidaan erilaisilla regressiomenetelmillä [ 10] .

Geeniekspression analyysi DNA-mikrosirujen avulla

DNA-mikrosiru on pieni pinta, jolle on kerrostettu yksijuosteisen DNA :n fragmentteja, joilla on tunnettu sekvenssi. Nämä fragmentit toimivat koettimina, joiden kanssa komplementaariset DNA-juosteet tutkittavasta näytteestä hybridisoituvat. DNA-mikrosiruja on kahta eri tyyppiä - oligonukleotidi-mikrosiruja ja cDNA-mikrosiruja [11] .

cDNA-mikrosirujen avulla on kätevää tutkia muutoksia geenien ilmentymistasoissa esimerkiksi eri sairauksien yhteydessä. Kahdesta solunäytteestä (kontrolli ja testi) eristetään RNA , josta cDNA saadaan käänteistranskriptiolla . Jokainen saaduista näytteistä värjätään jollakin väriaineella (yleensä käytetään Cy3 :a ja Cy5 :tä ). Leimattuja näytteitä laitetaan mikrosirulle samanaikaisesti, ja hybridisoitumattomien molekyylien poispesun jälkeen fluoresenssi mitataan pyyhkäisykonfokaalimikroskoopilla [12] .

Kun näytettä valmistellaan analysoitavaksi oligonukleotidimikrosirulla , cRNA syntetisoidaan saadun cDNA :n matriisiin leiman (esimerkiksi biotiinin tai fluoreseiinin ) läsnä ollessa . Korotetun lämpötilan olosuhteissa leimattu cRNA hybridisoituu mikrosirussa olevien koettimien kanssa. Normalisointia varten mutatoidun oligonukleotidin sitoutumisarvot vähennetään tuloksena olevasta data-analyysistä. Lisäksi, koska kullekin geenille luodaan noin 25 erilaista koetinta, niiden lopulliset arvot lasketaan kaikkien näiden koettimien normalisoitujen intensiteettien keskiarvona [12] .

Microarray - hybridisaatio on erittäin tehokas menetelmä kaikkien testinäytteen geenien ekspressiotasojen arvioimiseksi samanaikaisesti . Tämän tutkimustekniikan luonne on kuitenkin sellainen, että kokeessa saatujen arvojen tarkka analyysi vaaditaan luotettavien laadullisten ja kvantitatiivisten tietojen saamiseksi. On tarpeen normalisoida tiedot ja maksimoida signaali-kohinasuhde, koska muutokset ekspressioprofiileissa verratuissa näytteissä voivat olla pieniä [11] .

Ennen käsittelyä data on digitaalinen kuva eri kanavien fluoresenssin intensiteetistä. Ensinnäkin substraatin fluoresenssi vähennetään kunkin tietyn näytteen fluoresenssista. Kaksi vaihtoehtoa on mahdollista: joko substraatin fluoresenssi lasketaan suoraan sen viereen kullekin näytteelle tai koko mikrosirun substraatin keskimääräinen fluoresenssi. Ensimmäistä vaihtoehtoa pidetään oikeampana, koska eri mikrosirualueiden fluoresenssi voi vaihdella [12] .

Taustavähennystä seuraa väriaineiden fluoresenssin intensiteettien normalisointi. Väriaineiden fluoresenssi ja niiden fuusio koettimien kanssa riippuu geenin sekvenssistä, kunkin spesifisen hybridisaation suorittamisen edellytyksistä , mikrosirun laadusta sekä niiden säilytysolosuhteista ja kestosta. Normalisointi suoritetaan joko kotipitogeenejä vastaavien näytteiden fluoresenssin perusteella tai tuomalla mikrosirulle ja näytteeseen tunnettu määrä tutkittaville soluille epätavallista eksogeenistä mRNA :ta . Luotettavampien arvojen saamiseksi identtisiä DNA - näytteitä käytetään saman mikrosirun eri alueille . Mikrosirun laatuindeksi määräytyy eri näytteissä olevien identtisten näytteiden data-arvojen erojen perusteella [12] .

Kaikesta tästä huolimatta kokeissa saadut tiedot eivät kuitenkaan ole geeniekspression kvantitatiivista arviota . Yhdestä geenistä saadut tulokset voivat vaihdella laboratorioittain ja mikrosiruista toiseen. Tällaisten kokeiden avulla on mahdollista arvioida kvalitatiivisia muutoksia ilmentymisprofiileissa eri näytteissä [11] .

Sovellus

Aiemmin tutkijat luokittelivat eri syöpätyyppejä vain sen perusteella, mihin elimeen ne olivat vaikuttaneet. DNA-mikrosirujen avulla on mahdollista luokitella kasvaimia solujen geeniaktiivisuusmallien mukaan . Tämä mahdollistaa lääkkeiden kehittämisen, jotka kohdistuvat tietyntyyppiseen syöpään . Lisäksi lääkkeellä käsiteltyjen ja käsittelemättömien solujen ilmentymisprofiilien analyysi antaa tutkijoille mahdollisuuden ymmärtää tarkasti, kuinka lääke vaikuttaa soluihin . Lisäksi tutkittavassa kasvainnäytteessä on usein eri kloonien soluja , jotka voivat poiketa merkittävästi geeniekspression profiilista . Pahanlaatuisen kasvaimen yksittäisten solujen geeniekspression tason arviointi ennustaa tarkemmin kasvaimen ja sen etäpesäkkeiden kehittymistä [13] .

Laboratoriotutkimuksissa geeniekspression kvantitatiivisen analyysin menetelmiä käytetään useissa eri geenien ilmentymisen tutkimukseen liittyvissä kokeissa . Kokeissa, joissa soluja pidettiin muissa kuin normaaleissa olosuhteissa, havaittiin enimmäkseen muutoksia geenien ilmentymisprofiileissa . Tällaisten tutkimusten tulokset valaisevat solujen reagoinnin mekanismeja ympäristön muutoksiin. Myös geenien ilmentymistasot muuttuvat aktiivisesti alkion ja sikiön jälkeisen kehityksen aikana , kun jotkut proteiinit korvataan toisilla, jotka säätelevät kehon kasvu- ja muodostumisprosesseja. Yhteiset muutokset useiden geenien ilmentymistasoissa mitä tahansa parametreja muuttaessa voivat viitata näiden geenien tuotteiden vuorovaikutukseen solussa [13] .

Geeniekspressioanalyysi

Geeniekspression kvantitatiivinen analyysi suoritetaan useilla tasoilla ja eri tavoitteilla [14] , [15] :

1) Yksittäisen geenin ilmentymisen muutoksen määrittäminen kokeen olosuhteista riippuen (näytteen käsittely).

2) Geenien klusterianalyysi yleistä toiminnallisuutta, vuorovaikutusta, yhteissäätelyä varten. Tässä tapauksessa käytetään dimensiovähennysmenetelmiä ja visualisointimenetelmiä. Esimerkkinä: Pääkomponenttien analyysi ja klusterointi . DNA - sekvenssejä analysoidaan säätelyalueiden, motiivien löytämiseksi.

3) Havaittuja mittaustuloksia vastaavien geenien ja proteiinien välisten vuorovaikutusverkostojen tunnistaminen ja ymmärtäminen .

Siten ilmentymisen muutosten analysointia voidaan pitää geenien klusteroimisena "muuttuneiksi" ja "muuttumattomiksi" [14] .

Systemaattiset virheet ja toistettavuus

Geeniekspression muutosten analysointi voi olla monimutkaista huonon toistettavuuden vuoksi, koska monet monimutkaiset toisiinsa liittyvät tekijät ovat vuorovaikutuksessa eri tasoilla ja kokeen eri vaiheissa. Kaikki muunnelmat voidaan jakaa biologisiin, kokeellisiin ja teknisiin vaihtelulähteisiin. Saatujen tulosten vaihteluiden teknisiä lähteitä ovat: virhe mikrosirujen valmistuksessa, erot kuvien saanti- ja käsittelytekniikoissa, signaalinpoistomenetelmät ja tietojenkäsittely [15] .

Biologinen

Uskotaan, että suurin osuus variaatioiden esiintymiseen on eroilla yksittäisissä geeniekspression tasoissa eri soluissa ja solupopulaatioissa. Eroja ei havaita vain kliinisten näytteiden välillä (jotka sisältävät erityyppisiä soluja ), mutta jopa sellaisten monoklonaalisten "identtisten" viljelmien näytteiden välillä, jotka ovat saman solun klooneja ja joita pidetään "identtisissä" olosuhteissa, on eroja. Nämä erot johtuvat mikroympäristövaikutuksista (esim. epätasainen ravintosisältö, lämpötilagradientti), erot solujen kasvuvaiheessa viljelmässä, geeniekspression nopean muutoksen jaksot ja monet muut hallitsemattomat satunnaiset vaikutukset, kuten solujen vuorovaikutus ja satunnainen jakautuminen pienestä määrästä transkriptiotekijämolekyylejä (tiettyjen geenien ilmentyminen voi merkittävästi riippua muutamasta molekyylistä) [15] .

Transkriptin sekundäärisen rakenteen läsnäolo vaikuttaa myös RNA :n säilymiseen [15] .

Kokeellinen (näytteen valmistelu)

Kaikkien näytteiden valmistelun vaiheiden standardointi on välttämätöntä (esimerkiksi lämpötilan, ravinteiden koostumuksen muuttaminen, jopa elävien solujen lyhytaikaisella sentrifugoinnilla , voi aiheuttaa muutoksen ilmentymisprofiilissa) [15] . Bakteerinäytteiden valmistuksessa RNA : n nopea hajoaminen RNaasien läsnä ollessa on välttämätöntä, ja siksi ehdotonta steriiliyttä on noudatettava RNA:n ennenaikaisen hajoamisen välttämiseksi.

Parhaana strategiana mRNA -näytteen valmistamiseksi pidetään vähimmäiskäsittelyaikaa olosuhteissa, jotka "jäädyttävät" mRNA :n tason näytteenottohetken tasolle, ja RNA:ta hajottavien entsyymien, RNaasien [15] toiminnan estämistä. [15] .

Normalisointi

Näytteiden geeniekspressioprofiileja verrattaessa käytetään normalisointia ottaen huomioon kokeellisen ja biologisen variaation lähteet [16] :

solujen lukumäärä näytteessä
RNA -uuton kokonaistehokkuus
RNA- molekyylien eristyksen ja leimauksen tehokkuus (riippuen sekvenssistä)
hybridisaation tehokkuus
signaalin mittaustarkkuus ja herkkyys

Systemaattisissa vaihteluissa (joiden katsotaan olevan sama vaikutus verrattuihin näytteisiin) käytetään seuraavia menetelmiä [16] :

erot sekvenssien nukleotidikoostumuksessa voivat johtaa eroihin fragmenttien esittämisessä analysoidun näytteen kirjastossa
pidempiä geenejä varten kartoitetaan enemmän fragmentteja
kun valmistetaan cDNA - kirjasto poly-T- alukkeella , fragmenttien esitys lisääntyy geenin alusta loppuun

Samaan aikaan yksinkertaiset lähestymistavat normalisointiin ottavat huomioon vain verrattujen näytteiden fragmenttien kokonaismäärän, ja pieni määrä ekspressiota lisääviä geenejä voi johtaa huomattavan määrän ilmentymistä vähentävien geenien virheelliseen havaitsemiseen [16] .

Usein myös kartoitettujen fragmenttien lukumäärän arvojen kanssa tai sijasta käytetään arvoja RPKM - Read Per Kilobase per Million Mapped Reads tai FPKM - Fragments Per Kilobase per Million Mapped Reads [16] .

Menetelmät

Kaikissa normalisointimenetelmissä oletetaan, että suurin osa vertailtujen näytteiden geeneistä ilmentyy samalla tavalla ja niiden geenien osuus, joilla on vähentynyt ilmentyminen (alassäädelty), on suurin piirtein yhtä suuri kuin ylössäädeltyjen geenien osuus. TMM (Trimmed Mean of M-values) ja käytetty DESeq-paketissa [17] .

Parivertailu

Haussa käytetään kahden näyteryhmän vertailua ja etsitään geenejä, joiden ilmentymistasot eroavat merkittävästi näiden kahden ryhmän välillä. Tarkista jokaisen geenin osalta, onko sen ilmentyminen muuttunut. Oletetaan, että tiedot ovat joukko toistuvia mittauksia kullekin geenille ja edustavat mitattua ilmentymistasoa tai sen logaritmia tutkimus- (hoito-) ja kontrollinäytteissä (kontrollinäytteissä). Käytetyt menetelmät voidaan jakaa jatkuvaan ( t-testi ) ja diskreettiin (PPDE) [18] [19] . $x_{1}^{c};...;x_{n_{c}}^{c}$ $x_{1}^{t};...;x_{n_{t}}^{t}$

Analysoitaessa mikrosiruilla saatua tietoa , saadut mittaukset tulkitaan jatkuviksi arvoiksi ( lognormaalijakauma ). RNA-Seq-dataa analysoitaessa käytetään Poisson- , käänteisbinomiaali- ja jopa beeta-binomijakaumia [20] .

Kiinteä kynnys suhteelliselle muutokselle lausekkeessa

Varhaisessa työssä käytettiin lähestymistapaa, jossa geeniä pidettiin eri tavalla ilmentyneenä, jos sen ilmentymisen suhteellinen muutos ylitti tietyn kynnyksen (yleensä 2) [21] .

Yksinkertainen t-testi

T-testi on tunnettu kriteeri keskiarvojen yhtäläisyyden arvioinnissa vaihtelu huomioon ottaen. Normalisoitu etäisyys lasketaan käyttämällä sekä kontrolli- että testinäytteen otoskeskiarvoa ja niiden varianssia ja kaavan [22] mukaisesti. $m_{c}$ ${\näyttötyyli m_{t))$ ${\displaystyle s_{c}^{2))$ ${\displaystyle s_{t}^{2))$

$t={\frac {\left(m_{c}-m_{t}\right)}{\sqrt ({\frac {s_{c}^{2)){n_{c))}+ {\frac {s_{t}^{2}}{n_{t}}}}}}$ ,

missä ja . Tiedetään, että jakauma t on lähellä Studentin jakaumaa vapausasteiden lukumäärällä f, missä [22] ${\textstyle m={\sum _{i}x_{i}}/{n}}$ ${\textstyle s^{2}={\sum _{i}{(x_{i}-m)}^{2}}/{n-1}}$

${\textstyle f={\frac {\left[\left(s_{c}^{2}/n_{c}\right)+\left(s_{t}^{2}/n_{t}\right )\right]^{2}}{{\frac {\left(s_{c}^{2}/n_{c}\right)^{2}}{n_{c}-1}}+{\ frac {\left(s_{t}^{2}/n_{t}\right)^{2}}{n_{t}-1}}}}}$ .

Kun t ylittää tietyn kynnyksen, riippuen valitusta merkitsevyystasosta, geenin katsotaan muuttaneen ilmentymistä [22] .

Koska etäisyys normalisoidaan t-testissä näytteen keskihajonnan avulla, sen käyttö on parempi kuin kiinteän kynnyksen käyttö lausekkeen suhteelliselle muutokselle [22] .

T-testin käytön suurin ongelma piilee mittaustoistojen pienessä määrässä ja kokeen korkeiden kustannusten tai monimutkaisuuden vuoksi [22] . $n_{c}$ $n_t$

Regularisoitu t-testi

Tätä menetelmää käytetään arvioimaan geenin vaihtelua käyttämällä tietoa muista geeneistä. Geeniekspression logaritmin arvot mallinnetaan itsenäisinä normaalijakaumina , jotka on parametroitu vastaavilla keinoilla ja varianssilla [23] .

${\textstyle P\left(D\oikea|\mu ,\sigma ^{2})\approx \prod _{i=1}^{n}{N\left(x_{i},\mu ,\sigma ^{2}\right)}=C\left(\sigma ^{2}\oikea)^{-n/2}e^{-\sum _{i}{(x_{i}-\mu )^ {2}}/2\sigma ^{2}}=}$
${\textstyle =C\left(\sigma ^{2}\oikea)^{-n/2}e^{-\left(n(m-\mu )^{2})+(n-1)s ^{2})\oikea)/2\sigma ^{2}}}$ ,
jossa C on vakio jakauman normalisoimiseksi [23] .

Hyväksy ja hyväksy a priori todennäköisyydet - skaalattu käänteisgamma ja - normaalijakautuma [23] . $\mu$ $\sigma$ $P(\sigma ^{2})$ $P(\mu |\sigma ^{2})=N\left(\mu ;\mu _{0},\sigma ^{2}/\lambda _{0}\right)$

On osoitettu, että arvon ja lausekkeen vaihtelun välillä on suhde. Läheisillä ekspressioarvoilla havaitaan läheisiä ekspression vaihtelun arvoja. Siten on mahdollista soveltaa a priori tietoa Bayesin tilastoissa saadakseen parempia arvioita yksittäisen geenin ilmentymisen vaihtelusta käyttämällä samasta kokeesta saadun huomattavan määrän muiden geenien, joilla on samanlaiset ilmentymistasot, mitattua ilmentymistasoa [23] . ] .

$P\left(\mu ,\sigma ^{2}|D,\alpha \right)=N\left(\mu ;\mu _{n},\sigma ^{2}\right)I( \sigma ^{2};\nu _{n},\sigma _{n}^{2})$ ,

missä , , ,
$\mu _{n}={\frac {\lambda _{0}}{\lambda _{0}+n}}\mu _{0}+{\frac {n}{\lambda _{ 0}+n}} m$ $\lambda _{n}=\lambda _{0}+n$ $\nu _{n}=\nu _{0}+n$
$\nu _{n}\sigma _{n}^{2}=\nu _{0}\sigma _{0}^{2}+(n-1)s^{2}+{\ frac {\lambda _{0}n}{\lambda _{0}+n}}{(m-\mu _{0})}^{2}$

Pisteestimaateissa käytetään posteriorestimaatin (MP) tai moodin (MAP - maksimi a posteriori ) keskiarvoa [24] .

Joustavassa toteutuksessa geenin ilmentymisen taustavarianssi lasketaan ottamalla huomioon tarkasteltavan viereiset geenit, esimerkiksi 100 symmetrisen ilmentymistasoikkunan sisällä olevaa geeniä [24] .

Vaikka tämä menetelmä ei poista toistuvien mittausten tarvetta, sen käyttö voi vähentää merkittävästi väärien positiivisten löydösten määrää jopa pienellä toistomäärällä [24] .

Differentiaalilausekkeen todennäköisyyden arviointi

PPDE (Posterior Probability of Differential Expression), differentiaalisen ilmentymän posteriorinen todennäköisyys [25] .

Mitattujen tietojen meluisuuden ja vaihtelevuuden vuoksi on odotettavissa vääriä positiivisia ja vääriä negatiivisia löydöksiä eri tavalla ilmentyneistä geeneistä [26] .

Intuitiivinen tapa arvioida vääriä positiivisuutta on verrata samasta kontrollinäytteestä saatuja mittauksia, kun taas geenin ilmentymisen ei pitäisi muuttua [26] .

Myös tälle lähestymistavalle ehdotetaan muodollisempaa laskennallista toteutusta: ennakkotieto perustuu havaintoon, että mikäli geenin ilmentymisessä ei tapahdu muutoksia, kunkin geenin p -arvo tulisi jakaa tasaisesti 0:n ja 1:n välille. geenit minkä tahansa p -arvon alapuolella on yhtä suuri kuin p ja yllä oleva suhde on yhtä suuri kuin 1 -p ) . Jos muutoksia tapahtuu, geenien p - arvojen jakauma ”supistuu” enemmän kohti nollaa kuin kohti 1:tä, eli syntyy osajoukko eri tavalla ilmentyviä geenejä , joilla on ”merkittävillä” p - arvoilla. Tämä jakauma mallinnetaan yhtenäisten ja epäyhtenäisten jakaumien painotetulla yhdistelmällä. Jokaiselle geenille lasketaan todennäköisyys, että se liittyy epäyhtenäiseen jakaumaan - PPDE [27] .

Mallinnuksessa käytetään beeta-jakaumien sekoitusta [27] , jossa yhtenäinen on erikoistapaus [27] .

$P(p)=\sum _{i=0}^{K}{\lambda _{i}}\beta (p;r_{i},s_{i})$

Yleensä EM-algoritmia käytetään määrittämään seoksen painot [27] . $\lambda _{i}$

Differentiaalisen ilmaisun posteriorinen todennäköisyys lasketaan [27] .

${\displaystyle PPDE=P(muutos|P)={\frac {\sum _{i=1}^{K}{\lambda _{i}\beta (p;r_{i},s_{i}) }}{\sum _{i=0}^{K}{\lambda _{i}\beta (p;r_{i},s_{i))}}}={\frac {\sum _{i =1}^{K}{\lambda _{i}\beta (p;r_{i},s_{i}))){\lambda _{0}+\sum _{i=1}^{K }{\lambda _{i}\beta (p;r_{i},s_{i})))))$

Usein toteutus olettaa, että p - arvot saadaan t-testijakaumasta uutena datana ja rakentaa niistä todennäköisyysmallin [27] .

Algoritmit

Erilaisesti ilmentyneiden geenien analysointimenetelmien/-ohjelmien lähtötiedot ovat matriiseja , jotka sisältävät tietoja RNA-Seq-kokeessa kullekin näytteelle kartoitettujen fragmenttien lukumäärästä geeniä/eksonia kohti. Yleensä näytedataa käytetään suoraan (baySeq [28] , EBSeq [29] , ShrinkSeq [30] , edgeR [31] , DESeq [17] , NBPSeq [32] ja TSPM [33] ), mutta on olemassa algoritmeja, jotka muuntaa näytteitä ja käyttää algoritmeja, jotka on suunniteltu analysoimaan hybridisaatiomikrosiruilla saatua dataa (NOISeq [34] ja SAMseq [35] ).

Nopeuttaa merkittävästi RNA :n tietojen käsittelyä mahdollistaa "kevyet algoritmit" Sailfish [36]

Mallit

Parametrinen

Tiedetään, että luotettavan arvion saaminen kunkin geenin varianssiparametrista on ratkaisevan tärkeää differentiaalisen ilmentymisen analysoinnissa, ja tähän suuntaan on keskitetty paljon työtä. Tämän arvion saamista vaikeuttaa pieni näytekoko useimmissa RNA-seq-kokeissa, mikä motivoi tiedon jakamista geenien välillä tarkempien arvioiden saamiseksi. Ensimmäinen oletus oli olettaa, että varianssiparametri on sama kaikille geeneille, mikä mahdollisti sen estimoimisen kaikella saatavilla olevalla tiedolla ehdollisen maksimitodennäköisyyden menetelmällä. DESeq, edgeR, NBPSeq käyttävät geenidatan jakamista varianssin arvioimiseen , ero on menetelmässä. edgeR käyttää vähemmän rajoittavaa lähestymistapaa - varianssi määritetään jokaiselle geenille, mutta yksittäiset estimaatit "vedetään" kokonaisvarianssiin painotetun todennäköisyyden menetelmällä e dgeR [ 31] , [17] , [32] .

Useimmat parametriset mallit (baySeq, DESeq, edgeR ja NBPSeq) käyttävät käänteistä binomijakaumamallia selittämään ylimääräistä varianssia [31] , [17] , [32] .

TSPM (Two-Stage Poisson Model) perustuu näytteiden Poisson-malliin, jota on laajennettu lähes todennäköisyydellä kuvaamaan datan liiallista varianssia. Ensimmäinen vaihe on testata jokaista geeniä erikseen liiallisen varianssin varalta, jotta voidaan päättää, kumpaa kahdesta mallista käytetään differentiaaliseen ilmentymisanalyysiin. Differentiaalinen ilmentymistesti perustuu asymptoottisiin tilastoihin, joissa oletetaan, että kunkin geenin fragmenttien kokonaismäärä ei ole liian pieni. Kirjoittajat suosittelevat sellaisten geenien hylkäämistä, joiden fragmenttien kokonaismäärä on alle 10. On myös tärkeää, että geenit ovat läsnä näissä tiedoissa ilman liiallista hajaantumista [33] ).

ShrinkSeq antaa käyttäjälle mahdollisuuden valita joukosta jakaumia, mukaan lukien käänteisbinomi ja käänteisbinomi ylimääräisellä määrällä nollia [30] .

DESeq, edgeR, NBPSeq käyttävät klassista hypoteesitestausta [31] , [32] . baySeq, EBSeq, ShrinkSeq käyttävät Bayesin tilastoja [28] [29] [30] .

DESeq:ssä ja NBPSeq :ssä varianssiestimaatit saadaan mallintamalla havaittu keskiarvon ja varianssin välinen suhde paikallisella tai parametrisella regressiolla . NBPSeq:ssä käytetään saatuja varianssiarvoja, DESeqissä käytetään konservatiivista lähestymistapaa - valitaan suurin varianssiarvo (arviosta, jossa on erotettu tiedot muista geeneistä ja estimaatti yksittäisen geenin varianssista) . EdgeR:ssä, DESeq:ssä ja NBPSeq:ssä differentiaalisen ilmentymisen merkitys testataan eräänlaisella eksaktiolla (kahden ryhmän vertaamiseksi) tai yleistetyllä lineaarisella mallilla [31] [17] [32] .

Käyttäjä määrittää baySeqissä kokoelman malleja, jotka jakavat näytteet ryhmiin. Ryhmässä oletetaan samat pääjakauman parametrit. Kunkin mallin posteriori todennäköisyys arvioidaan sitten kullekin geenille. Tietoa koko geenijoukosta käytetään muodostamaan empiirinen ennakkojakauma käänteisen binomiaalisen jakauman parametreille [28] .

EBSeq käyttää samanlaista lähestymistapaa, mutta olettaa parametrisen muodon parametriprioreista, jolloin hyperparametrit jaetaan kaikkien geenien kesken ja estimoidaan tiedoista [29] .

Ei-parametrinen

NOISeq ja SAMSeq ovat ei-parametrisiä menetelmiä, eivätkä ne tarkoita tietojen jakautumista [37] , [38] .

SAMSeq perustuu Wilcoxonin tilastoon, joka on keskiarvotettu useista datan arvioinneista käyttäen permutaatioita FDR:n (false discovery rate) arvioimiseksi. Näitä pisteitä käytetään määrittämään kunkin geenin q-arvo [38] .

NOISeq määrittää muutoksen punaisuuden jakauman ja absoluuttisten ilmaisuarvojen eron näytteiden välillä eri olosuhteissa ja vertaa tätä jakaumaa siihen, joka saadaan vertaamalla näytteitä samoissa olosuhteissa (kutsutaan "kohinajakaumaksi"). Lyhyesti sanottuna kullekin geenille lasketaan tilasto, joka määritellään kohinajakauman pisteiden osuutena, joka vastaa pienempää lievyyttä ja absoluuttisten ilmentymisarvojen eroa kuin ne, jotka on saatu kiinnostuksen kohteena olevalle geenille alkuperäisissä tiedoissa [37] .

Useita vertailuja

Kun verrataan geenien ilmentymistä useissa kokeissa, tehdään joko useita parivertailuja tai käytetään malleja, jotka vertaavat koeryhmiä. Siinä tapauksessa, että huomioidaan Κ - vaikutukset (esimerkiksi hoito), Τ 0 …Τ κ-1 , geenien ilmentymiseen, voidaan käyttää useita pohjimmiltaan erilaisia vertailusuunnitelmia [39] [40] .

Epäsuora vertailu — kunkin kokeen ( Τ 0 …Τ κ-1 ) parivertailu kontrolliin;
Suora vertailu - koesarjan parivertailu , esimerkiksi T 0 T 1 : n kanssa , T 1 T 2 : n kanssa jne.
Kaikkien mahdollisten parien vertailu [41] , [42]

Kun verrataan suurta määrää kokeita, on tarpeen käyttää useiden vertailujen korjausta ( FDR , FWER , säädetty p-arvo tai muut) [43] , jotta voidaan sulkea pois mahdollisuus saada vahingossa merkittävä ero geenin ilmentymisessä. Vain parivertailujen käyttäminen analysoitaessa suurta määrää koeryhmiä (tekijöitä) ei ole optimaalista, koska se vaatii huomattavan paljon aikaa. Tällaisissa tapauksissa on järkevämpää käyttää malleja, jotka ottavat huomioon useiden tekijöiden vaikutukset [39] [40] .

Verrattaessa yhden tekijän toiminnan vaikutuksia voidaan käyttää lineaarista mallia ( lineaarinen malli ). Tämä malli olettaa geeniekspression normaalin jakautumisen ja sitä käytetään yleensä mikrosirutietojen analysointiin. Jokaiselle geenille luodaan sopiva lineaarinen malli ja sen kautta lasketaan geenin ilmentymisen tason muutos ( kertamuutos , log-kertainen muutos ja muut tilastot) sekä keskivirhe. Saadut tiedot esitetään tulivuorikuvaajalla Geeniekspression tason muutosten merkitys määritetään varianssianalyysillä (ANOVA). Lisäksi on mahdollista määrittää, mitkä geenit muuttuvat tutkitun tekijän vaikutuksesta. Useiden ryhmien analyyseissä käytetään kokeiden kopioita (replikaatioita) ryhmän sisäisen varianssin määrittämiseksi, mikä mahdollistaa teknisten tekijöiden huomioon ottamisen. Tällaista mallia käytetään esimerkiksi limma Bioconductor -ohjelmistopaketissa .
Generalized Linear Model ( GLM ) on lineaarisen mallin komplikaatio, jota voidaan käyttää erilaisiin datajakaumiin (normaali, binomiaalinen, eksponentiaalinen, Poisson, gamma ...) . Sekä jatkuvia että diskreettejä suureita voidaan pitää tekijöinä. [44] Esimerkiksi tällä mallilla on mahdollista analysoida RNA-Seq dataa . Differentiaalisen ilmaisun merkitys määritetään todennäköisyysfunktiolla. Samanlainen analyysi voidaan suorittaa ohjelmistopaketeissa, kuten edgeR tai DESeq .

Yksisuuntainen dispersiomalli ( yksisuuntainen ANOVA - testi ) mahdollistaa useiden riippumattomien kokeiden analysoinnin (yli kolme), kun taas on mahdollista tunnistaa eri tavalla ilmentyviä geenejä minkä tahansa näyteparin välillä. Tämä analyysi on kätevä, jos ei tiedetä etukäteen, mitkä näytteet/kokeet eroavat toisistaan, ja myös siksi, että sen tulos ei liity ryhmien määrittelytapaan. Itse asiassa tämä analyysi suoritetaan vertaamalla pareittain kaikkien geenien ilmentymistasoja ja paljastaa kaikki parit, joiden välinen ero on nollasta poikkeava [40] .
Monimuuttujainen yleinen lineaarinen malli mahdollistaa useiden riippuvien koeryhmien analysoinnin (toisin kuin yllä kuvatut mallit) . Harkitse esimerkiksi geenien ilmentymisen suhdetta kahdessa eri aivokudoksessa [39] .

Monimuuttujavertailujen suunnittelu

Kokeet, joissa tarkastellaan useiden tekijöiden vaikutuksia, käyttävät olennaisesti samoja matemaattisia lähestymistapoja ( regressioanalyysi , Bayesin tilastot ) kuin yksimuuttujaanalyysissä, mutta ryhmävertailujen suunnittelu on monimutkaisempaa. Tässä on joitain niistä [45] .

Sisäkkäinen malli (hierarkkinen) - lähestymistapa, esimerkki monitekijämallista. Tällaisessa mallissa joitain tekijöitä voidaan tarkastella hierarkkisesti. Esimerkiksi useita luokkia voidaan ottaa huomioon (tila, vaikutuksen aste, sukupuoli jne.), jokainen kohde voidaan luokitella näiden ominaisuuksien mukaan ja sitten vertailla kiinnostusryhmiä.
Aikasarja ( Time series ) - lähestymistapa, jossa kokeen aikana ilmaisutaso mitataan tietyin aikavälein, ottaen huomioon paitsi jatkuvasti jakautuneet, myös diskreetit parametrit. Tällaista mallia käyttämällä voidaan esimerkiksi tutkia geenien työn muutosten dynamiikkaa vasteena mihin tahansa olosuhteisiin.
Additiivinen malli on lähestymistapa, jossa samaa kohdetta (yksilöä, linjaa) tutkitaan ennen altistumista ja sen jälkeen, minkä jälkeen niitä verrataan kunkin organismin osalta erikseen ja sitten organismien ryhmään. Tällainen malli on yleinen estotapaus ( Blocking ), ajatus verrata samankaltaisimpia (usean tekijän perusteella) näytteitä [45] .

Muistiinpanot

↑ Wang Z., Gerstein M., Snyder M. RNA-Seq: vallankumouksellinen työkalu transkriptomiikkaan // Nat Rev Genet : Journal . - 2009. - Ei. 1 . - s. 57-63 . — PMID 19015660 .
↑ 1 2 A Mortazavi, BA Williams, K McCue, L Schaeffer ja B Wold. Nisäkkäiden transkriptomien kartoitus ja kvantifiointi RNA-Seq :llä // Nature Methods : Journal . - 2008. - Ei. 5 . - s. 621-628 . — PMID 18516045 .
↑ 12 Pachter . MALLIT RNA-SEQ:n transkriptiomäärän määrittämiseen (määrittämätön) . – 2011.
↑ Trapnell C., Pachter L., Salzberg SL TopHat: silmukointiliitosten löytäminen RNA-Seq:n kanssa (neopr.) // Bioinformatics. - 2009. - Nro 9 . - S. 1105-1111 . — PMID 19289445 .
↑ 1 2 C Trapnell, BA Williams, G Pertea, A Mortazavi, G Kwan, MJ van Baren, SL Salzberg, BJ Wold ja L Pachter. Transkriptien kokoaminen ja kvantifiointi RNA-Seq:llä paljastaa merkitsemättömät transkriptit ja isoformivaihdon solujen erilaistumisen aikana // Nature Biotechnology : Journal . - Nature Publishing Group , 2010. - Ei. 3 . - s. 511-515 . — PMID 20436464 .
↑ Menschaert G., Fenyö D. Proteogenomiikka bioinformatiikan näkökulmasta: Kasvava kenttä // Mass Spectrom Rev. : päiväkirja. - 2011. - S. 584-599 .
↑ Trapnell C., Roberts A., Goff L., Pertea G., Kim D., Kelley DR, Pimentel H., Salzberg SL, Rinn JL, Pachter L. RNA-seq-kokeiden differentiaalinen geeni- ja transkriptioekspressioanalyysi TopHatilla ja kalvosinnapit // Nat Protoc : päiväkirja. - 2012. - Ei. 9 . - s. 562-578 . — PMID 22383036 .
↑ 1 2 Chandramohan R., Wu PY, Phan JH, Wang MD Benchmarking RNA-Seq kvantifiointityökalut (määrittämätön) // Conf Proc IEEE Eng Med Biol Soc. - 2013. - S. 647-650 . — PMID .6609583.
↑ Roberts A., Trapnell C., Donaghey J., Rinn JL, Pachter L. RNA-Seq-ekspressioestimaattien parantaminen korjaamalla fragmenttiharhaa // BioMed Central : päiväkirja. - 2011. - Voi. 12 , ei. 3 . - s. 280-287 . — PMID 21498551 .
↑ Refour P., Gissot M., Siau A., Mazier D., Vaquero C. Edistyminen kohti DNA-mikrosiruteknologian käyttöä villien Plasmodium-kantojen tutkimuksessa // Med Trop : Journal. - 2004. - Voi. 64 , nro. 4 . - s. 387-393 . — PMID 21498551 .
↑ 1 2 3 Ravi Kothapalli, Sean J Yoder, Shrikant Mane ja Thomas P Loughran, Jr. Microarray-tulokset: kuinka tarkkoja ne ovat? (englanti) // BMC Bioinformatics : päiväkirja. - 2002. - PMID 12194703 .
↑ 1 2 3 4 Ares M Jr. Mikrosirulevyhybridisaatio käyttämällä fluoresoivasti leimattua cDNA :ta // Cold Spring Harb Protoc: Journal. - 2014. - Ei. 2 . - s. 124-129 . — PMID 24371320 .
↑ 1 2 Maria Jackson, Leah Marks, Gerhard H. W. May ja Joanna B. Wilson. Sairauden geneettinen perusta (neopr.) // Essays Biochem. - 2018. - T. 62 , nro 5 . - S. 643-723 . — PMID 30509934 .
↑ 1 2 Yan Sun, Suli Zhang, Mingming Yue, Yang Li, Jing Bi ja Huirong Liu. Angiotensiini II estää hiiren aortan sileiden lihassolujen apoptoosia säätelemällä circNRG-1/miR-193b-5p/NRG-1-akselia // Cell Death Dis: Journal. - 2019. - Vol. 10 , ei. 5 . - s. 362 . — PMID 31043588 .
↑ 1 2 3 4 5 6 7 G. Wesley Hatfield, She-pin Hung ja Pierre Baldi. DNA-mikrosirugeenin ilmentymistietojen differentiaalinen analyysi (englanniksi) // Molecular Microbiology : Journal. - 2003. - Voi. 47 , nro. 4 . - s. 871-877 . — PMID 12581345 .
↑ 1 2 3 4 Charity W. Law, Monther Alhamdoosh, Shian Su, Xueyi Dong, Luyi Tian, Gordon K. Smyth ja Matthew E. Ritchie. RNA-seq-analyysi on helppoa kuin 1-2-3 limmalla, Glimmalla ja edgeR :llä // Versio 3. F1000Res : päiväkirja. - 2018. - Vol. 5 . — PMID 27441086 .
↑ 1 2 3 4 5 Simon Anders, Wolfgang Huber. Differentiaalinen ilmentymisanalyysi sekvenssien lukumäärää varten // BioMed Central : päiväkirja. - 2010. - Vol. 11 . — PMID 20979621 .
↑ Gregory R. Smith ja Marc R. Birtwistle. Mekaaninen beeta-binomiaalinen todennäköisyysmalli mRNA-sekvensointitiedoille // PLoS One : Journal . - 2016. - Vol. 11 , ei. 6 . — PMID 27326762 .
↑ Steven M. Sanders ja Paulyn Cartwright. RNA-Seq-tietojen spesifinen differentiaalinen ilmentymisanalyysi antaa käsityksen hydraktiniidivesieläinten elinkaarivaihteluista // Genome Biol Evol : päiväkirja. - 2015. - Vol. 7 , ei. 8 . — PMID 26251524 .
↑ Gregory R. Smith ja Marc R. Birtwistle. Mekaaninen beta-binomiaalinen todennäköisyysmalli mRNA-sekvensointitiedolle (englanniksi) // BIOINFORMATICS : Journal. - 2016. - Vol. 11 , ei. 6 . — PMID 27326762 .
↑ A.I. Hartstein, V.H. Morthland, S.Eng., G.L. Archer, F.D. Schoenknecht ja A.L. Rashad. Plasmidi-DNA:n restriktioentsyymianalyysi ja parillisten Staphylococcus aureus -veriviljely-isolaattien bakteriofagityypitys (englanniksi) // J Clin Microbio : Journal. - 1989. - Voi. 27 , ei. 8 . - P. 1874-1879 . — PMID 2527867 .
↑ 1 2 3 4 5 Bland, Martin. Johdatus lääketieteellisiin tilastoihin (neopr.) . - Oxford University Press , 1995. - s. 168. - ISBN 978-0-19-262428-4 .
↑ 1 2 3 4 Johnson, NL, Kotz, S., Balakrishnan, N. Continuous Univariate Distributions, Volume 2, 2nd Edition. - 1995. - ISBN 0-471-58494-0 .
↑ 1 2 3 Pierre Baldi ja Anthony D. Long. Bayesilainen viitekehys mikrosiru-ilmentymistietojen analysointiin: säännöstetty t-testi ja geenimuutosten tilastolliset päätelmät // BIOINFORMATICS : Journal. - 2001. - Voi. 17 , ei. 6 . - s. 509-519 . — PMID 11395427 .
↑ Mayer Aladjem, Itamar Israeli-Ran ; Maria Bortman. Jaksottainen riippumattoman komponentin analyysin tiheysarvio // IEEE- tapahtumat hermoverkoissa ja oppimisjärjestelmissä : päiväkirja. - 2018. - Vol. 29 , ei. 10 . - P. 5084-5097 . — PMID 29994425 .
↑ 1 2 Arfin SM ym. Globaali geeniekspression profilointi Escherichia coli K12:ssa. Integration isäntätekijän vaikutukset (eng.) // J Biol Chem : Journal. - 2000. - Voi. 275 , nro. 38 . - P. 29672-29684 . — PMID 10871608 .
↑ 1 2 3 4 5 6 David B. Allison. Seosmallilähestymistapa microarray-geeniekspressiotietojen analysointiin // Computational Statistics & Data Analysis : päiväkirja. - 2002. - Voi. 39 , ei. 1 . - s. 1-20 . - doi : 10.1016/S0167-9473(01)00046-9 .
↑ 1 2 3 Thomas J Hardcastle ja Krystyna A Kelly. baySeq: Empiiriset Bayesin menetelmät differentiaalisen ilmentymisen tunnistamiseksi sekvenssien määrätiedoissa // BMC Bioinformatics : päiväkirja. - 2010. - Vol. 11 . - doi : 10.1186/1471-2105-11-422 .
↑ 1 2 3 Ning Leng, John A. Dawson, James A. Thomson, Victor Ruotti, Anna I. Rissman, Bart MG Smits, Jill D. Haag, Michael N. Gould, Ron M. Stewart ja Christina Kendziorski. EBSeq: empiirinen bayes-hierarkkinen malli päätelmien tekemiseen RNA-seq-kokeissa // University of Wisconsin: Tech. Rep. 226, Biostatistiikan ja lääketieteellisen informatiikan laitos: aikakauslehti. - 2012. Arkistoitu 20. helmikuuta 2014.
↑ 1 2 3 Mark A. Van De Wiel, Gwenaël GR Leday, Luba Pardo, Håvard Rue, Aad W. Van Der Vaart, Wessel N. Van Wieringen. RNA-sekvensointitietojen Bayes-analyysi arvioimalla useita kutistumisprioreja // Biostatistics : Journal. - 2012. - Vol. 14 , ei. 1 . - s. 113-128 . — PMID 22988280 .
↑ 1 2 3 4 5 Mark D. Robinson, Davis J. McCarthy ja Gordon K. Smyth. EdgeR: biojohdepaketti digitaalisten geeniekspressiotietojen differentiaaliseen ilmentymisanalyysiin (englanniksi) // Bioinformatics : Journal. - 2010. - Vol. 26 , nro. 1 . - s. 139-140 . — PMID 19910308 .
↑ 1 2 3 4 5 Yanming Di, Daniel W. Schafer, Jason S. Cumbie ja Jeff H. Chang. NBP-negatiivinen binomimalli RNA-seq:n differentiaalisen geeniekspression arvioimiseksi // Statistical Applications in Genetics and Molecular Biology : päiväkirja. - 2011. - Voi. 10 .
↑ 1 2 Paul L. Auer ja Rebecca W. Doerge. Kaksivaiheinen poisson-malli RNA- seq - tietojen testaamiseen // Statistical Applications in Genetics and Molecular Biology : päiväkirja. - 2011. - Voi. 10 . Arkistoitu alkuperäisestä 12. kesäkuuta 2011.
↑ Sonia Tarazona, Fernando García-Alcalde, Joaquin Dopazo, Alberto Ferrer ja Ana Conesa. Differentiaalinen ilmentyminen RNA-seq : ssä : syvyysasia // Genomitutkimus : päiväkirja. - 2011. - Voi. 21 . - P. 2213-2223 . - doi : 10.1101/gr.124321.111 .
↑ Li J ja Tibshirani R. Johdonmukaisten kuvioiden löytäminen: ei-parametrinen lähestymistapa differentiaalisen ilmentymisen tunnistamiseen RNA-seq-tiedoissa // Statistical Methods in Medical Research : Journal. - 2011. - PMID 22127579 .
↑ Rob Patro, Stephen M Mount, Carl Kingsford (2014) Sailfish mahdollistaa kohdistusvapaan isoformin kvantifioinnin RNA-seq-lukemista käyttämällä kevyitä algoritmeja. Nature Biotechnology, doi : 10.1038/nbt.2862
↑ 1 2 Tarazona S., Furió-Tarí P., Turrà D., Di Pietro A., Nueda MJ, Ferrer A., et ai. Datan laatutietoinen analyysi differentiaalista ilmentymisestä RNA-seqissä NOISeq R/Bioc -paketilla (englanniksi) // Nucleic acids researchy : Journal. - 2015. - doi : 10.1093/nar/gkv711 .
↑ 1 2 Li J., Tibshirani R. Johdonmukaisten kuvioiden löytäminen: ei-parametrinen lähestymistapa differentiaalisen ilmentymisen tunnistamiseen RNA-Seq-tiedoissa // Lääketieteellisen tutkimuksen tilastolliset menetelmät : Journal. - 2013. - S. 519-536 . - doi : 10.1177/0962280211428386 .
↑ 1 2 3 Yu Okamura, Natsumi Tsuzuki, Shiori Kuroda, Ai Sato, Yuji Sawada, Masami Yokota Hirai ja Masashi Murakami. Lajien väliset erot Pieris-perhosten (Lepidoptera: Pieridae) toukkien suorituskyvyssä liittyvät eroihin isäntäkasvien glukosinolaattiprofiileissa : Journal . - 2019. - s. 2 . — PMID 31039584 .
↑ 1 2 3 Mollah MM1, Jamal R1, Mokhtar NM2, Harun R1, Mollah MN3. Hybridi yksisuuntainen ANOVA-lähestymistapa monimuotoisen differentiaalisen geeniekspression vahvaan ja tehokkaaseen arviointiin // PLoS One : Journal . - 2015. - PMID 26413858 .
↑ Yang YH, Speed TP (2003). "Vertailevien mikrosirukokeiden suunnittelu ja analyysi." Gene Expression Microarray -tietojen tilastollinen analyysi”. Chapman & Hall., New York ,: 35-92. ISBN 1-58488-327-8 .
↑ Smyth, GK Lineaariset mallit ja empiiriset Bayes-menetelmät differentiaalisen ilmentymisen arvioimiseksi mikrosirukokeissa // Statistical Applications in Genetics and Molecular Biology : päiväkirja. - 2004. - Voi. 3 . - doi : 10.2202/1544-6115.1027 .
↑ Sandrine Dudoit, Juliet Popper Shaffer ja Jennifer C. Boldrick. Useiden hypoteesien testaus mikrosirukokeissa // Tilastotiede : päiväkirja. - 2003. - Voi. 18 . - s. 71-103 . - doi : 10.0000/projecteuclid.org/euclid.ss/1056397487 .
↑ Nelder J., Wedderburn R. Yleiset lineaariset mallit (uuspr.) // [Journal of the Royal Statistical Society]. A-sarja (yleinen). - Blackwell Publishing, 1972. - V. 135 , nro 3 . - S. 370-384 . - doi : 10.2307/2344614 . — .
↑ 1 2 Robinson MD, McCarthy DJ, Smyth GK. edgeR: Bioconductor-paketti digitaalisen geeniekspressiotietojen differentiaaliseen ilmentymisanalyysiin (englanti) // Bioinformatics : Journal. - 2010. - Vol. 26 . - s. 139-140 . - doi : 10.1093/bioinformatics/btp616 .

Linkit

Charlotte Soneson ja Mauro Delorenzi - RNA-seq-tietojen differentiaalisen ilmentymisanalyysin menetelmien vertailu - BMC Bioinformatics, 2013, 14:91