Varianssianalyysi

Varianssianalyysi on matemaattisen tilaston menetelmä, jonka tarkoituksena on löytää riippuvuuksia kokeellisista tiedoista tutkimalla keskiarvojen erojen merkitystä [ 1] [2] . Toisin kuin t-testi , sen avulla voit verrata kolmen tai useamman ryhmän keskiarvoja. R. Fisherin kehittämä kokeellisten tutkimusten tulosten analysointia varten. Kirjallisuudesta löytyy myös nimitys ANOVA ( englanniksi ANalysis Of Variance ) [3] .

ANOVA-tyypit

Varianssianalyysin ydin on tutkia yhden tai useamman riippumattoman muuttujan , joita yleensä kutsutaan tekijöiksi, vaikutusta riippuvaan muuttujaan . Riippuvia muuttujia edustavat absoluuttisten asteikkojen arvot (suhdeasteikko). Riippumattomat muuttujat ovat nimeäviä (nimiasteikko), eli ne kuvastavat ryhmään kuulumista, ja niillä voi olla kaksi tai useampia arvoja (tyyppi, asteikko tai taso). Esimerkkejä riippumattomasta muuttujasta , jolla on kaksi arvoa, olisi sukupuoli (nainen: , mies: ) tai hoitoryhmän tyyppi (kontrolli: , kokeellinen: ). Objektien riippumattomia näytteitä vastaavia gradaatioita kutsutaan ryhmien välisiksi ja riippumattomia näytteitä vastaaviksi ryhmän sisäisiksi. $X_{i}$ $X_{1}$ $X_{2}$ $X_{1}$ $X_{2}$

Muuttujien tyypistä ja lukumäärästä riippuen on olemassa:

yksi- ja monimuuttujavarianssianalyysi (yksi tai useampi riippumaton muuttuja);
yksi- ja monimuuttujavarianssianalyysi (yksi tai useampi riippuvainen muuttuja);
varianssianalyysi toistuvin mittauksin (riippuvaisille näytteille);
varianssianalyysi vakiotekijöillä, satunnaistekijöillä ja sekamalleilla molemmilla tekijöillä;

Varianssianalyysin matemaattinen malli

Dispersioanalyysin matemaattinen malli on lineaarisen perusmallin erikoistapaus . Käytetään menetelmiä useiden parametrien mittaamiseen, joiden tarkat arvot ovat . Tässä tapauksessa eri suureiden eri menetelmillä mittaustulokset voidaan esittää seuraavasti: $A_{j}\ (1\leq j\leq m)$ $x_{i}\ (1\leq i\leq n)$ $\mu _{i}\ (1\leq i\leq n)$

$x_{{i,j}}=\mu _{{i}}+a_{{i,j}}+e_{{i,j}}$ ,

missä:

$x_{{i,j}}$ on tulos : nnen parametrin mittaamisesta menetelmällä ; $i$ $A_{{j}}$
$\mu _{{i}}$ on -th parametrin tarkka arvo; $i$
$a_{i,j}$ on systemaattinen virhe ryhmän :nnen parametrin mittauksessa menetelmän mukaisesti ; $i$ $A_{{j}}$
$e_{{i,j}}$ on menetelmän -:nnen parametrin satunnainen mittausvirhe . $i$ $A_{{j}}$

Sitten seuraavien satunnaismuuttujien varianssit: (jossa:
$x_{{i,j}}$
$x_{{i,j}}-x_{{i,*}}-x_{{*,j}}+x_{{*,*}}$
$x_{{i,*}}$
$x_{{*,j}}$

$x_{{*,j}}={\frac {1}{n}}\sum _{{i}}x_{{i,j}},$

$x_{{i,*}}={\frac {1}{m}}\sum _{{j}}x_{{i,j}},$

$x_{{*,*}}={\frac {1}{nm}}\sum _{{i,j}}x_{{i,j}}$ )

ilmaistaan seuraavasti:

$s^{{2}}={\frac {1}{nm}}\sum _{{i}}\sum _{{j}}(x_{{i,j}}-x_{{*,* }})^{{2}}$

$s_{{0}}^{2}={\frac {1}{nm}}\sum _{{i}}\sum _{{j}}(x_{{i,j}}-x_{{ i,*}}-x_{{*,j}}+x_{{*,*}})^{{2}}$

$s_{{1}}^{2}={\frac {1}{n}}\sum _{{i}}(x_{{i,*}}-x_{{*,*}})^{ {2}}$

$s_{{2}}^{2}={\frac {1}{m}}\sum _{{j}}(x_{{*,j}}-x_{{*,*}})^{ {2}}$

ja täyttää henkilöllisyyden:

$s^{2}=s_{{0}}^{2}+s_{{1}}^{2}+s_{{2}}^{2}$

Varianssianalyysimenettely koostuu systemaattisen (ryhmien välisen) varianssin ja satunnaisen (ryhmän sisäisen) varianssin suhteen määrittämisestä mitatuissa tiedoissa. Vaihtuvuuden indikaattorina käytetään parametrien arvojen keskiarvon poikkeaman neliöiden summaa: ( englanniksi. Sum of Squares ). Voidaan osoittaa, että neliöiden kokonaissumma jakautuu ryhmien väliseksi neliösummaksi ja ryhmän sisäiseksi neliösummaksi : $SS$ $SS_{\textrm {yhteensä))$ $SS_{\textrm {bg))$ $SS_{\textrm {wg))$

$SS_{\textrm {total}}=SS_{\textrm {bg}}+SS_{\textrm {wg}}$

Olkoon kunkin parametrin tarkka arvo sen matemaattinen odotus, joka on yhtä suuri kuin perusjoukon keskiarvo . Jos systemaattisia virheitä ei ole, ryhmän keskiarvo ja perusjoukon keskiarvo ovat identtiset: . Tällöin satunnaismittausvirhe on mittaustuloksen ja ryhmän keskiarvon erotus: . Jos menetelmällä on systemaattinen vaikutus, niin systemaattinen virhe tämän tekijän vaikutuksesta on ryhmän keskiarvon ja perusjoukon keskiarvon erotus : . $E(X) = M$ $M_{{j}}=M$ $x_{{i,j}}$ $x_{{i,j}}-M_{j}$ $A_{j}$ $M_{j}$ $M_{j}-M$

Sitten yhtälö voidaan esittää seuraavasti: $x_{{i,j}}=\mu _{{i}}+a_{{i,j}}+e_{{i,j}}$

$x_{{i,j}}=M+(M_{j}-M)+(x_{{i,j}}-M_{j})$ , tai

$x_{{i,j}}-M=(M_{j}-M)+(x_{{i,j}}-M_{j})$ .

Sitten

${\begin{aligned}\sum _{{i=1}}^{{n_{j}}}(x_{{i,j}}-M)^{2}&=\sum _{{i= 1}}^{{n_{j}}}(M_{j}-M)^{2}+\summa _{{i=1}}^{{n_{j}}}(x_{{i, j}}-M_{j})^{2},\\\end{aligned}}$

missä

$SS_{\textrm {total}}=\sum _{i=1}^{n_{j}}(x_{i,j}-M)^{2}$

$SS_{\textrm {bg}}=\sum _{i=1}^{n_{j}}(M_{j}-M)^{2}$

$SS_{\textrm {wg}}=\sum _{i=1}^{n_{j}}(x_{i,j}-M_{j})^{2}$

Näin ollen

$SS_{\textrm {total}}=SS_{\textrm {bg}}+SS_{\textrm {wg}}.$

Vapausasteet jaetaan samalla tavalla:

$df_{\textrm {total}}=df_{\textrm {bg}}+df_{\textrm {wg}},$ missä

$df_{\textrm {total}}=N-1,$

$df_{\textrm {bg}}=J-1,$

$df_{\textrm {wg}}=NJ,$

ja on koko otoksen koko ja on ryhmien lukumäärä. $N$ $J$

Sitten kunkin osan varianssi, jota kutsutaan varianssianalyysimallissa "keskinelioksi" tai ( englannin sanasta Mean Square ), on neliöiden summan suhde niiden vapausasteiden lukumäärään: $NEITI$

$MS_{\textrm {total}}={\frac {SS_{\textrm {total}}}{N-1}}$

$MS_{\textrm {bg}}={\frac {SS_{\textrm {bg}}}{J-1}}$

$MS_{\textrm {wg}}={\frac {SS_{\textrm {wg}}}{NJ}}),$

Ryhmien välisten ja ryhmien sisäisten varianssien suhteella on F -jakauma ( Fischer -jakauma ) ja se määritetään käyttämällä ( Fisherin F -kriteeri ):

$F_{df_{\textrm {bg}},df_{\textrm {wg}}}={\frac {MS_{\textrm {bg}}}{MS_{\textrm {wg}}}}.$

Periaatteet ja sovellukset

Varianssianalyysin lähtökohdat ovat

tutkitun ominaisuuden arvojen normaalijakauma yleisessä populaatiossa;
vertailujen populaatioiden varianssien yhtäläisyys;
otoksen satunnainen ja riippumaton luonne.

Varianssianalyysin nollahypoteesi on väite keskiarvojen yhtäläisyydestä:

$H_{0}{:}\quad \mu _{1}=\mu _{2}=\dots =\mu _{j}.$

Kun nollahypoteesi hylätään, hyväksytään vaihtoehtoinen hypoteesi, että kaikki keskiarvot eivät ole samanarvoisia, eli on vähintään kaksi ryhmää, jotka eroavat toisistaan:

$H_{1}{:}\olemassa i,j\in \{1,...,j\},i\neq j:\mu _{i}\neq \mu _{j}.$

Jos ryhmiä on kolme tai useampia, keskiarvojen väliset erot määritetään post-hoc t -testeillä tai kontrastimenetelmällä .

Yksisuuntainen varianssianalyysi

Yksinkertaisin varianssianalyysin tapaus on yksiulotteinen yksisuuntainen analyysi kahdelle tai useammalle itsenäiselle ryhmälle, kun kaikki ryhmät yhdistetään yhden attribuutin mukaan. Analyysin aikana testataan nollahypoteesi keskiarvojen yhtäläisyydestä. Kahta ryhmää analysoitaessa varianssianalyysi on identtinen kahden otoksen Studentin t - testin kanssa riippumattomille näytteille ja F - tilaston arvo on yhtä suuri kuin vastaavan t - tilaston neliö .

Dispersioiden tasa-arvoa koskevan väitteen vahvistamiseksi käytetään yleensä Levenen testiä . Jos hypoteesi varianssien yhtäläisyydestä hylätään, pääanalyysiä ei voida soveltaa. Jos varianssit ovat yhtä suuret, niin ryhmien välisen ja ryhmän sisäisen vaihtelun suhdetta arvioidaan Fisherin F -kriteerillä :

$F_{df_{\textrm {bg}},df_{\textrm {wg}}}={\frac {MS_{\textrm {bg}}}{MS_{\textrm {wg}}}}.$

Jos F -tilasto ylittää kriittisen arvon, nollahypoteesia ei voida hyväksyä (hylätä) ja tehdään johtopäätös keskiarvojen epätasaisuudesta. Kahden ryhmän keskiarvoja analysoitaessa tulokset voidaan tulkita heti Fisher-testin soveltamisen jälkeen .

Jos ryhmiä on kolme tai useampia, keskiarvojen parivertailu vaaditaan niiden välisten tilastollisesti merkitsevien erojen tunnistamiseksi. A priori -analyysi sisältää kontrastien menetelmän, jossa ryhmien välinen neliösumma jaetaan yksittäisten kontrastien neliösummaksi:

$SS_{\textrm {bg}}=SS_{\psi _{1}}+SS_{\psi _{2}}+...+SS_{\psi _{n)),$

kun näiden kahden ryhmän keskiarvojen välillä on kontrasti, ja sitten Fisher- testiä käyttämällä tarkistetaan kunkin kontrastin keskineliön suhde ryhmän sisäiseen keskineliöön: $\psi$

$F_{1,df_{\textrm {wg}}}={\frac {MS_{\psi _{i}}}{MS_{\textrm {wg}}}}.$

A posteriori -analyysi sisältää post-hoc t -testit Bonferroni- tai Scheffen menetelmillä sekä keskiarvoerojen vertailun Tukey-menetelmällä. Post hoc -testien ominaisuus on ryhmän sisäisen keskineliön käyttö minkä tahansa keskiarvoparin arvioimiseksi. Bonferronin ja Scheffen testit ovat konservatiivisimpia, koska ne käyttävät pienintä kriittistä aluetta tietyllä merkitsevyystasolla . $MS_{\textrm {wg))$ $\alpha$

Keskiarvojen arvioinnin lisäksi varianssianalyysi sisältää determinaatiokertoimen määrityksen , joka osoittaa, minkä osuuden kokonaisvaihtelusta tämä tekijä selittää: $R^2$

$R^{2}={\frac {SS_{\textrm {bg}}}{SS_{\textrm {total}}}}.$

Monimuuttujavarianssianalyysi

Monimuuttuja-analyysin avulla voit testata useiden tekijöiden vaikutusta riippuvaan muuttujaan. Monitekijämallin lineaarisella mallilla on muoto:

$x_{{i,j,k}}=\mu _{{i}}+a_{{i,j}}+b_{{i,k}}+...+(ab)_{{i, j,k}}+e_{{i,j,k}}$ , missä:

- $x_{{i,j,k}}$ on th parametrin mittauksen tulos ; $i$
- $\mu _{{i}}$ on -: nnen parametrin keskiarvo ; $i$
- $a_{i,j}$ on systemaattinen virhe ryhmän : nnen parametrin mittauksessa menetelmän mukaisesti ; $i$ $j$ $A$
- $b_{{i,k}}$ on systemaattinen virhe ryhmän : nnen parametrin mittauksessa menetelmän mukaisesti ; $i$ $k$ $B$
- $(ab)_{{i,j,k}}$ on systemaattinen virhe ryhmän : nnen parametrin mittauksessa , mikä johtuu menetelmien ja yhdistelmästä ; $i$ $j, k$ $A$ $B$
- $e_{{i,j,k}}$ on th parametrin satunnainen mittausvirhe . $i$

Toisin kuin yksimuuttujamallissa, jossa on yksi ryhmien välinen neliösumma, monimuuttujaanalyysimalli sisältää kunkin tekijän neliösummat erikseen ja kaikkien niiden välisten vuorovaikutusten neliösummat. Näin ollen kaksikerroisessa mallissa ryhmien välinen neliösumma jaetaan tekijän neliöiden summaksi, tekijän neliöiden summaksi sekä tekijöiden ja vuorovaikutuksen neliöiden summaksi : $A$ $B$ $A$ $B$

$SS_{\textrm {total}}=SS_{A}+SS_{B}+SS_{AB}+SS_{\textrm {wg}}.$

Näin ollen kolmitekijämalli sisältää tekijän neliöiden summan, kertoimen neliöiden summan, tekijän neliöiden summan ja tekijöiden ja vuorovaikutusten neliöiden summan , ja , ja sekä kaikkien kolmen tekijän vuorovaikutukset : $A$ $B$ $C$ $A$ $B$ $B$ $C$ $A$ $C$ $A, B, C$

$SS_{\textrm {total}}=SS_{A}+SS_{B}+SS_{C}+SS_{AB}+SS_{BC}+SS_{AC}+SS_{ABC}+SS_{\ textrm{wg}}.$

Vapausasteita laajennetaan samalla tavalla:

$df_{\textrm {total}}=df_{A}+df_{B}+df_{AB}+df_{\textrm {wg)),$ missä

$df_{\textrm {total}}=N-1,$

$df_{A}=J-1,$

$df_{B}=K-1,$

$df_{{AB}}=(J-1)(K-1),$

$df_{\textrm {wg}}=N-JK,$

ja on koko näytteen tilavuus, on tekijän tasojen (ryhmien) lukumäärä ja tekijän tasojen (ryhmien) lukumäärä . $N$ $J$ $A$ $K$ $B$

Analyysi testaa useita nollahypoteesia :

hypoteesi keskiarvojen yhtäläisyydestä tekijän vaikutuksesta : ; $A$ $H_{0}{:}\ \mu _{1,*}=\mu _{2,*}=\dots =\mu _{j,*}$
hypoteesi keskiarvojen yhtäläisyydestä tekijän vaikutuksesta : ; $B$ ${\displaystyle H_{0}{:}\ \mu _{*,1}=\mu _{*,2}=\dots =\mu _{*,k))$
hypoteesi tekijöiden ja vuorovaikutuksen puuttumisesta : kaikille ja $A$ $B$ $H_{0}{:}\ (ab)_{j,k}=0$ $j$ $k.$

Jokainen hypoteesi testataan Fisher-kriteerillä:

$F_{df_{A},df_{\textrm {wg}}}={\frac {MS_{A}}{MS_{\textrm {wg}}}};$

$F_{df_{B},df_{\textrm {wg}}}={\frac {MS_{B}}{MS_{\textrm {wg}}}};$

$F_{df_{AB},df_{\textrm {wg}}}={\frac {MS_{AB}}{MS_{\textrm {wg}}}}.$

Kun hylätään nollahypoteesi yksittäisen tekijän vaikutuksesta, hyväksytään väite, että tekijällä on päävaikutus ( jne.). Hylättäessä nollahypoteesi tekijöiden vuorovaikutuksesta hyväksytään väite, että tekijän vaikutus ilmenee eri tavalla tekijän eri tasoilla . Yleensä tässä tapauksessa yleisanalyysin tulokset tunnustetaan virheellisiksi ja tekijän vaikutus tarkistetaan erikseen jokaisella tekijän tasolla käyttämällä yksisuuntaista varianssianalyysiä tai t - testiä . $A$ $b,$ $A$ $B$ $A$ $B$

Muistiinpanot

↑ Varianssianalyysi . Haettu 15. maaliskuuta 2011. Arkistoitu alkuperäisestä 23. toukokuuta 2012. (määrätön)
↑ Dispersioanalyysi - artikkeli Great Soviet Encyclopediasta . Bolshev, L.N..
↑ A. D. Nasledov. Psykologisen tutkimuksen matemaattiset menetelmät. Pietari, 2008. ISBN 5-9268-0275-X

Kirjallisuus

Scheffe G. Dispersioanalyysi, käänn. englannista. - M., 1963.
Smirnov NV, Dunin-Barkovsky IV Todennäköisyysteorian ja matemaattisten tilastojen kurssi teknisiä sovelluksia varten. - 2. painos - M. , 1965.

Sanakirjat ja tietosanakirjat	Iso venäläinen
Bibliografisissa luetteloissa	NKC : ph118416

Pienin neliösumma ja regressioanalyysi

Laskennalliset tilastot

Pienimmän neliön menetelmä
Lineaarinen MNC
Epälineaariset pienimmän neliösumman
LSM, jossa painojen iteratiivinen uudelleenlaskenta

Korrelaatio
ja riippuvuus

Pearsonin korrelaatiokerroin
Rankkorrelaatio ( Spearman
Kendall )
Osittainen korrelaatio
Vääristävä tekijä

Taantumisanalyysi

Tavallinen MNC
Osittainen pienimmän neliösumman menetelmä
Vähiten täysiä neliöitä
Ridge-regressio

Regressio
tilastollisena
mallina

Lineaarinen regressio	Yksinkertainen lineaarinen regressio Tavallinen MNC Yleistetyt pienimmän neliösumman Painotetut pienimmän neliösumman Lineaarinen perusmalli
ennustava rakenne	Polynomiregressio kasvukäyrä Segmentoitu regressio Paikallinen regressio
Mukautettu regressio	epälineaarinen Ei-parametrinen puoliparametrinen kestävää kvantiili isotoninen
Ei- standardivirheet	Yleistetty lineaarinen malli Binomiaalinen regressio Poissonin regressio Logistinen regressio

Varianssihajotus

Varianssianalyysi
Kovarianssianalyysi
Monimuuttuja varianssianalyysi

Mallitutkimus

C p Mallows
Vaiheittainen regressio
Tilastollisen mallin valinta
Regressiomallin validointi

Edellytykset

Keskimääräinen ja odotettu vastaus
Gauss-Markovin lause
Virheet ja poikkeamat
Tilastollinen testi
Studentoitu tasapaino
Pienin keskineliövirhe

Kokeilun suunnittelu

Vastauspinnan metodologia
Optimaalinen kokeilun suunnittelu
Bayesin kokeilusuunnittelu

Numeerinen
likiarvo

Sovellukset

Approksimointi käyrien avulla
Kalibrointikäyrä
Savitsky-Golay suodatin
Järjestelmän tunnistaminen
Liikkuvan pienimmän neliösumman menetelmä