Welchin t-testi

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 19. toukokuuta 2022 tarkistetusta versiosta . vahvistus vaatii 1 muokkauksen .

Welchin t-testi on Studentin jakaumaan perustuva testi, joka on suunniteltu testaamaan tilastollista hypoteesia sellaisten satunnaismuuttujien matemaattisten odotusten yhtäläisyydestä, joilla ei välttämättä ole yhtä suuria tunnettuja variansseja. Se on muunnos Studentin t-testistä . Nimetty brittiläisen tilastotieteilijän Bernard Lewis Welchin mukaan.

Tausta

Kahden otoksen Studentin t-testin soveltamiseksi on välttämätöntä, että kahdella riippumattomalla näytteellä on normaali keskiarvojakauma ja todelliset varianssit ovat yhtä suuret. Welchin t-testin tapauksessa todelliset varianssit eivät välttämättä ole enää yhtä suuret, mutta oletus, että data on normaalijakaumaa, säilyy.

Laskentatilastot

Olkoon kaksi riippumatonta näytettä normaalijakautuneista satunnaismuuttujista:

$X_{1},...,X_{n_{x}}\sim {\mathcal {N}}(\mu _{x},\sigma _{x}^{2})$

$Y_{1},...,Y_{n_{y))\sim {\mathcal {N))(\mu _{y},\sigma _{y}^{2})$

Testaamme seuraavaa nollahypoteesia matemaattisten odotusten yhtäläisyydestä:

${\displaystyle H_{0}:\mu _{x}=\mu _{y))$

Olkoon nollahypoteesi totta. Sitten ja . Olkoon ja ovat varianssien ja vastaavasti puolueettomat estimaatit . Lasketaan seuraavat tilastot: $E({\overline {X}}-{\overline {Y}})=0$ $Var({\overline {X}}-{\overline {Y)))={\dfrac {\sigma _{x}^{2}}{n_{x}}}+{\dfrac {\ sigma _{y}^{2}}{n_{y}}}$ ${\hat {\sigma }}_{x}^{2}=\sum _{i=1}^{n_{x}}{\dfrac {(X_{i}-{\overline {X }})^{2}}{n_{x}-1}}$ ${\hat {\sigma }}_{y}^{2}=\sum _{i=1}^{n_{y}}{\dfrac {(Y_{i}-{\overline {Y }})^{2}}{n_{y}-1}}$ ${\displaystyle \sigma _{x}^{2))$ ${\displaystyle \sigma _{y}^{2))$

$t={\dfrac ({\bar {X}}-{\bar {Y}}}{\sqrt ({\widehat {Var}}({\bar {X}}-{\bar {Y ))))))={\dfrac {{\bar {X}}-{\bar {Y}}}{\sqrt ({\widehat {Var}}({\bar {X}})+{\ widehat {Var}}({\bar {Y}})))}={\dfrac {{\bar {X}}-{\bar {Y}}}{\sqrt ({\dfrac {{\hat { \sigma }}_{x}^{2}}{n_{x}}}+{\dfrac ({\hat {\sigma }}_{y}^{2}}{n_{y}}}} }}$

Tehdään seuraava muunnos:

$t={\dfrac ({\bar {X))-{\bar {Y))}{\sqrt ({\dfrac ({\hat {\sigma ))_{x}^{2)) {n_{x}}}+{\dfrac {{\hat {\sigma }}_{y}^{2}}{n_{y}}}}}={\dfrac {{\bar {X} }-{\bar {Y}}}{\sqrt {{\dfrac {\sigma _{x}^{2}}{n_{x}}}+{\dfrac {\sigma _{y}^{2 }}{n_{y}}}}}}\cdot {\dfrac {\sqrt {{\dfrac {\sigma _{x}^{2}}{n_{x}}}+{\dfrac {\sigma _{y}^{2}}{n_{y}}}}}{\sqrt {{\dfrac {{\hat {\sigma }}_{x}^{2}}{n_{x}}} +{\dfrac {{\hattu {\sigma }}_{y}^{2}}{n_{y}}}}}}$

Ensimmäisen tilaston jakauma on standardi normaalijakauma:

${\dfrac {{\bar {X}}-{\bar {Y}}}{\sqrt ({\dfrac {\sigma _{x}^{2}}{n_{x}}}+ {\dfrac {\sigma _{y}^{2}}{n_{y}}}}}\sim {\mathcal {N}}(0,1)$

Harkitse toista tilastoa ja kutsu sitä lisälaskelmia varten : $S$

$S={\dfrac {{\dfrac {\sigma _{x}^{2}}{n_{x}}}+{\dfrac {\sigma _{y}^{2}}{n_{ y)))){{\dfrac {{\hat {\sigma }}_{x}^{2}}{n_{x}}}+{\dfrac {{\hattu {\sigma }}_{y }^{2}}{n_{y}}}}}$

Tilasto muistuttaa khin neliön satunnaismuuttujaa jaettuna vapausasteilla, mutta ei sitä ole. Olkoon satunnaismuuttuja, jolla on khin neliöjakauma vapausasteiden kanssa. Sitten samoin . Huomaa nyt, että (koska käytämme varianssien puolueettomia arvioita), ja . $S$ ${\displaystyle Z\sim \chi _{d}^{2))$ $d$ ${\dfrac {Z}{d}}\geqslant 0$ $S\geqslant 0$ $E(S)=1$ $E\left({\dfrac {Z}{d}}\right)={\dfrac {E(Z)}{d}}={\dfrac {d}{d}}=1$

Koska haluamme sen olevan mahdollisimman samankaltainen kuin mahdollista , yhdistämme näiden satunnaismuuttujien varianssit: $S$ ${\dfrac {Z}{d}}\sim {\dfrac {\chi _{d}^{2}}{d}}$

$Var(S)=Var\left({\dfrac {Z}{d}}\right)={\dfrac {2}{d}}$

Laske satunnaismuuttujan varianssi : $S$

$Var(S)={\dfrac {1}{\left({\dfrac {\sigma _{x}^{2}}{n_{x}}}+{\dfrac {\sigma _{y }^{2}}{n_{y}}}\oikea)^{2}}}\left({\dfrac {1}{n_{x}^{2}}}Var({\hat {\sigma }}_{x}^{2})+{\dfrac {1}{n_{y}^{2}}}Var({\hat {\sigma }}_{y}^{2})\oikea )={\dfrac {1}{\left({\dfrac {\sigma _{x}^{2}}{n_{x}}}+{\dfrac {\sigma _{y}^{2}} {n_{y}}}\oikea)^{2}}}\vasen({\dfrac {2(\sigma _{x}^{2})^{2}}{n_{x}^{2} (n_{x}-1)}}+{\dfrac {2(\sigma _{y}^{2})^{2}}{n_{y}^{2}(n_{y}-1) }}\right)={\dfrac {2}{d}}$

Täältä:

$d={\dfrac {\left({\dfrac {\sigma _{x}^{2}}{n_{x}}}+{\dfrac {\sigma _{y}^{2}} {n_{y}}}\oikea)^{2}}{{\dfrac {\sigma _{x}^{4}}{n_{x}^{2}(n_{x}-1))) +{\dfrac {\sigma _{y}^{4}}{n_{y}^{2}(n_{y}-1)))}}$

Lopulta meillä on nollahypoteesin voimassa ollessa:

$t{\stackrel {noin.}{\sim }}t_{d}$ ,

missä sijaitsee: $d$

$d={\dfrac {\left({\dfrac {\sigma _{x}^{2}}{n_{x}}}+{\dfrac {\sigma _{y}^{2}} {n_{y}}}\oikea)^{2}}{{\dfrac {\sigma _{x}^{4}}{n_{x}^{2}(n_{x}-1))) +{\dfrac {\sigma _{y}^{4}}{n_{y}^{2}(n_{y}-1)))}}$

Riittävän suurilla otoskooilla voimme käyttää normaalia approksimaatiota:

$t={\dfrac ({\bar {X))-{\bar {Y))}{\sqrt ({\dfrac ({\hat {\sigma ))_{x}^{2)) {n_{x}}}+{\dfrac {{\hat {\sigma }}_{y}^{2}}{n_{y}}}}}{\xrightarrow[{n_{x},n_ {y}\rightarrow \infty }]{}}{\mathcal {N}}(0,1)$

Welchin kahden näytteen t-testi riippumattomille näytteille

Olkoon kaksi riippumatonta näytettä normaalijakautuneista satunnaismuuttujista:

$X_{1},...,X_{n_{x}}\sim {\mathcal {N}}(\mu _{x},\sigma _{x}^{2})$

$Y_{1},...,Y_{n_{y))\sim {\mathcal {N))(\mu _{y},\sigma _{y}^{2})$

Nollahypoteesin alla laskemme seuraavat tilastot: ${\displaystyle H_{0}:\mu _{x}=\mu _{y))$

$t={\dfrac ({\bar {X))-{\bar {Y))}{\sqrt ({\dfrac ({\hat {\sigma ))_{x}^{2)) {n_{x}}}+{\dfrac {{\hat {\sigma }}_{y}^{2}}{n_{y}}}}}}$

Olkoon vaihtoehtoinen hypoteesi . ${\displaystyle H_{1}:\mu _{x}\neq \mu _{y))$

Jos nollahypoteesi pitää paikkansa, jakauma on suunnilleen Studentin jakauma vapausasteilla: $t$ $d$

$t{\stackrel {noin.}{\sim }}t_{d}$ ,

missä sijaitsee: $d$

$d={\dfrac {\left({\dfrac {\sigma _{x}^{2}}{n_{x}}}+{\dfrac {\sigma _{y}^{2}} {n_{y}}}\oikea)^{2}}{{\dfrac {\sigma _{x}^{4}}{n_{x}^{2}(n_{x}-1))) +{\dfrac {\sigma _{y}^{4}}{n_{y}^{2}(n_{y}-1)))}}$

Siksi, jos havaittujen tilastojen arvo absoluuttisina arvoina ylittää tämän jakauman kriittisen arvon (tietyllä merkitsevyystasolla), nollahypoteesi hylätään.

Esimerkki

Seuraavissa esimerkeissä verrataan Studentin t-testiä ja Welchin t-testiä. Näytteet generoi Python - ohjelmointikielen numpy.random - moduuli .

Kaikissa kolmessa esimerkissä matemaattiset odotukset ovat samat ja vastaavasti. $\mu _{x}=20$ $\mu _{y}=22$

Ensimmäisessä esimerkissä todelliset varianssit ovat ( ) ja otoskoot ( ). Merkitään vastaavilla satunnaisnäytteillä: $\sigma _{x}^{2}=\sigma _{y}^{2}=4$ $n_{x}=n_{y}=15$ $S_{X}$ $S_{Y}$

{\displaystyle {\begin{aligned}S_{X}&=\{19.17,21.41,23.83,15.72,21.44,20.93,21.53,21.76,21.62,18.11,19.74,18.11,19.74,18.11,19.74,18.74,\3,\2}1.1.7. P

Toisessa esimerkissä todelliset varianssit ovat eriarvoisia ( , ) ja otoskoot ovat eriarvoisia ( , ). Pienemmällä otoksella on suurempi varianssi: $\sigma _{x}^{2}=16$ $\sigma _{y}^{2}=1$ $n_{x}=10$ $n_{y}=20$

{\displaystyle {\begin{aligned}S_{X}&=\{18.33,22.82,27.66,11.43,22.88,21.87,23.07,23.53,23.24,16.21\}\\S_{Y}&=7,,2.1. 21.37,20.56,22.65,22.98,20.86,22.39,22.43,24.11,21.80,21.75,23.71,21.73,23.35,22.34,23.35,22.34,21.10,22.34,21.10,22.34,21.10,24.12},2\3.7},2.

Kolmannessa esimerkissä todelliset varianssit ovat eriarvoisia ( , ) ja otoskoot ovat eriarvoisia ( , ). Suuremmalla otoksella on suurempi varianssi: $\sigma _{x}^{2}=1$ $\sigma _{y}^{2}=16$ $n_{x}=10$ $n_{y}=20$

{\displaystyle {\begin{aligned}S_{X}&=\{19.58,20.71,21.92,17.86,20.72,20.47,20.77,20.88,20.81,19.05\}\\S_{Y}&=8\{2.1. 19.48,16.25,24.61,25.94,17.42,23.55,23.71,30.43,21.21,21.01,28.86,20.91,27.39,23.37,18.42,30.47,18.42,30.47,18.42,30.8},17.42

	Näyte $S_{X}$			Näyte $S_{Y}$			Opiskelijan t-testi				Welchin t-testi
Esimerkki	${\näyttötyyli n_{x))$	$\overline {X}$	${\hat {\sigma }}_{x}^{2}$	${\näyttötyyli n_{y))$	${\overline {Y}}$	${\hat {\sigma }}_{y}^{2}$	$t$	$d$	$s$ -arvo	${\displaystyle p_{\mathrm {sim} ))$ -arvo	$t$	$d$	$s$ -arvo	${\displaystyle p_{\mathrm {sim} ))$ -arvo
yksi	viisitoista	20.29	4.61	viisitoista	22.67	4.35	-3.07	28	0,005	0,005	−3.07	28.0	0,005	0,004
2	kymmenen	21.10	21.01	kaksikymmentä	22.22	1.04	−1.06	28	0,299	0,465	-0,76	9.57	0,464	0,459
3	kymmenen	20.27	1.31	kaksikymmentä	22.89	16.69	−1,97	28	0,059	0,015	−2.66	23.28	0,014	0,018

Samalla varianssilla ja yhtä suurella otoskoolla Studentin t-testi ja Welchin t-testi antoivat suunnilleen saman tuloksen (esimerkki 1). Epätasaisten varianssien tapauksessa Welchin t-testi arvioi tilaston todellisen jakauman tarkemmin kuin Studentin t-testi ( Welchin t-testin -arvo on lähempänä simuloitua -arvoa kuin Studentin t-testissä). $s$ ${\displaystyle p_{\mathrm {sim} ))$

Jos ei tiedetä, ovatko näiden kahden populaation varianssit yhtä suuret, ei ole ehdottomasti suositeltavaa tehdä esitestejä varianssien yhtäläisyyden määrittämiseksi, vaan on parempi käyttää heti Welchin t-testiä. [yksi]

Toteutus erilaisissa ohjelmistoissa

Ohjelmointikieli/ohjelmisto	Toiminto	Merkintä
libreoffice	TTEST(Data1; Data2; Mode; Type)	Lue lisää [2]
MATLAB	ttest2(data1, data2, 'Vartype', 'unequal')	Lue lisää [3]
Microsoft Excel ennen 2010	TTEST(array1, array2, tails, type)	Lue lisää [4]
Microsoft Excel 2010 ja uudemmat	T.TEST(array1, array2, tails, type)taiТТЕСТ(массив1;массив2;хвосты;тип)	Lue lisää [5] [6]
Python	scipy.stats.ttest_ind(a, b, equal_var=False)	Lue lisää [7]
R	t.test(data1, data2, alternative="two.sided", var.equal=FALSE)	Lue lisää [8]
Haskell	Statistics.Test.StudentT.welchTTest SamplesDiffer data1 data2	Lue lisää [9]
Julia	UnequalVarianceTTest(data1, data2)	Lue lisää [10]
Osavaltio	ttest varname1 == varname2, welch	Lue lisää [11]
Google Sheets	TTEST(range1, range2, tails, type)	Lue lisää [12]

Kirjallisuus

BL Welch Opiskelija-ongelman yleistyminen, kun mukana on useita erilaisia populaatiovariansseja // Voi. 34, nro. 1/2 (tammikuu 1947), s. 28-35

Muistiinpanot

↑ Epätasaisen varianssin t-testi on liian vähän käytetty vaihtoehto Studentin t-testille ja Mann-Whitneyn U-testille| Oxford Academic . Haettu 31. toukokuuta 2020. Arkistoitu alkuperäisestä 10. elokuuta 2020. (määrätön)
↑ Tilastofunktiot Osa 5 - LibreOffice-ohje . Haettu 31. toukokuuta 2020. Arkistoitu alkuperäisestä 28. helmikuuta 2014. (määrätön)
↑ Kahden otoksen t-testi - MATLAB ttest2 - MathWorks Iso-Britannia . Haettu 31. toukokuuta 2020. Arkistoitu alkuperäisestä 5. elokuuta 2016. (määrätön)
↑ Arkistoitu kopio . Haettu 31. toukokuuta 2020. Arkistoitu alkuperäisestä 21. maaliskuuta 2014. (määrätön)
↑ T.TEST-toiminto - Office-tuki . Haettu 31. toukokuuta 2020. Arkistoitu alkuperäisestä 3. maaliskuuta 2014. (määrätön)
↑ TTEST (TTEST-toiminto) - Office-tuki
↑ scipy.stats.ttest_ind - SciPy v1.5.2 -viiteopas . Haettu 31. toukokuuta 2020. Arkistoitu alkuperäisestä 23. lokakuuta 2013. (määrätön)
↑ R: Opiskelijan t-testi . Haettu 31. toukokuuta 2020. Arkistoitu alkuperäisestä 29. marraskuuta 2016. (määrätön)
↑ Tilastot.Testi.OpiskelijaT . Haettu 31. toukokuuta 2020. Arkistoitu alkuperäisestä 13. kesäkuuta 2021. (määrätön)
↑ Tervetuloa lukemaan Docs - HypothesisTests.jl:n uusinta dokumentaatiota . Haettu 31. toukokuuta 2020. Arkistoitu alkuperäisestä 29. maaliskuuta 2016. (määrätön)
↑ Stata 16 -apu ttestiin . Haettu 31. toukokuuta 2020. Arkistoitu alkuperäisestä 7. tammikuuta 2010. (määrätön)
↑ T.TEST - Docs Editorin ohje . Haettu 31. toukokuuta 2020. Arkistoitu alkuperäisestä 16. huhtikuuta 2021. (määrätön)