Opiskelijan t-testi

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 4.11.2020 tarkistetusta versiosta . tarkastukset vaativat 3 muokkausta .

Studentin t-testi  on yleinen nimitys menetelmäluokalle hypoteesien tilastolliseen testaukseen ( tilastotesteihin ), jotka perustuvat Studentin jakaumaan . Yleisimmät t-testin soveltamistapaukset liittyvät kahden näytteen keskiarvojen yhtäläisyyden tarkistamiseen .

t -tilastot rakennetaan yleensä seuraavan yleisperiaatteen mukaan: osoittajassa - satunnaismuuttuja, jolla on nolla matemaattista odotusta (kun nollahypoteesi täyttyy ), ja nimittäjässä - tämän satunnaismuuttujan otoskeskihajonnan, joka saadaan varianssin puolueettoman estimaatin neliöjuuri .

Historia

Tämän kriteerin on kehittänyt William Gosset arvioidakseen oluen laatua Guinnessissa . Liikesalaisuuksien paljastamatta jättämistä koskeviin velvollisuuksiin liittyen (Guinnessin johto piti tällaista tilastolaitteiston käyttöä työssään) Gossetin artikkeli julkaistiin vuonna 1908 "Biometrics"-lehdessä salanimellä "Student" ( Opiskelija).

Tietovaatimukset

Tämän kriteerin soveltamiseksi on välttämätöntä, että alkuperäisellä tiedolla on normaalijakauma . Käytettäessä kahden otoksen testiä riippumattomille näytteille on myös noudatettava varianssien yhtäläisyyden ehtoa . Studentin t-testille on kuitenkin olemassa vaihtoehtoja tilanteisiin, joissa varianssit eivät ole yhtä suuret.

Vaatimus, että tiedon jakauma on normaali, on välttämätön tarkalle -testille. Kuitenkin myös muilla datajakeluilla on mahdollista käyttää -tilastoa. Monissa tapauksissa näillä tilastoilla on asymptoottisesti standardi normaalijakauma - , joten voit käyttää tämän jakauman kvantiileja . Usein kuitenkin tässäkin tapauksessa kvantiileja ei käytetä vakionormaalijakaumasta vaan vastaavasta Studentin jakaumasta, kuten tarkassa testissä. Ne ovat asymptoottisesti samanarvoisia, mutta pienissä otoksissa Studentin jakauman luottamusvälit ovat leveämpiä ja luotettavampia.

Jos nämä ehdot eivät täyty, otosten keskiarvoja verrattaessa tulee käyttää samanlaisia ​​ei-parametristen tilastojen menetelmiä, joista tunnetuimpia ovat Mann-Whitneyn U-testi (kahden otoksen testinä itsenäisille näytteille) sekä merkkitesti ja Wilcoxon-testi (käytetään riippuvaisten näytteiden tapauksissa) .

Yhden näytteen t-testi

Sitä käytetään nollahypoteesin testaamiseen matemaattisen odotuksen yhtäläisyydestä jonkin tunnetun arvon kanssa .

Ilmeisesti, kun nollahypoteesi täyttyy . Ottaen huomioon havaintojen oletetun riippumattomuuden . Käyttämällä puolueetonta varianssiarviota saadaan seuraava t-tilasto:

Nollahypoteesin mukaan tämän tilaston jakauma on . Siksi, jos tilastollinen arvo ylittää (absoluuttisesti) tämän jakauman kriittisen arvon (tietyllä merkitsevyystasolla), nollahypoteesi hylätään.

Kahden näytteen t-testi riippumattomille näytteille

Olkoon kaksi riippumatonta näytettä, joiden tilavuudet ovat normaalijakautuneita satunnaismuuttujia . On tarpeen testata nollahypoteesi näiden satunnaismuuttujien matemaattisten odotusten yhtäläisyydestä otosdatan avulla .

Harkitse eroa näytteen keskiarvojen välillä . Ilmeisesti, jos nollahypoteesi täyttyy, . Näytteiden riippumattomuuden perusteella tämän eron varianssi on yhtä suuri: . Sitten käyttämällä varianssin puolueetonta estimaattia saadaan puolueeton arvio otoskeskiarvojen välisen eron varianssista: . Siksi nollahypoteesin testaamisen t-tilasto on

Tällä tilastolla on nollahypoteesin voimassaoloajan jakauma , jossa .

Equal variance case

Jos otosvarianssien oletetaan olevan samat, niin

Sitten t-tilasto on:

Tällä tilastolla on jakauma .

Kahden näytteen t-testi riippuville näytteille

-kriteerin empiirisen arvon laskemiseksi tilanteessa, jossa testataan hypoteesia kahden riippuvan otoksen eroista (esimerkiksi kaksi saman testin näytettä aikavälillä), käytetään seuraavaa kaavaa:

missä  on arvojen keskimääräinen ero,  on erojen keskihajonta ja n on havaintojen lukumäärä.

Tällä tilastolla on jakauma .

Lineaarinen rajoitustesti lineaarisen regression parametreille

T-testin avulla voit testata myös mielivaltaista (yksittäistä) lineaarista rajoitusta lineaarisen regression parametreille, jotka on estimoitu tavallisella pienimmän neliösumman menetelmällä . Olkoon hypoteesi testaaminen tarpeellista . Ilmeisesti, kun nollahypoteesi täyttyy . Tässä käytetään mallin parametrien puolueettomien LSM-estimaattien ominaisuutta . Lisäksi ,. Käyttämällä sen puolueetonta estimaattia tuntemattoman varianssin sijaan , saamme seuraavan t-tilaston:

Tällä tilastolla, kun nollahypoteesi täyttyy, on jakauma , joten jos tilaston arvo on suurempi kuin kriittinen arvo, niin lineaarisen rajoitteen nollahypoteesi hylätään.

Lineaarisen regressiokertoimen hypoteesitestaus

Lineaarisen rajoitteen erikoistapaus on testata hypoteesia , että regressiokerroin on yhtä suuri kuin tietty arvo . Tässä tapauksessa vastaava t-tilasto on:

missä  on kerroinestimaatin keskivirhe ja kerroinestimaattien kovarianssimatriisin vastaavan diagonaalielementin neliöjuuri.

Jos nollahypoteesi on totta, tämän tilaston jakauma on . Jos tilaston itseisarvo on suurempi kuin kriittinen arvo, niin ero kertoimen välillä on tilastollisesti merkitsevä (ei-satunnainen), muuten se on merkityksetön (satunnainen eli todellinen kerroin on todennäköisesti yhtä suuri tai hyvin lähellä odotettuun arvoon ).

Huomautus

Matemaattisten odotusten yhden otoksen testi voidaan supistaa lineaarisen regression parametrien lineaarisen rajoitteen testaamiseen. Yhden näytteen testissä tämä on vakion "regressio". Siksi regressio on näytearvio tutkittavan satunnaismuuttujan varianssista, matriisi on , ja mallin "kertoimen" estimaatti on yhtä suuri kuin otoskeskiarvo. Tästä saadaan edellä yleiselle tapaukselle annettu lauseke t-tilastolle.

Vastaavasti voidaan osoittaa, että kahden otoksen testi, jossa on samat otosvarianssit, rajoittuu myös lineaaristen rajoitusten testaamiseen. Kahden otoksen testissä tämä on "regressio" vakiolle ja valemuuttujalle, joka identifioi alinäytteen arvosta (0 tai 1) riippuen: . Hypoteesi näytteiden matemaattisten odotusten yhtäläisyydestä voidaan muotoilla hypoteesiksi tämän mallin kertoimen b yhtäläisyydestä nollan kanssa. Voidaan osoittaa, että vastaava t-tilasto tämän hypoteesin testaamiseksi on yhtä suuri kuin kahden otoksen testille annettu t-tilasto.

Se voidaan myös lyhentää lineaarisen rajoitteen tarkistamiseen eri varianssien tapauksessa. Tässä tapauksessa mallivirheiden varianssi saa kaksi arvoa. Tämän perusteella voidaan saada myös samanlaiset t-tilastot kuin kahden otoksen testissä.

Ei-parametriset analogit

Kahden näytteen testin analogi riippumattomille näytteille on Mann-Whitneyn U-testi . Riippuvien näytteiden tapauksessa analogit ovat etumerkkitesti ja Wilcoxonin T-testi .

Kirjallisuus

opiskelija. Todennäköinen keskiarvon virhe. // Biometria. 1908. nro 6 (1). s. 1-25.

Linkit

Novosibirskin osavaltion teknisen yliopiston verkkosivuilla olevista kriteereistä keinojen homogeenisuutta koskevien hypoteesien testaamiseksi