Studentin t-testi on yleinen nimitys menetelmäluokalle hypoteesien tilastolliseen testaukseen ( tilastotesteihin ), jotka perustuvat Studentin jakaumaan . Yleisimmät t-testin soveltamistapaukset liittyvät kahden näytteen keskiarvojen yhtäläisyyden tarkistamiseen .
t -tilastot rakennetaan yleensä seuraavan yleisperiaatteen mukaan: osoittajassa - satunnaismuuttuja, jolla on nolla matemaattista odotusta (kun nollahypoteesi täyttyy ), ja nimittäjässä - tämän satunnaismuuttujan otoskeskihajonnan, joka saadaan varianssin puolueettoman estimaatin neliöjuuri .
Tämän kriteerin on kehittänyt William Gosset arvioidakseen oluen laatua Guinnessissa . Liikesalaisuuksien paljastamatta jättämistä koskeviin velvollisuuksiin liittyen (Guinnessin johto piti tällaista tilastolaitteiston käyttöä työssään) Gossetin artikkeli julkaistiin vuonna 1908 "Biometrics"-lehdessä salanimellä "Student" ( Opiskelija).
Tämän kriteerin soveltamiseksi on välttämätöntä, että alkuperäisellä tiedolla on normaalijakauma . Käytettäessä kahden otoksen testiä riippumattomille näytteille on myös noudatettava varianssien yhtäläisyyden ehtoa . Studentin t-testille on kuitenkin olemassa vaihtoehtoja tilanteisiin, joissa varianssit eivät ole yhtä suuret.
Vaatimus, että tiedon jakauma on normaali, on välttämätön tarkalle -testille. Kuitenkin myös muilla datajakeluilla on mahdollista käyttää -tilastoa. Monissa tapauksissa näillä tilastoilla on asymptoottisesti standardi normaalijakauma - , joten voit käyttää tämän jakauman kvantiileja . Usein kuitenkin tässäkin tapauksessa kvantiileja ei käytetä vakionormaalijakaumasta vaan vastaavasta Studentin jakaumasta, kuten tarkassa testissä. Ne ovat asymptoottisesti samanarvoisia, mutta pienissä otoksissa Studentin jakauman luottamusvälit ovat leveämpiä ja luotettavampia.
Jos nämä ehdot eivät täyty, otosten keskiarvoja verrattaessa tulee käyttää samanlaisia ei-parametristen tilastojen menetelmiä, joista tunnetuimpia ovat Mann-Whitneyn U-testi (kahden otoksen testinä itsenäisille näytteille) sekä merkkitesti ja Wilcoxon-testi (käytetään riippuvaisten näytteiden tapauksissa) .
Sitä käytetään nollahypoteesin testaamiseen matemaattisen odotuksen yhtäläisyydestä jonkin tunnetun arvon kanssa .
Ilmeisesti, kun nollahypoteesi täyttyy . Ottaen huomioon havaintojen oletetun riippumattomuuden . Käyttämällä puolueetonta varianssiarviota saadaan seuraava t-tilasto:
Nollahypoteesin mukaan tämän tilaston jakauma on . Siksi, jos tilastollinen arvo ylittää (absoluuttisesti) tämän jakauman kriittisen arvon (tietyllä merkitsevyystasolla), nollahypoteesi hylätään.
Olkoon kaksi riippumatonta näytettä, joiden tilavuudet ovat normaalijakautuneita satunnaismuuttujia . On tarpeen testata nollahypoteesi näiden satunnaismuuttujien matemaattisten odotusten yhtäläisyydestä otosdatan avulla .
Harkitse eroa näytteen keskiarvojen välillä . Ilmeisesti, jos nollahypoteesi täyttyy, . Näytteiden riippumattomuuden perusteella tämän eron varianssi on yhtä suuri: . Sitten käyttämällä varianssin puolueetonta estimaattia saadaan puolueeton arvio otoskeskiarvojen välisen eron varianssista: . Siksi nollahypoteesin testaamisen t-tilasto on
Tällä tilastolla on nollahypoteesin voimassaoloajan jakauma , jossa .
Jos otosvarianssien oletetaan olevan samat, niin
Sitten t-tilasto on:
Tällä tilastolla on jakauma .
-kriteerin empiirisen arvon laskemiseksi tilanteessa, jossa testataan hypoteesia kahden riippuvan otoksen eroista (esimerkiksi kaksi saman testin näytettä aikavälillä), käytetään seuraavaa kaavaa:
missä on arvojen keskimääräinen ero, on erojen keskihajonta ja n on havaintojen lukumäärä.
Tällä tilastolla on jakauma .
T-testin avulla voit testata myös mielivaltaista (yksittäistä) lineaarista rajoitusta lineaarisen regression parametreille, jotka on estimoitu tavallisella pienimmän neliösumman menetelmällä . Olkoon hypoteesi testaaminen tarpeellista . Ilmeisesti, kun nollahypoteesi täyttyy . Tässä käytetään mallin parametrien puolueettomien LSM-estimaattien ominaisuutta . Lisäksi ,. Käyttämällä sen puolueetonta estimaattia tuntemattoman varianssin sijaan , saamme seuraavan t-tilaston:
Tällä tilastolla, kun nollahypoteesi täyttyy, on jakauma , joten jos tilaston arvo on suurempi kuin kriittinen arvo, niin lineaarisen rajoitteen nollahypoteesi hylätään.
Lineaarisen rajoitteen erikoistapaus on testata hypoteesia , että regressiokerroin on yhtä suuri kuin tietty arvo . Tässä tapauksessa vastaava t-tilasto on:
missä on kerroinestimaatin keskivirhe ja kerroinestimaattien kovarianssimatriisin vastaavan diagonaalielementin neliöjuuri.
Jos nollahypoteesi on totta, tämän tilaston jakauma on . Jos tilaston itseisarvo on suurempi kuin kriittinen arvo, niin ero kertoimen välillä on tilastollisesti merkitsevä (ei-satunnainen), muuten se on merkityksetön (satunnainen eli todellinen kerroin on todennäköisesti yhtä suuri tai hyvin lähellä odotettuun arvoon ).
Matemaattisten odotusten yhden otoksen testi voidaan supistaa lineaarisen regression parametrien lineaarisen rajoitteen testaamiseen. Yhden näytteen testissä tämä on vakion "regressio". Siksi regressio on näytearvio tutkittavan satunnaismuuttujan varianssista, matriisi on , ja mallin "kertoimen" estimaatti on yhtä suuri kuin otoskeskiarvo. Tästä saadaan edellä yleiselle tapaukselle annettu lauseke t-tilastolle.
Vastaavasti voidaan osoittaa, että kahden otoksen testi, jossa on samat otosvarianssit, rajoittuu myös lineaaristen rajoitusten testaamiseen. Kahden otoksen testissä tämä on "regressio" vakiolle ja valemuuttujalle, joka identifioi alinäytteen arvosta (0 tai 1) riippuen: . Hypoteesi näytteiden matemaattisten odotusten yhtäläisyydestä voidaan muotoilla hypoteesiksi tämän mallin kertoimen b yhtäläisyydestä nollan kanssa. Voidaan osoittaa, että vastaava t-tilasto tämän hypoteesin testaamiseksi on yhtä suuri kuin kahden otoksen testille annettu t-tilasto.
Se voidaan myös lyhentää lineaarisen rajoitteen tarkistamiseen eri varianssien tapauksessa. Tässä tapauksessa mallivirheiden varianssi saa kaksi arvoa. Tämän perusteella voidaan saada myös samanlaiset t-tilastot kuin kahden otoksen testissä.
Kahden näytteen testin analogi riippumattomille näytteille on Mann-Whitneyn U-testi . Riippuvien näytteiden tapauksessa analogit ovat etumerkkitesti ja Wilcoxonin T-testi .
opiskelija. Todennäköinen keskiarvon virhe. // Biometria. 1908. nro 6 (1). s. 1-25.