F-testi

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 26. lokakuuta 2017 tarkistetusta versiosta . tarkastukset vaativat 8 muokkausta .

F-testi eli Fisherin testi (F-testi, φ*-testi) on tilastollinen testi , jonka testitilastoilla on nollahypoteesin täyttyessä Fisherin jakauma (F-jakauma).

Tavalla tai toisella testitilastot laskevat otosvarianssien suhteeseen (neliöiden summat jaettuna "vapausasteilla"). Jotta tilastolla olisi Fisher-jakauma, osoittajan ja nimittäjän on oltava riippumattomia satunnaismuuttujia ja vastaavilla neliösummalla on oltava Chi-neliöjakauma . Tämä edellyttää, että datalla on normaalijakauma. Lisäksi oletetaan, että niiden satunnaismuuttujien, joiden neliöt summataan, varianssi on sama.

Testi suoritetaan vertaamalla tilaston arvoa vastaavan Fisher-jakauman kriittiseen arvoon tietyllä merkitsevyystasolla. Tiedetään, että jos , niin . Lisäksi Fisher-jakauman kvantiileilla on ominaisuus . Siksi yleensä käytännössä potentiaalisesti suuri arvo on mukana osoittajassa, pienempi arvo nimittäjässä ja vertailu suoritetaan jakauman "oikean" kvantiilin kanssa. Testi voi kuitenkin olla sekä molemminpuolinen että yksipuolinen. Ensimmäisessä tapauksessa kvantiilia käytetään merkitsevyystasolle ja yksisuuntaisessa testissä [1] .

Kätevämpi tapa testata hypoteeseja on p-arvo  , jolla on todennäköisyys, että satunnaismuuttuja tietyllä Fisher-jakaumalla ylittää tilaston tietyn arvon. Jos (kaksisuuntaisessa testissä - )) on pienempi kuin merkitsevyystaso , nollahypoteesi hylätään, muuten se hyväksytään.

F-testiesimerkkejä

F-testi varianssien yhtäläisyydelle

Kaksi valintaa

Olkoon kaksi näytettä, joiden koko on m ja n, satunnaismuuttujista X ja Y, joilla on normaalijakauma. On tarpeen tarkistaa niiden varianssien yhtäläisyys. Testitilastot

missä  on otoksen varianssi .

Jos tilasto on suurempi kuin valittua merkitsevyystasoa vastaava kriittinen arvo , niin satunnaismuuttujien varianssit tunnistetaan erilaisiksi.

Useita valintoja

Jaetaan satunnaismuuttujan X näyte, jonka koko on N , k ryhmään havaintojen lukumäärällä i : nnessä ryhmässä.

Ryhmien välinen ("selitetty") varianssi:

Ryhmän sisäinen ("selittämätön") varianssi:

Tämä testi voidaan supistaa muuttujan X regression merkityksen testaamiseen valemuuttujilla - ryhmien indikaattoreilla. Jos tilastot ylittävät kriittisen arvon, hypoteesi keskiarvojen yhtäläisyydestä otoksissa hylätään, muuten keskiarvoja voidaan pitää samana.

Regressioparametrien rajoitusten tarkistaminen

Klassisen normaalin lineaarisen regression parametrien lineaaristen rajoitusten testaamiseen käytettävä testitilasto määritetään kaavalla:

missä on rajoitusten lukumäärä, n on otoksen koko, k on mallin parametrien lukumäärä, RSS on mallin jäännösten neliöiden summa, on determinaatiokerroin, indeksit S ja L viittaavat lyhyisiin ja pitkiin malleihin , vastaavasti (mallit rajoituksin ja mallit ilman rajoituksia).

Huomautus

Yllä kuvattu F-testi on tarkka satunnaismallivirheiden normaalijakauman tapauksessa. F-testiä voidaan kuitenkin soveltaa myös yleisemmässä tapauksessa. Tässä tapauksessa se on asymptoottinen. Vastaava F-tilasto voidaan laskea muiden asymptoottisten testien - Wald (W) -testin, Lagrangen kertoimen (LM) testin ja todennäköisyyssuhteen (LR) testin - tilastoista seuraavasti:

Kaikilla näillä tilastoilla on asymptoottisesti jakauma F(q, nk), huolimatta siitä, että niiden arvot voivat poiketa pienistä näytteistä.

Lineaarisen regression merkitsevyystestaus

Tämä testi on erittäin tärkeä regressioanalyysissä ja on pohjimmiltaan rajoitustestauksen erikoistapaus. Tässä tapauksessa nollahypoteesi koskee kaikkien regressiomallin tekijöiden (eli kokonaisrajoitusten k-1) mukaisten kertoimien samanaikaista yhtäläisyyttä nollaan. Tässä tapauksessa lyhyt malli on vain vakio tekijänä, eli lyhyen mallin determinaatiokerroin on nolla. Testitilasto on:

Vastaavasti, jos tämän tilaston arvo on suurempi kuin kriittinen arvo tietyllä merkitsevyystasolla, nollahypoteesi hylätään, mikä tarkoittaa, että regressio on tilastollisesti merkitsevä. Muuten mallia pidetään merkityksettömänä.

Esimerkki

Arvioidaan lineaarinen regressio ruokamenojen osuudesta kokonaismenoista vakiolle, kokonaismenojen logaritmi, aikuisten perheenjäsenten lukumäärä ja alle 11-vuotiaiden lasten määrä. Eli mallissa on 4 arvioitua parametria (k=4). Saadaan determinaatiokerroin regressioarvioinnin tulosten perusteella . Yllä olevan kaavan avulla laskemme F-tilaston arvon, jos regressio on arvioitu 34 havainnon tiedoista ja 64 havainnon tiedoista:

Tilaston kriittinen arvo 1 %:n merkitsevyystasolla (Excelissä FDISP-funktio) ensimmäisessä tapauksessa on ja toisessa tapauksessa . Molemmissa tapauksissa regressiota pidetään merkittävänä tietyllä merkitsevyystasolla. Ensimmäisessä tapauksessa P-arvo on 0,1 % ja toisessa 0,00005 %. Siten toisessa tapauksessa luottamus regression merkittävyyteen on huomattavasti suurempi (virheen todennäköisyys on paljon pienempi, jos malli tunnustetaan merkitseväksi).

Heteroskedastisuuden testaus

Katso Goldfeld-Quandt-testi

Katso myös

Muistiinpanot

  1. ↑ Kahden varianssin yhtäläisyyden F-testi  . NIST . Käyttöpäivä: 29. maaliskuuta 2017. Arkistoitu alkuperäisestä 9. maaliskuuta 2017.