Pearsonin sopivuustesti tai sopivuustesti (chi-neliö) on ei-parametrinen menetelmä, jonka avulla voit arvioida erojen merkitystä todellisen (tutkimuksen tuloksena paljastun) tulosten lukumäärän tai kuhunkin kategoriaan kuuluvan otoksen kvalitatiiviset ominaisuudet ja teoreettinen luku, joka voidaan odottaa tutkituissa ryhmissä, jos nollahypoteesi pitää paikkansa. Yksinkertaisemmin sanottuna menetelmän avulla voit arvioida kahden tai useamman suhteellisen indikaattorin (frekvenssi, osuudet) välisten erojen tilastollista merkitsevyyttä.
Se on yleisimmin käytetty kriteeri sen hypoteesin testaamiseksi , että havaittu otoskoko kuuluu johonkin teoreettiseen jakautumislakiin .
Khin-neliö-kriteerin ehdollisuustaulukoiden analysointia varten kehitti ja ehdotti vuonna 1900 matemaattisten tilastojen perustaja, englantilainen tiedemies Karl Pearson .
Kriteeriä voidaan käyttää lomakkeen yksinkertaisten hypoteesien testaamiseen
missä on tunnettu teoreettisen lain parametrien vektori ja testattaessa muodon monimutkaisia hypoteeseja
kun skalaari- tai vektorijakaumaparametrin estimaatti lasketaan saman näytteen perusteella.
Menettely hypoteesien testaamiseksi tyyppikriteereillä sisältää havaintojen ryhmittelyn. Satunnaismuuttujan määritelmäalue on jaettu rajapisteillä ei-leikkaaviin intervalleihin
missä on satunnaismuuttujan määritelmäalueen alaraja; - yläreuna.
Annetun osion mukaisesti lasketaan väliin osuvien näytearvojen määrä ja väliin putoamisen todennäköisyydet
joka vastaa teoreettista lakia jakaumafunktiolla
Jossa
jaYksinkertaista hypoteesia testattaessa tiedetään sekä lain muoto että kaikki sen parametrit (skalaari- tai vektoriparametri tunnetaan ).
Tyypin sopivuustesteissä käytetyt tilastot perustuvat poikkeamien mittaamiseen .
Pearsonin sovitustilaston hyvyys määräytyy relaatiolla
Jos testataan yksinkertaista hypoteesia, rajassa at , tämä tilasto noudattaa -jakaumaa vapausasteilla , jos testattu hypoteesi on totta . -jakauman tiheys , joka on gamma-jakauman erikoistapaus , kuvataan kaavalla
Testattu hypoteesi hylätään suurilla tilastoarvoilla, kun otoksesta lasketun tilaston arvo on suurempi kuin kriittinen arvo
tai saavutettu merkitsevyystaso ( p - arvo ) on pienempi kuin annettu merkitsevyystaso (annettu ensimmäisen tyyppinen virhetodennäköisyys ) .
Monimutkaisia hypoteeseja testattaessa, jos lain parametrit samalle otokselle on arvioitu tilastojen minimoimisen tuloksena tai ryhmitellylle otokselle käyttämällä maksimitodennäköisyysmenetelmää , tilastot noudattavat -jakaumaa , jos testattu hypoteesi pitää paikkansa. vapausasteet, jossa on otoksesta arvioitujen parametrien lukumäärä.
Jos parametrit estimoidaan alkuperäisestä ryhmittämättömästä otoksesta, tilaston jakauma ei ole -jakauma [ 1] . Lisäksi tilastojen jakauma hypoteesin toteuduttua riippuu ryhmittelymenetelmästä eli siitä, kuinka määritelmäalue on jaettu intervalleihin [2] .
Kun arvioit parametrien maksimitodennäköisyyden menetelmää ryhmittämättömälle näytteelle, voit käyttää muunnettuja kriteerejä, kuten [3] [4] [5] [6] .
Sopivuuskriteereitä käytettäessä kilpailevia hypoteeseja ei pääsääntöisesti aseteta: otos kuuluu tiettyyn lakiin ja kilpailevana hypoteesina otetaan huomioon mikä tahansa muu laki. Luonnollisesti kriteeri pystyy erottamaan eri tavoin vastaavasta laista, lähellä tai kaukana siitä olevat lait. Jos määrittelemme kilpailevan hypoteesin ja jonkin sitä vastaavan kilpailevan lain , voidaan jo puhua kahden tyyppisistä virheistä: ei vain ensimmäisen tyyppisestä virheestä (testattavan hypoteesin hylkääminen, kun se on totta) ja todennäköisyydestä tämä virhe , mutta myös 2. tyyppinen virhe ( reilun hylkäämättä jättäminen ) ja tämän virheen todennäköisyydestä .
Kriteerin voimaa suhteessa kilpailevaan hypoteesiin luonnehtii arvo . Mitä paremmin kriteeri tunnistaa kilpailevan hypoteesiparin ja sitä suurempi on sen teho.
Pearsonin sopivuustestin teho riippuu merkittävästi ryhmittelymenetelmästä [7] [8] ja valitusta intervallimäärästä [8] [9] .
Asymptoottisesti optimaalisessa ryhmittelyssä, joka maksimoi Fisherin informaatiomatriisin eri funktionaalisuuden ryhmitellyn datan yli (minimoi ryhmittelyyn liittyvät häviöt), Pearsonin sopivuustestillä on suurin teho suhteessa "(hyvin) läheisiin" kilpaileviin hypoteeseihin [ 10] [8] [9] .
Yksinkertaisia hypoteeseja testattaessa ja asymptoottisesti optimaalista ryhmittelyä käytettäessä Pearsonin sopivuustestillä on etua ei-parametrisiin sopivuustesteihin verrattuna. Monimutkaisia hypoteeseja testattaessa ei-parametristen kriteerien teho kasvaa, eikä sellaista etua ole [11] [12] . Minkä tahansa kilpailevan hypoteesiparin (kilpailevien lakien) kohdalla on kuitenkin mahdollista maksimoida kriteerin teho valitsemalla intervallien lukumäärä ja tapa jakaa satunnaismuuttujan määritelmäalue intervalleiksi [13] .