Tietokriteeri on ekonometriassa (tilastoissa) käytettyjen ekonometristen (tilastollisten) mallien suhteellisen laadun mitta, joka ottaa huomioon mallin "sovitusasteen" dataan korjauksella (rangaistus) käytettyjen arvioitujen parametrien määrään. . Toisin sanoen kriteerit perustuvat johonkin kompromissiin mallin tarkkuuden ja monimutkaisuuden välillä. Kriteerit vaihtelevat sen mukaan, kuinka ne saavuttavat tämän tasapainon.
Kriteerien informatiivinen luonne liittyy informaatioentropian käsitteeseen ja Kullback-Leibler-etäisyyteen , jonka pohjalta kehitettiin historiallisesti ensimmäinen kriteeri - Akaike-kriteeri (AIC) , jonka Hirotsugu Akaike ehdotti vuonna 1974 [1] .
Tietokriteereitä käytetään yksinomaan mallien vertaamiseen keskenään, ilman näiden kriteerien arvojen järkevää tulkintaa. Ne eivät salli mallien testaamista tilastollisten hypoteesien testaamisessa. Tyypillisesti mitä pienemmät kriteeriarvot ovat, sitä korkeampi on mallin suhteellinen laatu.
Hirotugu Akaiken ehdottama vuonna 1971, hän kuvasi ja tutki sitä vuosina 1973, 1974, 1983. Aluksi kirjoittajan ehdottama lyhenne AIC tulkittiin " tietokriteeriksi " ("tietyksi tietokriteeriksi"), mutta myöhemmät kirjoittajat kutsuivat sitä Akaike-tietokriteeriksi . Kriteerin alkuperäinen laskentakaava on muotoa:
jossa on konstruoidun mallin logaritmisen todennäköisyysfunktion arvo, on käytettyjen (estimoitujen) parametrien lukumäärä.
Monet nykyaikaiset kirjoittajat, kuten myös monissa ekonometrisissä ohjelmistotuotteissa (esimerkiksi EViewsissa), käyttävät hieman erilaista kaavaa, joka sisältää jakamisen otoskoolla , jonka mukaan malli rakennettiin:
Tämä lähestymistapa mahdollistaa erikokoisista näytteistä arvioitujen mallien vertailun.
Mitä pienempi kriteerin arvo, sitä parempi malli. Monet muut kriteerit ovat AIC:n muutoksia.
Schwartz ehdotti Bayesin tietokriteeriä (BIC) vuonna 1978, joten sitä kutsutaan usein myös Schwarz-kriteeriksi (SC). Se kehitettiin Bayesin lähestymistavan perusteella ja on yleisimmin käytetty AIC:n muunnos:
Kuten kaavasta voidaan nähdä, tämä kriteeri asettaa suuremman rangaistuksen parametrien lukumäärän kasvulle verrattuna AIC: hen, koska yli 2 jo 8 havainnon yhteydessä
Bozdoganin vuonna 1987 ehdottama johdonmukainen AIC (CAIC) -kriteeri :
Tämä kriteeri on asymptoottisesti sama kuin . Sama kirjoittaja ehdotti vuonna 1994 muutoksia, jotka lisäävät kerrointa parametrien lukumäärällä (eikä 2 - 3 tai 4 varten ja ).
Korjattu Akaike-testi (Corrected AIC- ), jota suositellaan käytettäväksi pienissä näytteissä (Sugiuran vuonna 1978 ehdottama):
Kirjoittajat ehdottivat Hannan-Quinn (HQ) -testiä vuonna 1979
Tämä kriteeri, yhdessä AIC:n ja BIC:n kanssa, myönnetään arvioitaessa malleja, joissa on erilliset ja rajoitetut riippuvat muuttujat EViewsissa.
On myös AIC-muokkauksia, jotka käyttävät monimutkaisempia rangaistustoimintoja, jotka riippuvat Fisherin tiedoista ja muista ominaisuuksista.
Klassisen normaalin lineaarisen regression erikoistapauksessa log-todennäköisyysfunktio on yhtä suuri kuin
missä on mallin satunnaisvirheen varianssin johdonmukainen arvio (maksimitodennäköisyysmenetelmä), joka on yhtä suuri kuin jäännösten neliösumman suhde otoskokoon.
Korvaamalla log-todennäköisyysfunktion arvon AIC-kaavaan (jaettuna otoskoolla) sekä ottamatta huomioon vakiotermejä 1 ja (koska ne eivät vaikuta tulokseen malleja verrattaessa), saadaan seuraava kaava:
Erilaisten kriteerien soveltaminen voi johtaa eri mallien valintaan. Monissa teoksissa näitä kriteerejä verrataan, mutta lopullista johtopäätöstä yhden tai toisen kriteerin suosimisesta ei tehdä. Siksi ohjelmistotuotteet tarjoavat yleensä vähintään kaksi kriteeriä (AIC, BIC), joissakin malleissa myös kolmannen (HQ). Tiedetään, että autoregressiivisillä malleilla AIC-kriteeri yliarvioi mallin järjestyksen, eli tähän kriteeriin perustuva mallin järjestyksen estimointi on kestämätön. Johdonmukainen kriteeri autoregressiivisen mallin järjestyksen valinnassa on BIC.