Determinaatiokerroin ( -R-neliö ) on riippuvaisen muuttujan varianssin osuus, joka selittyy kyseessä olevan riippuvuusmallin eli selittävien muuttujien avulla . Tarkemmin sanottuna se on yksi miinus selittämättömän varianssin (mallin satunnaisvirheen varianssi tai riippuvan muuttujan varianssin tekijöistä riippuvainen) osuus riippuvan muuttujan varianssista. Sitä pidetään yleisenä mittana yhden satunnaismuuttujan riippuvuudesta monista muista. Lineaarisen suhteen erikoistapauksessa on riippuvaisen muuttujan ja selittävien muuttujien välisen ns. moninkertaisen korrelaatiokertoimen neliö. Erityisesti parillisen lineaarisen regressiomallin määrityskerroin on yhtä suuri kuin y :n ja x :n välisen tavallisen korrelaatiokertoimen neliö .
Satunnaismuuttujan y tekijöistä x riippuvuuden mallin todellinen määrityskerroin määritetään seuraavasti:
missä on satunnaismuuttujan y varianssi ja on riippuvan muuttujan ehdollinen (kertoimien x ) varianssi (mallivirheen varianssi).
Tämä määritelmä käyttää todellisia parametreja, jotka kuvaavat satunnaismuuttujien jakaumaa . Jos käytämme otosestimaattia vastaavien varianssien arvojen arvoista , saamme näytteen määrityskertoimen kaavan (mitä yleensä tarkoitetaan determinaatiokertoimella):
missä on regressiojäännösten neliöiden summa, ovat selitettävän muuttujan todelliset ja lasketut arvot.
on neliöiden kokonaissumma.
Kun kyseessä on lineaarinen regressio vakiolla , missä on selitetty neliöiden summa, joten tässä tapauksessa saadaan yksinkertaisempi määritelmä - determinaatiokerroin on selitetyn neliösumman osuus kokonaismäärästä :
On syytä korostaa, että tämä kaava pätee vain mallille, jolla on vakio, yleensä on tarpeen käyttää edellistä kaavaa .
Suurin ongelma (valikoivassa) sovelluksessa on, että sen arvo kasvaa ( ei laske) uusien muuttujien lisäämisestä malliin, vaikka näillä muuttujilla ei ole mitään tekemistä selitettävän muuttujan kanssa! Siksi eri tekijöitä sisältävien mallien vertailu determinaatiokerrointa käyttäen on yleisesti ottaen virheellinen. Näihin tarkoituksiin voidaan käyttää vaihtoehtoisia indikaattoreita.
Jotta malleja voidaan verrata eri tekijöiden lukumäärällä niin, että regressorien (tekijöiden) määrä ei vaikuta tilastoihin , käytetään yleensä mukautettua determinaatiokerrointa , joka käyttää puolueettomia varianssien arvioita:
joka antaa rangaistuksen lisäksi sisällytetyistä tekijöistä, missä n on havaintojen lukumäärä ja k on parametrien lukumäärä.
Tämä indikaattori on aina pienempi kuin yksi, mutta teoriassa se voi olla pienempi kuin nolla (vain tavanomaisen määrityskertoimen hyvin pienellä arvolla ja suurella määrällä tekijöitä). Siksi indikaattorin tulkinta "osuudeksi" menetetään. Indikaattorin käyttö vertailussa on kuitenkin varsin perusteltua.
Malleissa, joissa on sama riippuva muuttuja ja sama otoskoko, mallien vertailu mukautetulla determinaatiokertoimella vastaa niiden vertailua mallin jäännösvarianssilla tai keskivirheellä . Ainoa ero on, että mitä alhaisemmat viimeiset kriteerit, sitä parempi.
AIC - Akaike -tietokriteeri - käytetään yksinomaan mallien vertailuun. Mitä pienempi arvo, sitä parempi. Käytetään usein vertaamaan aikasarjamalleja eri viivemäärillä. , jossa k on mallin parametrien lukumäärä.
BIC tai SC - Bayesian Schwartz Information Criteria - käytetään ja tulkitaan samalla tavalla kuin AIC. . Antaa suuremman rangaistuksen ylimääräisten viiveiden sisällyttämisestä malliin kuin AIC.
Jos lineaarisessa moninkertaisessa LSM -regressiossa ei ole vakiota, määrityskertoimen ominaisuuksia voidaan rikkoa tietyssä toteutuksessa . Siksi regressiomalleja, joissa on vapaa termi ja ilman sitä, ei voida verrata kriteerillä . Tämä ongelma ratkaistaan rakentamalla yleinen determinaatiokerroin , joka on sama kuin alkuperäinen LSM-regression tapauksessa leikkauspisteellä ja jolle edellä luetellut neljä ominaisuutta täyttyvät. Tämän menetelmän ydin on tarkastella yksikkövektorin projektiota selittävien muuttujien tasolle.
Regression tapauksessa ilman vapaata termiä:
,
jossa X on nxk tekijäarvojen matriisi, on projektio X-tasolle, , jossa on yksikkövektori nx1.
pienellä modifikaatiolla , soveltuu myös vertailemaan regressioita, jotka on rakennettu käyttämällä: LSM, yleistetty pienimmän neliösumma (GMLS), ehdollinen pienimmän neliösumma (GMLS), yleistetty ehdollinen pienimmän neliösumma (GMLS).
Determinaatiokertoimen perustana on regressioanalyysi ja korrelaatiokerroin . Britti luonnontieteilijä Sir Francis Galton (1822–1911) perusti regressioanalyysin 1870-luvulla. Hän, kuten serkkunsa Charles Darwin , oli Erasmus Darwinin pojanpoika . Galton tunnettiin voimakkaasta intohimostaan kaikenlaisten tietojen keräämiseen. Esimerkiksi hän keräsi tietoa chin makean herneen siemenistä . Vertaamalla siementen halkaisijoita hän rakensi nykyisen korrelaatiokaavion. Yhteyden, jonka hän löysi tässä toiminnassa, hän kutsui ensin "palautukseksi" (käänteeksi); kuitenkin myöhemmin hän valitsi nimen "regressio". Siemeniä analysoimalla hän havaitsi regressioilmiön keskustaa kohti, jonka mukaan - erittäin valitettavan muutoksen jälkeen myöhempi muutos lähestyy jälleen keskiarvoa: suurempien siementen jälkeläisten keskihalkaisija oli pienempi kuin vanhempien keskimääräinen halkaisija. siemenet (muutokset avautuvat). Korrelaatiokaavioissaan hän piirsi trendiviivan, jonka kulmakertoimena hän käytti korrelaatiokerrointa. [yksi]
Termin " dispersio " keksi tilastotieteilijä Ronald Fisher (1890-1962) vuoden 1918 artikkelissaan " The Correlation between Relatives on the Suposition of Mendelian Heritance " [2] . Fisher oli yksi 1900-luvun merkittävimmistä tilastotieteilijöistä ja tunnetaan panoksestaan evoluutioteoriassa. F-testi , joka liittyy läheisesti determinaatiokertoimeen, on myös nimetty hänen mukaansa. Biometriikan perustaja Karl Pearson (1857-1936) esitti muodollisen matemaattisen perustelun korrelaatiokertoimelle, jonka neliö on determinaatiokerroin. [3]
Determinaatiokerrointa on kritisoitu jyrkästi seuraavina vuosina. Tämä tapahtui, koska sillä on ominaisuus, että mitä suurempi määrä riippumattomia muuttujia on, sitä suurempi se on. Ja tämä on riippumaton siitä, lisäävätkö muut "selitysmuuttujat" "selitysvoimaa". Tämän huomioon ottamiseksi ekonometri Henri Theil (1924–2000) ehdotti vuonna 1961 Adjusted Coefficient of determination [4] , joka ottaa huomioon vapausasteiden menetyksen, joka liittyy selittävien muuttujien lukumäärän lisääntymiseen. Oikaistu determinaatiokerroin muuttuu mallille määrätyn sakon vuoksi muuttujien määrän kasvaessa. Saksalainen tiedemies Horst Rinne kuitenkin kritisoi tätä lähestymistapaa [5] siitä, että se ei rankaisenut tarpeeksi vapausasteen menettämisestä selittävien muuttujien määrän kasvaessa.
Determinaatiokertoimen korkeat arvot eivät yleisesti ottaen osoita syy-yhteyden olemassaoloa muuttujien välillä (sekä tavanomaisen korrelaatiokertoimen tapauksessa). Jos esimerkiksi selitettävällä muuttujalla ja tekijöillä, jotka eivät itse asiassa liity selitettyyn muuttujaan, on kasvava dynamiikka, niin determinaatiokerroin on melko korkea. Siksi mallin looginen ja semanttinen riittävyys ovat ensiarvoisen tärkeitä. Lisäksi on tarpeen käyttää kriteerejä mallin laadun kattavaan analysointiin.