Määrityskerroin

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 22. huhtikuuta 2022 tarkistetusta versiosta . vahvistus vaatii 1 muokkauksen .

Determinaatiokerroin ( -R-neliö ) on riippuvaisen muuttujan varianssin osuus, joka selittyy kyseessä olevan riippuvuusmallin eli selittävien muuttujien avulla . Tarkemmin sanottuna se on yksi miinus selittämättömän varianssin (mallin satunnaisvirheen varianssi tai riippuvan muuttujan varianssin tekijöistä riippuvainen) osuus riippuvan muuttujan varianssista. Sitä pidetään yleisenä mittana yhden satunnaismuuttujan riippuvuudesta monista muista. Lineaarisen suhteen erikoistapauksessa on riippuvaisen muuttujan ja selittävien muuttujien välisen ns. moninkertaisen korrelaatiokertoimen neliö. Erityisesti parillisen lineaarisen regressiomallin määrityskerroin on yhtä suuri kuin y :n ja x :n välisen tavallisen korrelaatiokertoimen neliö . $R^2$ $R^2$

Määritelmä ja kaava

Satunnaismuuttujan y tekijöistä x riippuvuuden mallin todellinen määrityskerroin määritetään seuraavasti:

R^{2}=1-{\frac {D[y|x]}{D[y]}}=1-{\frac {\sigma ^{2}}{\sigma _{y} ^{2}}},

missä on satunnaismuuttujan y varianssi ja on riippuvan muuttujan ehdollinen (kertoimien x ) varianssi (mallivirheen varianssi). ${\displaystyle D[y]=\sigma _{y}^{2))$ $D[y|x]=\sigma ^{2}$

Tämä määritelmä käyttää todellisia parametreja, jotka kuvaavat satunnaismuuttujien jakaumaa . Jos käytämme otosestimaattia vastaavien varianssien arvojen arvoista , saamme näytteen määrityskertoimen kaavan (mitä yleensä tarkoitetaan determinaatiokertoimella):

R^{2}=1-{\frac {{\hattu {\sigma }}^{2}}({\hattu {\sigma }}_{y}^{2}}}=1- {\frac {SS_{res}/n}{SS_{tot}/n}}=1-{\frac {SS_{res}}{SS_{tot}}},

missä on regressiojäännösten neliöiden summa, ovat selitettävän muuttujan todelliset ja lasketut arvot. $SS_{res}=\sum _{i=1}^{n}e_{i}^{2}=\sum _{i=1}^{n}(y_{i}-{\hat {y}}_{i})^{2}$ $y_{i},{\hat y}_{i}$

$SS_{tot}=\sum _{i=1}^{n}(y_{i}-{\overline {y)))^{2}=n{\hattu {\sigma }}_{ y}^{2}$ on neliöiden kokonaissumma.

{\bar {y}}={\frac {1}{n}}\sum _{{i=1}}^{n}y_{i}

Kun kyseessä on lineaarinen regressio vakiolla , missä on selitetty neliöiden summa, joten tässä tapauksessa saadaan yksinkertaisempi määritelmä - determinaatiokerroin on selitetyn neliösumman osuus kokonaismäärästä : $SS_{tot}=SS_{reg}+SS_{res}$ $SS_{reg}=\sum _{i=1}^{n}({\hat {y}}_{i}-{\overline {y}})^{2}$

$R^{2}={\frac {SS_{reg}}{SS_{tot}}}$

On syytä korostaa, että tämä kaava pätee vain mallille, jolla on vakio, yleensä on tarpeen käyttää edellistä kaavaa .

Tulkinta

Vakiolla varustetun mallin määrityskerroin saa arvot välillä 0 - 1. Mitä lähempänä kertoimen arvo on 1, sitä vahvempi on riippuvuus. Regressiomalleja arvioitaessa tämä tulkitaan mallin sopivuudeksi dataan. Hyväksyttävien mallien osalta oletetaan, että determinaatiokertoimen on oltava vähintään 50 % (tässä tapauksessa moninkertainen korrelaatiokerroin ylittää 70 % absoluuttisena arvona). Malleja, joiden determinaatiokerroin on yli 80 %, voidaan pitää varsin hyvinä (korrelaatiokerroin ylittää 90 %). Determinaatiokertoimen arvo 1 tarkoittaa muuttujien välistä toiminnallista suhdetta.
Koska selitettävän muuttujan ja tekijöiden välillä ei ole tilastollista suhdetta, lineaarisen regression tilastoilla on asymptoottinen jakauma , jossa on mallitekijöiden lukumäärä (katso Lagrangen kerrointesti ). Lineaarisen regression tapauksessa normaalijakauman satunnaisvirheillä tilastoilla on tarkka (kaikenkokoisille näytteille) Fisher-jakauma (katso F-testi ). Tietojen näiden arvojen jakautumisesta voit tarkistaa regressiomallin tilastollisen merkitsevyyden määrityskertoimen arvon perusteella. Itse asiassa nämä testit testaavat hypoteesia, jonka mukaan todellinen määrityskerroin on nolla. $nR^{2}$ $\chi ^{2}(k-1)$ $k-1$ $F={\frac {R^{2}/(k-1)}{(1-R^{2})/(nk)))$ $F(k-1,nk)$
Determinaatiokerroin ei voi olla negatiivinen, tämä johtopäätös tulee determinaatiokertoimen ominaisuuksista. Oikaistu determinaatiokerroin voi kuitenkin saada negatiivisia arvoja.

R 2 :n ja vaihtoehtoisten indikaattoreiden puute

Suurin ongelma (valikoivassa) sovelluksessa on, että sen arvo kasvaa ( ei laske) uusien muuttujien lisäämisestä malliin, vaikka näillä muuttujilla ei ole mitään tekemistä selitettävän muuttujan kanssa! Siksi eri tekijöitä sisältävien mallien vertailu determinaatiokerrointa käyttäen on yleisesti ottaen virheellinen. Näihin tarkoituksiin voidaan käyttää vaihtoehtoisia indikaattoreita. $R^2$

Oikaistu R 2

Jotta malleja voidaan verrata eri tekijöiden lukumäärällä niin, että regressorien (tekijöiden) määrä ei vaikuta tilastoihin , käytetään yleensä mukautettua determinaatiokerrointa , joka käyttää puolueettomia varianssien arvioita: $R^2$

${\bar {R}}^{2}=R_{adj}^{2}=1-{\frac {s^{2}}{s_{y}^{2}}}=1- {\frac {SS_{res}/(nk)}{SS_{tot}/(n-1)}}=1-(1-R^{2}){(n-1) \over (nk)} \leqslant R^{2}$

joka antaa rangaistuksen lisäksi sisällytetyistä tekijöistä, missä n on havaintojen lukumäärä ja k on parametrien lukumäärä.

Tämä indikaattori on aina pienempi kuin yksi, mutta teoriassa se voi olla pienempi kuin nolla (vain tavanomaisen määrityskertoimen hyvin pienellä arvolla ja suurella määrällä tekijöitä). Siksi indikaattorin tulkinta "osuudeksi" menetetään. Indikaattorin käyttö vertailussa on kuitenkin varsin perusteltua.

Malleissa, joissa on sama riippuva muuttuja ja sama otoskoko, mallien vertailu mukautetulla determinaatiokertoimella vastaa niiden vertailua mallin jäännösvarianssilla tai keskivirheellä . Ainoa ero on, että mitä alhaisemmat viimeiset kriteerit, sitä parempi. $s^{2}=SS_{res}/(nk)$ $s$

Tietokriteerit

AIC - Akaike -tietokriteeri - käytetään yksinomaan mallien vertailuun. Mitä pienempi arvo, sitä parempi. Käytetään usein vertaamaan aikasarjamalleja eri viivemäärillä. , jossa k on mallin parametrien lukumäärä. BIC tai SC - Bayesian Schwartz Information Criteria - käytetään ja tulkitaan samalla tavalla kuin AIC. . Antaa suuremman rangaistuksen ylimääräisten viiveiden sisällyttämisestä malliin kuin AIC.
$AIC={2k \over n}+\ln {SS_{res} \over n}$

$BIC={k\ln {n} \over n}+\ln {SS_{res} \over n}$

R 2 -yleistetty (laajennettu)

Jos lineaarisessa moninkertaisessa LSM -regressiossa ei ole vakiota, määrityskertoimen ominaisuuksia voidaan rikkoa tietyssä toteutuksessa . Siksi regressiomalleja, joissa on vapaa termi ja ilman sitä, ei voida verrata kriteerillä . Tämä ongelma ratkaistaan rakentamalla yleinen determinaatiokerroin , joka on sama kuin alkuperäinen LSM-regression tapauksessa leikkauspisteellä ja jolle edellä luetellut neljä ominaisuutta täyttyvät. Tämän menetelmän ydin on tarkastella yksikkövektorin projektiota selittävien muuttujien tasolle. $R^2$ $R_{{pidennetty}}^{2}$

Regression tapauksessa ilman vapaata termiä: , jossa X on nxk tekijäarvojen matriisi, on projektio X-tasolle, , jossa on yksikkövektori nx1.
$R_{{laajennettu}}^{2}=1-{Y'*(IP(X))*Y \yllä Y'*(I-\pi (X))*Y}$
$P(X)=X*(X'*X)^{{-1}}*X'$ $\pi (X)={P(X)*i_{n}*i_{n}'*P(X) \over i_{n}'*P(X)*i_{n}}$ $sisään$

$R_{{pidennetty}}^{2}$ pienellä modifikaatiolla , soveltuu myös vertailemaan regressioita, jotka on rakennettu käyttämällä: LSM, yleistetty pienimmän neliösumma (GMLS), ehdollinen pienimmän neliösumma (GMLS), yleistetty ehdollinen pienimmän neliösumma (GMLS).

Historia

Determinaatiokertoimen perustana on regressioanalyysi ja korrelaatiokerroin . Britti luonnontieteilijä Sir Francis Galton (1822–1911) perusti regressioanalyysin 1870-luvulla. Hän, kuten serkkunsa Charles Darwin , oli Erasmus Darwinin pojanpoika . Galton tunnettiin voimakkaasta intohimostaan kaikenlaisten tietojen keräämiseen. Esimerkiksi hän keräsi tietoa chin makean herneen siemenistä . Vertaamalla siementen halkaisijoita hän rakensi nykyisen korrelaatiokaavion. Yhteyden, jonka hän löysi tässä toiminnassa, hän kutsui ensin "palautukseksi" (käänteeksi); kuitenkin myöhemmin hän valitsi nimen "regressio". Siemeniä analysoimalla hän havaitsi regressioilmiön keskustaa kohti, jonka mukaan - erittäin valitettavan muutoksen jälkeen myöhempi muutos lähestyy jälleen keskiarvoa: suurempien siementen jälkeläisten keskihalkaisija oli pienempi kuin vanhempien keskimääräinen halkaisija. siemenet (muutokset avautuvat). Korrelaatiokaavioissaan hän piirsi trendiviivan, jonka kulmakertoimena hän käytti korrelaatiokerrointa. [yksi]

Termin " dispersio " keksi tilastotieteilijä Ronald Fisher (1890-1962) vuoden 1918 artikkelissaan " The Correlation between Relatives on the Suposition of Mendelian Heritance " [2] . Fisher oli yksi 1900-luvun merkittävimmistä tilastotieteilijöistä ja tunnetaan panoksestaan evoluutioteoriassa. F-testi , joka liittyy läheisesti determinaatiokertoimeen, on myös nimetty hänen mukaansa. Biometriikan perustaja Karl Pearson (1857-1936) esitti muodollisen matemaattisen perustelun korrelaatiokertoimelle, jonka neliö on determinaatiokerroin. [3]

Determinaatiokerrointa on kritisoitu jyrkästi seuraavina vuosina. Tämä tapahtui, koska sillä on ominaisuus, että mitä suurempi määrä riippumattomia muuttujia on, sitä suurempi se on. Ja tämä on riippumaton siitä, lisäävätkö muut "selitysmuuttujat" "selitysvoimaa". Tämän huomioon ottamiseksi ekonometri Henri Theil (1924–2000) ehdotti vuonna 1961 Adjusted Coefficient of determination [4] , joka ottaa huomioon vapausasteiden menetyksen, joka liittyy selittävien muuttujien lukumäärän lisääntymiseen. Oikaistu determinaatiokerroin muuttuu mallille määrätyn sakon vuoksi muuttujien määrän kasvaessa. Saksalainen tiedemies Horst Rinne kuitenkin kritisoi tätä lähestymistapaa [5] siitä, että se ei rankaisenut tarpeeksi vapausasteen menettämisestä selittävien muuttujien määrän kasvaessa.

Huomautus

Determinaatiokertoimen korkeat arvot eivät yleisesti ottaen osoita syy-yhteyden olemassaoloa muuttujien välillä (sekä tavanomaisen korrelaatiokertoimen tapauksessa). Jos esimerkiksi selitettävällä muuttujalla ja tekijöillä, jotka eivät itse asiassa liity selitettyyn muuttujaan, on kasvava dynamiikka, niin determinaatiokerroin on melko korkea. Siksi mallin looginen ja semanttinen riittävyys ovat ensiarvoisen tärkeitä. Lisäksi on tarpeen käyttää kriteerejä mallin laadun kattavaan analysointiin.

Katso myös

Muistiinpanot

↑ Franka Miriam Brückler: Geschichte der Mathematik kompakt: Das Wichtigste aus Analysis, Wahrscheinlichkeitstheorie, angewandter Mathematik, Topologie und Mengenlehre. Springer-Verlag, 2017, ISBN 978-3-662-55573-6 , S. 116 (saksa)
↑ Ronald Aylmer Fisher: Sukulaisten välinen korrelaatio Mendelin perinnön oletukseen. Julkaisussa: Trans. Roy. soc. Edinb. 52, 1918, S. 399-433. (Englanti)
↑ Franka Miriam Brückler: Geschichte der Mathematik kompakt: Das Wichtigste aus Analysis, Wahrscheinlichkeitstheorie, angewandter Mathematik, Topologie und Mengenlehre. Springer-Verlag, 2017, ISBN 978-3-662-55573-6 , S. 117. (saksa)
↑ Henri Theil: Talousennusteet ja politiikka. Amsterdam 1961, S. 213 .
↑ Horst Rinne: Ökonometrie: Grundlagen der Makroökonometrie. Vahlen, 2004. (saksa)

Kirjallisuus

Bakhrushin V. E. Menetelmät epälineaaristen tilastollisten suhteiden ominaisuuksien arviointiin // System Technologies. - 2011. - nro 2 (73). - s. 9-14. [yksi]

Magnus Ya.R., Katyshev P.K., Peresetsky A.A. Ekonometria. Alkukurssi. . - 6., 7., 8. painos, lisäys. ja uusittu .. - Moskova: Delo. - T. "". — 576 s. — ISBN 5-7749-0055-X .

Ershov E.B. Determinaatiokertoimen laajentaminen yleiseen lineaarisen regression tapaukseen, joka on estimoitu pienimmän neliösumman menetelmän eri versioilla (venäjäksi, englanniksi) // CEMI RAS Economics and Mathematical Methods. - Moskova: CEMI RAN, 2002. - T. 38 , no. 3 . - S. 107-120 .

Ayvazyan S.A., Mkhitaryan V.S. Sovellettu tilasto. Ekonometriikan perusteet (2 nidettä). -??. - Moskova: Unity-Dana (TASIS-projekti), 2001. - T. "1.2". — 1088 s. — ISBN 5-238-00304-8 .

Ershov E.B. Regression valinta, joka maksimoi määrityskertoimen puolueettoman arvion (venäjäksi, englanniksi) // Ayvazyan S.A. Sovellettu ekonometria. - Moskova: Market DS, 2008. - T. 12 , no. 4 . - S. 71-83 .

Linkit

Tilastollisten termien sanasto (downlink alkaen 13-05-2013 [3454 päivää] - historia )