Binäärivalintamalli on malli binäärimuuttujan (jossa otetaan vain kaksi arvoa - 0 ja 1) riippuvuudesta ekonometriassa käytetyistä tekijöistä. Tavallisen lineaarisen mallin rakentaminen tällaisille riippuville muuttujille on teoriassa virheellinen, koska tällaisten muuttujien ehdollinen odotus on yhtä suuri kuin todennäköisyys , että riippuva muuttuja saa arvon 1, ja lineaarinen malli sallii muun muassa negatiiviset arvot. ja arvot 1:n yläpuolella (huolimatta siitä, että todennäköisyyden on oltava välillä 0 - 1). Siksi joitain kumulatiivisia jakaumafunktioita käytetään yleisesti. Yleisimmin käytettyjä ovat normaalijakauma ( probit ), logistinen jakauma ( logit ) ja Gompertzin jakauma (gompit).
Olkoon muuttuja binäärinen, eli se voi ottaa vain kaksi arvoa, joiden oletetaan yksinkertaisuuden vuoksi olevan yhtä kuin ja . Se voi tarkoittaa esimerkiksi olosuhteiden olemassaoloa/puuttumista, jonkin onnistumista tai epäonnistumista, vastaus on kyllä/ei kyselyssä jne. Olkoon myös vektori regressoreista (tekijöistä) , jotka vaikuttavat .
Regressiomalli käsittelee riippuvan muuttujan tekijä-ehdollista odotusta, joka tässä tapauksessa on yhtä suuri kuin todennäköisyys, että riippuva muuttuja on yhtä suuri kuin 1. Todellakin, matemaattisen odotuksen määritelmällä ja ottaen huomioon vain kaksi mahdollista arvoa , meillä on:
Tässä suhteessa esimerkiksi standardin lineaarisen regressiomallin käyttö on teoriassa virheellistä, jo pelkästään siksi, että todennäköisyys saa määritelmän mukaan rajalliset arvot 0:sta 1:een. Tältä osin on järkevää mallintaa mallin kautta. tiettyjen jakaumien integraalifunktiot.
Yleensä oletetaan, että on olemassa jokin piilotettu (ei havaittu) "tavallinen" muuttuja , riippuen jonka arvoista havaittava muuttuja saa arvon 0 tai yksi:
Oletetaan, että piilevä muuttuja riippuu tekijöistä tavallisen lineaarisen regression merkityksessä , jossa satunnaisvirheellä on jakauma . Sitten
Jos jakauma on symmetrinen, voimme kirjoittaa
Toinen perustelu on käyttää vaihtoehtojen hyödyllisyyden käsitettä - ei havaittavaa funktiota , eli itse asiassa kaksi funktiota ja vastaavasti kahdelle vaihtoehdolle. On loogista olettaa, että jos annetuilla tekijöiden arvoilla yhden vaihtoehdon hyöty on suurempi kuin toisen, niin valitaan ensimmäinen ja päinvastoin. Tässä suhteessa on järkevää tarkastella vaihtoehtojen hyödyllisyyserofunktiota . Jos se on suurempi kuin nolla, valitaan ensimmäinen vaihtoehto; jos se on pienempi tai yhtä suuri kuin nolla, niin toinen. Siten vaihtoehtojen hyödyllisyyserofunktio toimii tässä hyvin piilossa olevan muuttujan roolissa. Satunnaisvirheen esiintyminen hyödyllisyysmalleissa mahdollistaa valinnan ei-absoluuttisen determinismin huomioon ottamisen (ainakin tietyn tekijöiden joukon ei-determinismin, vaikka minkä tahansa joukon valinnassa on satunnaisuuden elementti. tekijät).
Probit . Probit-mallikäyttää vakionormaalijakauman kumulatiivista funktiota:
Logit . Logit-malli käyttää logistisen jakelun CDF:ää:
Gompit . Ääriarvojen jakautumista käytetään - Gompertzin jakauma:
Arviointi tehdään yleensä suurimman todennäköisyyden menetelmällä . Olkoon otos tekijöiden määrästä ja riippuvainen muuttuja . Käytä tietylle havaintonumerolle indeksiä . Havainnon arvon saamisen todennäköisyys voidaan mallintaa seuraavasti:
Todellakin, jos , niin toinen tekijä on ilmeisesti yhtä suuri kuin 1, ja ensimmäinen on vain , mutta jos , niin ensimmäinen tekijä on yhtä suuri ja toinen on yhtä suuri kuin . Tietojen oletetaan olevan riippumattomia. Siksi todennäköisyysfunktio voidaan saada yllä olevien todennäköisyyksien tulona:
Vastaavasti logaritmisen todennäköisyysfunktion muoto on:
Tämän funktion maksimoiminen tuntemattomien parametrien suhteen mahdollistaa johdonmukaisten , asymptoottisesti tehokkaiden ja asymptoottisesti normaaleiden parametrien arvioiden saamisen. Jälkimmäinen tarkoittaa, että:
missä on parametriestimaattien asymptoottinen kovarianssimatriisi , joka määritetään standardinmukaisesti maksimitodennäköisyysmenetelmälle ( Hessin tai log-likelihood-funktion gradientin kautta optimaalisessa pisteessä).
missä ovat estimoidun mallin ja rajoitetun mallin log-todennäköisyyden arvot, jossa on vakio (ei riipu tekijöistä x, lukuun ottamatta vakiota tekijöiden joukosta).
Tämä tilasto, kuten yleensä maksimitodennäköisyysmenetelmää käytettäessä, mahdollistaa mallin tilastollisen merkitsevyyden testaamisen kokonaisuutena. Jos sen arvo on riittävän suuri (suurempi kuin jakauman kriittinen arvo , missä on mallin tekijöiden lukumäärä (ilman vakiota), mallia voidaan pitää tilastollisesti merkitsevänä.
Klassisen determinaatiokertoimen analogeja käytetään myös , esimerkiksi:
Molemmat indikaattorit ovat välillä 0-1.
On tärkeää analysoida oikeiden ennusteiden osuus valitusta luokittelukynnyksestä (miltä todennäköisyystasolta arvo 1 otetaan). Yleensä ROC-käyrää käytetään mallin laadun arvioimiseen ja AUC-indikaattori on alue ROC-käyrän alla.
Tämän tilaston tarkkaa jakautumista ei tunneta, mutta kirjoittajat ovat havainneet simuloinnilla, että se on approksimoitu jakaumalla .