Sensuroitu regressio on regressio , jossa on riippuvainen muuttuja, joka havaitaan mahdollisten arvojen rajoituksella (sensuroinnilla). Tässä tapauksessa mallia voidaan sensuroida vain toiselta puolelta (oikealta tai vasemmalta) tai molemmilta puolilta. Sensuroitu regressio eroaa typistetystä regressiosta siinä , että tekijäarvot, toisin kuin riippuvainen muuttuja, havaitaan ilman rajoituksia.
Kanonista sensuroitua regressiota, joka on sensuroitu alhaalta nollalla, kutsutaan tobitiksi (analogisesti probit , logit jne.), joka on nimetty taloustieteen Nobel-palkinnon voittajan James Tobinin mukaan. Varsinainen sensuroitujen mallien tutkimus alkoi J. Tobinin vuonna 1958 tekemällä työllä, jossa tarkasteltiin kotitalouksien kulutusta autoihin. Autojen kysynnän joustavuuden arvioimiseksi tulojen suhteen on tarpeen arvioida kulujen logaritmin riippuvuus tulojen logaritmista. Kuitenkin, kuten Tobin osoitti, tällainen arvio on puolueellinen ja kestämätön, koska pienituloisten perheiden (alle tietyn kynnyksen) menojen määrä on nolla riippumatta tulojen määrästä ja muista tekijöistä. Tobin ehdotti ensimmäisenä lähestymistapaa tällaisten mallien estimointiin, mikä mahdollistaa johdonmukaisten arvioiden saamisen mallin parametreista.
Sensuroidussa mallissa ei havaita itse riippuvaista muuttujaa, vaan sen arvoja sensuroinnin rajoissa. Eli oletetaan, että on olemassa piilevä muuttuja , jolle tavallinen regressiomalli pätee , mutta itse asiassa havaitaan toinen muuttuja, joka määritellään yleisessä tapauksessa seuraavasti:
Jos , niin meillä on kanoninen sensuroitu malli (tobit):
Harkitse havaitun riippuvaisen muuttujan matemaattista odotusta käyttämällä esimerkkiä tobit-mallista, jossa on normaalisti jakautunut virhe:
Jos on tiheys ja on satunnaisvirheen integraalijakaumafunktio, niin
Siksi meillä on vihdoin
Ilmeisesti tämä lauseke ei ole yhtä suuri kuin , joten tavallisen regression rakentaminen johtaa puolueellisiin ja epäjohdonmukaisiin arvioihin.
Parametrien estimointi suoritetaan maksimitodennäköisyyden menetelmällä . Sensuroidun mallin log-todennäköisyysfunktio on:
missä ovat satunnaisvirheen tiheys ja integraalijakaumafunktio .
Maksimoimalla tämä funktio tuntemattomien parametrien suhteen, voimme löytää niiden estimaatit.
Tobinin mallilla on yksi haittapuoli. Tosiasia on, että arvo y=0 voi tarkoittaa valintaa "ei osallistu" (esimerkiksi lomakuluissa), ja arvot voidaan tulkita "osallistumisintensiteetiksi". Tobit-mallissa sekä valinta "osallistu-ei osallistu" että "osallistuminen intensiteetti" määräytyy samojen tekijöiden perusteella ja tekijät toimivat samaan suuntaan. Klassinen esimerkki moniselitteisestä tekijästä ja tilanteesta on lasten määrä perheen kuluihin vaikuttavana tekijänä. Ilmeisesti suuri määrä lapsia voi vaikuttaa negatiivisesti päätökseen "vapautua vai ei" (korkeiden kustannusten vuoksi), mutta jos tällainen päätös tehdään, loman menojen määrä (osallistumisintensiteetti) riippuu suoraan lomasta. lasten määrä.
Heckman ehdotti mallin jakamista kahteen komponenttiin - osallistumisen binäärivalintamalliin ja osallistumisen intensiteetin lineaariseen malliin, ja näiden kahden mallin tekijät voivat yleensä olla erilaisia. Siten Heckman-mallissa on kaksi piilevää muuttujaa, jotka täyttävät seuraavat mallit:
Satunnaisten mallivirheiden oletetaan olevan normaalijakautuneita. Toinen piilevä muuttuja määrittää valinnan "osallistu/ei osallistu" vakiobinäärivalintamallissa (esimerkiksi probit-mallissa). Ensimmäinen malli on osallistumisintensiteetin malli, jossa valitaan "osallistua". Jos valitaan "ei osallistu", sitä ei noudateta (yhtä kuin nolla).
Tällaista mallia kutsutaan tobit II :ksi (vastaavasti alkuperäistä tobit-mallia kutsutaan tobitiksi I ), joskus analogisesti hekit (Heckman-malli). Englanninkielisestä kirjallisuudesta löytyy myös niminäytteen valintamalli .
Harkitse havaitun riippuvaisen muuttujan matemaattista odotusta (olettaen ):
Olettaen, että piilevien muuttujamallien satunnaisvirheet korreloivat ja liittyvät toisiinsa
Näin ollen
missä on niin kutsuttu Heckman lambda .
Heckmanin mallia estimoidaan myös maksimitodennäköisyyden menetelmällä, mutta ongelman epästandardin luonteen vuoksi käytetään usein Heckmanin ehdottamaa yksinkertaistettua kaksivaiheista estimointimenettelyä. Ensimmäisessä vaiheessa binäärivalintamalli arvioidaan ja tämän mallin parametrit määritetään. Näiden parametrien perusteella jokaiselle havainnolle voidaan määrittää Heckmanin lambda. Toisessa vaiheessa tavalliset pienimmän neliösummat arvioivat regression:
Tuloksena saadut arviot ovat tehottomia, mutta niitä voidaan käyttää alkuarvoina maksimitodennäköisyyden menetelmässä.