Probit- regressio ( probit model , eng. probit ) on tilastollinen (epälineaarinen) malli ja menetelmä kvalitatiivisten (ensisijaisesti binääristen) muuttujien riippuvuuden analysoimiseksi useista eri tekijöistä perustuen normaalijakaumaan (toisin kuin esim. samanlainen logit-regressio , joka perustuu logistiseen jakaumaan ). Taloustieteessä ( ekonometria ) probit-malleja (logitin, gompitin jne. kanssa) käytetään binäärivalintamalleissa tai monivalintamalleissa eri vaihtoehtojen välillä, yrityksen maksuhäiriöiden mallintamiseen , henkivakuutuksissa - kuoleman todennäköisyyden arvioimiseen riippuen. iästä ja sukupuolesta jne. Toksikologiassa probit-regressiota käytetään arvioimaan tiettyjen aineiden annoksen tai pitoisuuden vaikutusta biologisiin esineisiin.
Probit-mallin avulla voit arvioida todennäköisyyden, että analysoitava (riippuvainen) muuttuja saa arvon 1 tietyille tekijäarvoille (eli se on arvio "yksiköiden" suhteesta tietylle tekijäarvolle). Probittimallissa todennäköisyyden probit-funktio mallinnetaan tekijöiden lineaarisena yhdistelmänä (mukaan lukien vakio). Probittifunktiota kutsutaan funktioksi, joka on käänteinen vakionormaalijakauman kumulatiiviselle funktiolle (CDF), eli funktiolle, joka määrittää normaalin normaalijakauman kvantiilin tietylle todennäköisyydelle .
Termi " probit " on johdannainen englannista. Todennäköisyysyksikköä ehdotti (ensimmäinen käyttö) Chester Ittner Bliss [1899-1979]) [1] artikkelissaan myrkkyjen tappavan vaikutuksen kvantitatiivisesta analyysistä esimerkkinä nikotiinin vaikutuksesta oksaalikirviin ( Aphis rumicis). L. ) [1] . Siitä lähtien probit-analyysimenetelmä on ollut erityisen suosittu toksikologiassa . Normaalijakaumafunktion käyttö "annos-vaikutus" -suhteen kuvaamiseen juontaa juurensa englantilaiseen matemaatikko J. W. Trevaniin, joka osoitti, että soluvasteen intensiteetti tiettyyn lääkeaineen annokseen noudattaa Gaussin jakaumaa [2] .
Probit-malli on normaalijakaumaa käyttävän binäärivalintamallin erikoistapaus . Eli olkoon riippuva muuttuja binaarinen, eli se voi ottaa vain kaksi arvoa, joiden oletetaan yksinkertaisuuden vuoksi olevan ja . Se voi tarkoittaa esimerkiksi olosuhteiden olemassaoloa/puuttumista, jonkin onnistumista tai epäonnistumista, vastaus on kyllä/ei kyselyssä jne. Olkoon myös vektori regressoreista (tekijöistä) , jotka vaikuttavat . Probittimalli olettaa, että normaalijakauman määräämä todennäköisyys, joten probittimalli on:
missä on normaalin normaalijakauman kumulatiivinen jakaumafunktio ( CDF ), ovat estimoitavat tuntemattomat parametrit.
Normaalin normaalijakauman käyttö ei rajoita mallin yleisyyttä, koska mahdollinen nollasta poikkeava keskiarvo otetaan huomioon vakiossa, joka väistämättä esiintyy tekijöiden joukossa, ja mahdollinen ei-yksikkövarianssi otetaan huomioon. kaikkien kertoimien sopivaan normalisointiin b.
Kuten binäärivalintamallin yleisessä tapauksessa, malli perustuu oletukseen, että on olemassa jokin piilotettu (havainnoimaton) muuttuja riippuen siitä, minkä arvoista havaittu muuttuja saa arvon tai :
Piilevän muuttujan oletetaan riippuvan tekijöistä tavallisen lineaarisen regression merkityksessä , jossa satunnaisvirheellä on tässä tapauksessa standardi normaalijakauma . Sitten
Viimeinen yhtälö seuraa normaalijakauman symmetriasta.
Mallia voidaan myös perustella vaihtoehtojen hyödyllisyydellä - ei-havaittava funktio , eli itse asiassa kaksi funktiota ja vastaavasti kahdelle vaihtoehdolle. Vaihtoehtojen hyödyllisyyserofunktio toimii tässä hyvin piilossa olevan muuttujan roolissa.
Arviointi tehdään yleensä suurimman todennäköisyyden menetelmällä . Olkoon otos tekijöiden määrästä ja riippuvainen muuttuja . Käytä tietylle havaintonumerolle indeksiä . Log-likelihood-funktiolla on muoto:
Tämän funktion maksimoiminen tuntemattomien parametrien suhteen mahdollistaa johdonmukaisten , asymptoottisesti tehokkaiden ja asymptoottisesti normaaleiden parametrien arvioiden saamisen. Jälkimmäinen tarkoittaa, että:
missä on parametriestimaattien asymptoottinen kovarianssimatriisi , joka määritetään suurimman todennäköisyyden menetelmän standardimenetelmällä ( Hessenin tai log-likelihood-funktion gradientin kautta optimaalisessa pisteessä):
,missä on normaalin normaalijakauman todennäköisyystiheysfunktio ( PDF ) .
Matriisi on tuntematon ja sen johdonmukaista arviota käytetään :
Tyypillisesti mallin arviointi suoritetaan erikoistuneilla (tilastollisilla, ekonometrisilla ) ohjelmistotuotteilla, esimerkiksi Statistica , EViews, Matrixer, R [3] , SPSS, jne. [4] , vaikka "manuaalinen" arviointi on mahdollista esim. MS Office Excel, joka käyttää sisäänrakennettua "Etsitään ratkaisua" log-todennäköisyystoiminnon maksimoimiseksi.
Konstruoidun probit-regression laadun arvioimiseksi käytetään binäärivalintamallien standarditilastoja:
On tärkeää analysoida oikeiden ennusteiden osuus. Erityisesti analysoidaan oikeiden ja (tai) väärien ennusteiden osuutta riippuvaisen muuttujan (0 ja 1) kunkin arvon arvosta.
Tarkastellaan probit-mallia käyttämällä esimerkkiä hyönteismyrkkyvaikutuksesta [5] [6] . Riippuva binäärimuuttuja on muuttuja, joka saa arvon 1, jos hyönteinen kuoli, ja 0 muussa tapauksessa. Hyönteisnäytteessä joidenkin hyönteisten vaste hyönteismyrkkyyn ei riipu toisten reaktiosta. Annoksen "mittari" toimii mallin tekijänä , missä on hyönteismyrkkyannos. Todennäköisyys, että populaatiosta satunnaisesti valittu hyönteis kuolee tietyn ajan kuluessa, on yhtä suuri kuin
.Jos mallin parametrit ja tunnetaan (merkitsimme arvioita ja vastaavasti), niin annostaso , jolla tietty prosenttiosuus hyönteisistä kuolee, saadaan yhtälöstä
,missä on normaalin normaalijakauman tasokvantiili.
Erityisesti annostasolle , jolla 50 % hyönteisistä kuolee, . Tätä arvoa toksikologiassa kutsutaan yleisesti LD50 : ksi .
Voit myös muodostaa likimääräisen luottamusvälin seuraaville : . Hajaantuminen voidaan arvioida suunnilleen seuraavasti:
,jossa on arvio mallin parametriestimaattien varianssista, on arvio parametriestimaattien välisestä kovarianssista.
Tarkempi luottamusväli voidaan arvioida Fellerin lauseesta , jonka mukaan 95 %:n luottamusrajat ovat toisen asteen yhtälön juuret .
,missä on 95 % Studentin t-jakaumapiste.
Käytännössä on tilanteita, joissa ei ole tarpeen tutkia kahta vaihtoehtoa, vaan useita vaihtoehtoja. Jos nämä vaihtoehdot ovat järjestämättömiä, puhutaan moninomisesta probittimallista . Tilattujen vaihtoehtojen ( esim. 5 pisteen palvelun tai tuotteen laadun arviointi) tapauksessa puhutaan järjestys- tai tilausprobit - mallista .