Probit-regressio

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 7. lokakuuta 2019 tarkistetusta versiosta . tarkastukset vaativat 3 muokkausta .

Probit- regressio ( probit model , eng.  probit ) on tilastollinen (epälineaarinen) malli ja menetelmä kvalitatiivisten (ensisijaisesti binääristen) muuttujien riippuvuuden analysoimiseksi useista eri tekijöistä perustuen normaalijakaumaan (toisin kuin esim. samanlainen logit-regressio , joka perustuu logistiseen jakaumaan ). Taloustieteessä ( ekonometria ) probit-malleja (logitin, gompitin jne. kanssa) käytetään binäärivalintamalleissa tai monivalintamalleissa eri vaihtoehtojen välillä, yrityksen maksuhäiriöiden mallintamiseen , henkivakuutuksissa - kuoleman todennäköisyyden arvioimiseen riippuen. iästä ja sukupuolesta jne. Toksikologiassa probit-regressiota käytetään arvioimaan tiettyjen aineiden annoksen tai pitoisuuden vaikutusta biologisiin esineisiin.

Probit-mallin avulla voit arvioida todennäköisyyden, että analysoitava (riippuvainen) muuttuja saa arvon 1 tietyille tekijäarvoille (eli se on arvio "yksiköiden" suhteesta tietylle tekijäarvolle). Probittimallissa todennäköisyyden probit-funktio mallinnetaan tekijöiden lineaarisena yhdistelmänä (mukaan lukien vakio). Probittifunktiota kutsutaan funktioksi, joka on käänteinen vakionormaalijakauman kumulatiiviselle funktiolle (CDF), eli funktiolle, joka määrittää normaalin normaalijakauman kvantiilin tietylle todennäköisyydelle .

Termi " probit " on johdannainen englannista.  Todennäköisyysyksikköä ehdotti (ensimmäinen käyttö) Chester Ittner Bliss [1899-1979]) [1] artikkelissaan myrkkyjen tappavan vaikutuksen kvantitatiivisesta analyysistä esimerkkinä nikotiinin vaikutuksesta oksaalikirviin ( Aphis rumicis). L. ) [1] . Siitä lähtien probit-analyysimenetelmä on ollut erityisen suosittu toksikologiassa . Normaalijakaumafunktion käyttö "annos-vaikutus" -suhteen kuvaamiseen juontaa juurensa englantilaiseen matemaatikko J. W. Trevaniin, joka osoitti, että soluvasteen intensiteetti tiettyyn lääkeaineen annokseen noudattaa Gaussin jakaumaa [2] .

Mallin olemus

Probit-malli on normaalijakaumaa käyttävän binäärivalintamallin erikoistapaus . Eli olkoon riippuva muuttuja binaarinen, eli se voi ottaa vain kaksi arvoa, joiden oletetaan yksinkertaisuuden vuoksi olevan ja . Se voi tarkoittaa esimerkiksi olosuhteiden olemassaoloa/puuttumista, jonkin onnistumista tai epäonnistumista, vastaus on kyllä/ei kyselyssä jne. Olkoon myös vektori regressoreista (tekijöistä) , jotka vaikuttavat . Probittimalli olettaa, että normaalijakauman määräämä todennäköisyys, joten probittimalli on:

missä on normaalin normaalijakauman  kumulatiivinen jakaumafunktio ( CDF ),  ovat estimoitavat tuntemattomat parametrit.

Normaalin normaalijakauman käyttö ei rajoita mallin yleisyyttä, koska mahdollinen nollasta poikkeava keskiarvo otetaan huomioon vakiossa, joka väistämättä esiintyy tekijöiden joukossa, ja mahdollinen ei-yksikkövarianssi otetaan huomioon. kaikkien kertoimien sopivaan normalisointiin b.

Kuten binäärivalintamallin yleisessä tapauksessa, malli perustuu oletukseen, että on olemassa jokin piilotettu (havainnoimaton) muuttuja riippuen siitä, minkä arvoista havaittu muuttuja saa arvon tai :

Piilevän muuttujan oletetaan riippuvan tekijöistä tavallisen lineaarisen regression merkityksessä , jossa satunnaisvirheellä on tässä tapauksessa standardi normaalijakauma . Sitten

Viimeinen yhtälö seuraa normaalijakauman symmetriasta.

Mallia voidaan myös perustella vaihtoehtojen hyödyllisyydellä - ei-havaittava funktio , eli itse asiassa kaksi funktiota ja vastaavasti kahdelle vaihtoehdolle. Vaihtoehtojen hyödyllisyyserofunktio toimii tässä hyvin piilossa olevan muuttujan roolissa.

Parametriarvio

Arviointi tehdään yleensä suurimman todennäköisyyden menetelmällä . Olkoon otos tekijöiden määrästä ja riippuvainen muuttuja . Käytä tietylle havaintonumerolle indeksiä . Log-likelihood-funktiolla on muoto:

Tämän funktion maksimoiminen tuntemattomien parametrien suhteen mahdollistaa johdonmukaisten , asymptoottisesti tehokkaiden ja asymptoottisesti normaaleiden parametrien arvioiden saamisen. Jälkimmäinen tarkoittaa, että:

missä  on parametriestimaattien asymptoottinen kovarianssimatriisi , joka määritetään suurimman todennäköisyyden menetelmän standardimenetelmällä ( Hessenin tai log-likelihood-funktion gradientin kautta optimaalisessa pisteessä):

,

missä  on normaalin normaalijakauman todennäköisyystiheysfunktio ( PDF ) .

Matriisi on tuntematon ja sen johdonmukaista arviota käytetään :

Tyypillisesti mallin arviointi suoritetaan erikoistuneilla (tilastollisilla, ekonometrisilla ) ohjelmistotuotteilla, esimerkiksi Statistica , EViews, Matrixer, R [3] , SPSS, jne. [4] , vaikka "manuaalinen" arviointi on mahdollista esim. MS Office Excel, joka käyttää sisäänrakennettua "Etsitään ratkaisua" log-todennäköisyystoiminnon maksimoimiseksi.

Laatumittarit ja mallin testaus

Konstruoidun probit-regression laadun arvioimiseksi käytetään binäärivalintamallien standarditilastoja:

On tärkeää analysoida oikeiden ennusteiden osuus. Erityisesti analysoidaan oikeiden ja (tai) väärien ennusteiden osuutta riippuvaisen muuttujan (0 ja 1) kunkin arvon arvosta.

Esimerkkejä

Toksikologia

Tarkastellaan probit-mallia käyttämällä esimerkkiä hyönteismyrkkyvaikutuksesta [5] [6] . Riippuva binäärimuuttuja on muuttuja, joka saa arvon 1, jos hyönteinen kuoli, ja 0 muussa tapauksessa. Hyönteisnäytteessä joidenkin hyönteisten vaste hyönteismyrkkyyn ei riipu toisten reaktiosta. Annoksen "mittari" toimii mallin tekijänä , missä on hyönteismyrkkyannos. Todennäköisyys, että populaatiosta satunnaisesti valittu hyönteis kuolee tietyn ajan kuluessa, on yhtä suuri kuin

.

Jos mallin parametrit ja tunnetaan (merkitsimme arvioita ja vastaavasti), niin annostaso , jolla tietty prosenttiosuus hyönteisistä kuolee, saadaan yhtälöstä

,

missä  on normaalin normaalijakauman tasokvantiili.

Erityisesti annostasolle , jolla 50 % hyönteisistä kuolee, . Tätä arvoa toksikologiassa kutsutaan yleisesti LD50 : ksi .

Voit myös muodostaa likimääräisen luottamusvälin seuraaville : . Hajaantuminen voidaan arvioida suunnilleen seuraavasti:

,

jossa  on arvio mallin parametriestimaattien varianssista,  on arvio parametriestimaattien välisestä kovarianssista.

Tarkempi luottamusväli voidaan arvioida Fellerin lauseesta , jonka mukaan 95 %:n luottamusrajat ovat toisen asteen yhtälön juuret .

,

missä  on 95 % Studentin t-jakaumapiste.

Muunnelmia ja yleistyksiä

Käytännössä on tilanteita, joissa ei ole tarpeen tutkia kahta vaihtoehtoa, vaan useita vaihtoehtoja. Jos nämä vaihtoehdot ovat järjestämättömiä, puhutaan moninomisesta probittimallista . Tilattujen vaihtoehtojen ( esim. 5 pisteen palvelun tai tuotteen laadun arviointi) tapauksessa puhutaan järjestys- tai tilausprobit - mallista .

Katso myös

Muistiinpanot

  1. 12 Bliss CI. Probittien menetelmä  (englanniksi)  // Tiede. - 1934. - Voi. 79 , ei. 2037 . - s. 38-39 . - doi : 10.1126/tiede.79.2037.38 . — PMID 17813446 . — .
  2. Trevan, JW 1927. Toksisuuden määrityksen virhe. Proc. Royal Soc. 101B: 483-514. siteerattu julkaisussa Albert A. Selective toxicity. Hoidon fysikaaliset ja kemialliset perusteet. Per. englannista. 2 osassa. T. 1. - M: Medicine, 1989, S. 247. ISBN 5-225-01519-0
  3. R-tietojen analyysiesimerkit - Probit-regressio . Haettu 3. elokuuta 2012. Arkistoitu alkuperäisestä 29. marraskuuta 2012.
  4. fi:Comparison_of_statistical_packages#Regression
  5. Finney, DJ Probit Analysis (3. painos  ) . - Cambridge University Press, Cambridge, Iso-Britannia, 1971. - ISBN 052108041X .
  6. Sovellettujen tilastojen käsikirja. 2 osassa T. 1: Per. englannista. /Toim. E. Lloyd, W. Lederman, Yu. N. Tyurin. — M.: Talous ja tilastot, 1989. — 510 s. — ISBN 5-279-00245-3

Kirjallisuus