Tilastollisen mallin valinta
Mallin valinta on tehtävä valita tilastollinen malli ehdokasmallien joukosta käytettävissä olevien tietojen perusteella. Yksinkertaisimmassa tapauksessa otetaan huomioon olemassa oleva tietojoukko. Tehtävä voi kuitenkin sisältää kokeiden suunnittelua , jolloin tiedonkeruu liittyy mallinvalintatehtävään. Kun otetaan huomioon malliehdokkaat, joilla on sama ennustamis- tai selitysvoima, yksinkertaisin malli on todennäköisesti paras valinta ( Occamin partaveitsi ).
Konishi ja Kitagawa [1] toteavat: "Useimmat tilastollisen päättelyn ongelmat voidaan pitää tilastolliseen mallinnukseen liittyvinä ongelmina." Samaan aikaan Cox [2] sanoi: "Se, miten käännös aiheongelmasta tilastolliseen malliin suoritetaan, on analyysin kriittisin osa."
Mallin valinta voi viitata myös useiden edustavien mallien valitsemiseen suuresta joukosta laskennallisia malleja päätöksentekoa tai optimointia varten epävarmuuden alaisena.
Johdanto
Yksinkertaisimmissa muodoissaan mallin valinta on yksi tieteellisen tutkimuksen perustehtävistä . Havaintoja selittävän periaatteen määritelmä liittyy usein suoraan matemaattiseen malliin näiden havaintojen ennustamiseksi. Esimerkiksi, kun Galileo suoritti kokeita kaltevassa tasossa , hän osoitti, että pallon liike seuraa mallissaan ennustettua paraabelia.
Miten datan tarjoamien mekanismien ja prosessien ääretön määrä voi alkaa valita paras malli? Matemaattinen lähestymistapa tekee yleensä päätöksen malliehdokkaiden joukossa. Tämä sarja tulee valita tutkijan toimesta. Yksinkertaisia malleja, kuten polynomeja , käytetään usein , ainakin alussa. Burnham ja Andersen [3] korostavat kirjassaan, että on tärkeää valita tieteellisiin periaatteisiin perustuvia malleja, kuten fenomenologisten prosessien tai mekanismien (esim. kemiallisten reaktioiden) ymmärtäminen datalle.
Kun malliehdokkaiden joukko on valittu, tilastollinen analyysi mahdollistaa näiden mallien parhaan valinnan. Mitä sana paras tarkoittaa, on kyseenalainen kysymys. Hyvä mallinvalintatekniikka tasapainottaa mallin riittävyyden ja yksinkertaisuuden välillä. Monimutkaisemmat mallit voivat sovittaa tiedot paremmin (esimerkiksi viidennen asteen polynomi voi edustaa täsmälleen kuutta pistettä), mutta lisäparametrit eivät välttämättä ole hyödyllisiä (ehkä kuusi pistettä ovat itse asiassa satunnaisesti jakautuneet suoralle viivalla). Mallin sopivuus määritetään yleensä käyttämällä todennäköisyyssuhdetta tai likimääräistä todennäköisyyssuhdetta , jolloin tuloksena on khin neliötesti . Monimutkaisuus mitataan yleensä laskemalla mallin
parametrien lukumäärä.
Mallinvalintatekniikoita voidaan pitää jonkin fyysisen suuren arvioina , kuten todennäköisyydellä, että malli tuottaa saatavilla olevan datan. Bias ja varianssi ovat tärkeitä ennustajan laadun indikaattoreita. Usein huomioidaan myös suoritusindikaattori .
Tavallinen esimerkki mallin valinnasta on käyräsovitus , jossa pistejoukon ja muun yleisen tiedon perusteella (esimerkiksi kun pisteet ovat riippumattomien satunnaismuuttujien otoksen tulos ), meidän on valittava käyrä, joka kuvaa funktiota, joka tuottaa pisteitä.
Ehdokasjoukon valintamenetelmät mallissa
Kriteerit
Jos rajoitamme etukäteen tarkastelemaan vain autoregressiivisiä (AR) malleja, eli oletetaan, että prosessi Xt seuraa AR(k)-mallia tuntemattomalla todellisella järjestyksellä k, niin pitkään k:tä käytettiin määrittämään k in. tällaiset tilanteet [4]
- Akaike Information Criterion (AIC), tilastollisen mallin riittävyyden mitta. Myöhemmin todettiin, että Akaiken estimaatti on kestämätön ja yliarvioi (yliarvioi) asymptoottisesti k0:n todellisen arvon nollasta poikkeavalla todennäköisyydellä [4] .
Edullisempi on tällä hetkellä yleisesti käytetty [4]
Hieman myöhemmin ehdotettiin [4]
- Hennan-Quinn informaatiokriteeri , jolla on nopeampi konvergenssi k0:n todelliseen arvoon kohdassa. Pienillä T:n arvoilla tämä kriteeri kuitenkin aliarvioi autoregressiojärjestyksen.
Usein käytetty
Myös seuraavia kriteerejä käytetään
- Ristivahvistus
- Information Deviation Criteria (DIC), toinen Bayesin mallin valintakriteeri
- Tehokas määrityskriteeri ( EDC )
- Väärin positiivinen määrä
- Focused Information Criterion (FIC), kriteeri tilastollisten mallien valitsemiseksi niiden suorituskyvyn perusteella tietylle parametrille
- Todennäköisyyssuhdetesti , tilastollinen testi, jolla testataan otostiedoista arvioitujen tilastollisten mallien parametrien rajoituksia.
- Mallows C p statistic . Uskotaan, että hyvässä mallissa tämän tilaston tulisi ottaa arvoja, jotka ovat lähellä mallin parametrien määrää (mukaan lukien leikkauspiste) [5] .
- Vähimmäiskuvauksen pituuden periaate ( Algorithmic information theory ) on Occamin partaveitsen formalisaatio, jossa paras hypoteesi (malli ja sen parametrit) tietylle tietojoukolle on se, joka johtaa parempaan tiedon pakkaamiseen.
- Vähimmäispituus viesti ( Algoritminen informaatioteoria )
- Rakenteellisten riskien minimointi
- Portaittainen regressio . Vaiheittaisen regression tavoitteena on valita suuresta määrästä predikaatteja pieni osajoukko muuttujia, jotka vaikuttavat eniten riippuvan muuttujan vaihteluun.
- Watanabe-Akaike Information Criteria (WAIC), tietokriteeri, jolla on laaja sovellus
Katso myös
Muistiinpanot
- ↑ Konishi, Kitagawa, 2008 , s. 75.
- ↑ Cox, 2006 , s. 197.
- ↑ Burnham, Anderson, 2002 .
- ↑ 1 2 3 4 Tietokriteerit . Haettu 30. joulukuuta 2018. Arkistoitu alkuperäisestä 14. huhtikuuta 2018. (määrätön)
- ↑ Mallows, 1973 , s. 661-675.
Kirjallisuus
- Mallows CL Jotkut kommentit CP:stä // Technometrics. - 1973. - T. 15 , no. 4 . - doi : 10.2307/1267380 .
- Aho K., Derryberry D., Peterson T. Mallinvalinta ekologeille: AIC:n ja BIC:n maailmankuvat // Ecology . - 2014. - T. 95 . — S. 631–636 . - doi : 10.1890/13-1452.1 .
- Anderson DR - malliin perustuva päätelmä biotieteissä . - Springer, 2008.
- Ando T. Bayesin mallin valinta ja tilastollinen mallintaminen. - CRC Press , 2010.
- Leo Breiman . Tilastollinen mallintaminen: kaksi kulttuuria // Tilastotiede . - 2001. - T. 16 . — S. 199–231 . - doi : 10.1214/ss/1009213726 .
- Burnham KP, Anderson DR mallin valinta ja monimallipäätelmä: Käytännön tietoteoreettinen lähestymistapa. – 2. - Springer-Verlag, 2002. - ISBN 0-387-95364-7 . [kirja lainattu yli 38 000 kertaa Google Scholarissa ]
- Chamberlin TC Useiden työhypoteesien menetelmä // Tiede . - 1890. - T. 15 . - S. 93 . - doi : 10.1126/science.ns-15.366.92 . — . (Uudelleenpainettu 1965, Science 148: 754-759 [1] doi : 10.1126/science.148.3671.754 )
- Gerda Claeskens. Tilastollisen mallin valinta // Tilastojen ja sen soveltamisen vuosikatsaus . - 2016. - T. 3 . — S. 233–256 . - doi : 10.1146/annurev-statistics-041715-033413 . — . (linkki ei saatavilla)
- Claeskens G., Hjort NL Model Selection and Model Averaging. - Cambridge University Press, 2008. - (CAMBRIDGE-SARJA TILASTO- JA TODENNÄKÖISYÖSTÄ MATEMAATIASSA). — ISBN 978-0-521-85225-8 .
- Tilastollisen päättelyn periaatteet. - Cambridge University Press, 2006. - ISBN 0-511-34858-4 .
- Konishi S., Kitagawa G. Tietokriteerit ja tilastollinen mallinnus . - Springer, 2008. - ISBN 978-0-387-71886-6 .
- Model Selection / Lahiri P.. - Beachwood, Ohio: Institute of Mathematical Statistics , 2001. - Vol. 38. - (LUENTOHUOMAUTUKSET-MONOGRAFISARJA). — ISBN 0-940600-52-8 .
- Leeb H., Pötscher BM Model selection // Handbook of Financial Time Series / Torben G. Andersen, Richard A. Davis, Jens-Peter Kreiß, Thomas Mikosch. - Springer, 2009. - S. 889-925. — ISBN 978-3-540-71296-1 . - doi : 10.1007/978-3-540-71297-8_39 .
- Lukacs PM, Thompson WL, Kendall WL, Gould WR, Doherty PF Jr., Burnham KP, Anderson DR Huoli informaatioteorian ja hypoteesien testauksen moniarvoisuudesta // Journal of Applied Ecology . - 2007. - T. 44 , no. 2 . — S. 456–460 . - doi : 10.1111/j.1365-2664.2006.01267.x .
- Allan D.R. McQuarrie, Chih-Ling Tsai. Regressio ja aikasarjamallin valinta. - Singapore: World Scientific, 1998. - ISBN 981-02-3242-X .
- Massart P. Keskittymiserot ja mallin valinta / Toimittaja: Jean Picard. - Springer, 2007. - T. 1896. - (Matematiikan luentomuistiinpanot). — ISBN 3-540-48497-3 .
- Massart P. Ei-asymptoottinen kävely todennäköisyyksiin ja tilastoihin // Tilastotieteen menneisyys, nykyisyys ja tulevaisuus. - Chapman & Hall , 2014. - s. 309-321.
- Paulo Angelo Alves Resende, Chang Chung Yu Dorea. Mallin tunnistaminen tehokkaan määrityskriteerin avulla // Journal of Multivariate Analysis . - 2016. - T. 150 . — S. 229–244 . - doi : 10.1016/j.jmva.2016.06.002 .
- Shmueli G. Selittää vai ennustaa? // Tilastotiede . - 2010. - T. 25 . — S. 289–310 . - doi : 10.1214/10-STS330 . - arXiv : 1101.0891 .
- Wit E., van den Heuvel E., Romeijn J.-W. 'Kaikki mallit ovat vääriä...': johdatus mallin epävarmuuteen // Statistica Neerlandica. - 2012. - T. 66 . — S. 217–236 . - doi : 10.1111/j.1467-9574.2012.00530.x .
- Wit E., McCullagh P. Tilastollisten mallien laajennettavuus // Algebraic Methods in Statistics and Probability / MAG Viana, D. St. P. Richards. - 2001. - S. 327-340.
- Anna Wójtowicz, Tomasz Bigaj. Perustelut, vahvistus ja toisensa poissulkevien hypoteesien ongelma // Faktojen ja arvojen paljastaminen / Adrian Kuźniar, Joanna Odrowąż-Sypniewska. - Brill Publishers , 2016. - S. 122-143. - doi : 10.1163/9789004312654_009 .