Tilastollisen mallin valinta

Mallin valinta  on tehtävä valita tilastollinen malli ehdokasmallien joukosta käytettävissä olevien tietojen perusteella. Yksinkertaisimmassa tapauksessa otetaan huomioon olemassa oleva tietojoukko. Tehtävä voi kuitenkin sisältää kokeiden suunnittelua , jolloin tiedonkeruu liittyy mallinvalintatehtävään. Kun otetaan huomioon malliehdokkaat, joilla on sama ennustamis- tai selitysvoima, yksinkertaisin malli on todennäköisesti paras valinta ( Occamin partaveitsi ).

Konishi ja Kitagawa [1] toteavat: "Useimmat tilastollisen päättelyn ongelmat voidaan pitää tilastolliseen mallinnukseen liittyvinä ongelmina." Samaan aikaan Cox [2] sanoi: "Se, miten käännös aiheongelmasta tilastolliseen malliin suoritetaan, on analyysin kriittisin osa."

Mallin valinta voi viitata myös useiden edustavien mallien valitsemiseen suuresta joukosta laskennallisia malleja päätöksentekoa tai optimointia varten epävarmuuden alaisena.

Johdanto

Yksinkertaisimmissa muodoissaan mallin valinta on yksi tieteellisen tutkimuksen perustehtävistä . Havaintoja selittävän periaatteen määritelmä liittyy usein suoraan matemaattiseen malliin näiden havaintojen ennustamiseksi. Esimerkiksi, kun Galileo suoritti kokeita kaltevassa tasossa , hän osoitti, että pallon liike seuraa mallissaan ennustettua paraabelia.

Miten datan tarjoamien mekanismien ja prosessien ääretön määrä voi alkaa valita paras malli? Matemaattinen lähestymistapa tekee yleensä päätöksen malliehdokkaiden joukossa. Tämä sarja tulee valita tutkijan toimesta. Yksinkertaisia ​​malleja, kuten polynomeja , käytetään usein , ainakin alussa. Burnham ja Andersen [3] korostavat kirjassaan, että on tärkeää valita tieteellisiin periaatteisiin perustuvia malleja, kuten fenomenologisten prosessien tai mekanismien (esim. kemiallisten reaktioiden) ymmärtäminen datalle.

Kun malliehdokkaiden joukko on valittu, tilastollinen analyysi mahdollistaa näiden mallien parhaan valinnan. Mitä sana paras tarkoittaa, on kyseenalainen kysymys. Hyvä mallinvalintatekniikka tasapainottaa mallin riittävyyden ja yksinkertaisuuden välillä. Monimutkaisemmat mallit voivat sovittaa tiedot paremmin (esimerkiksi viidennen asteen polynomi voi edustaa täsmälleen kuutta pistettä), mutta lisäparametrit eivät välttämättä ole hyödyllisiä (ehkä kuusi pistettä ovat itse asiassa satunnaisesti jakautuneet suoralle viivalla). Mallin sopivuus määritetään yleensä käyttämällä todennäköisyyssuhdetta tai likimääräistä todennäköisyyssuhdetta , jolloin tuloksena on khin neliötesti . Monimutkaisuus mitataan yleensä laskemalla mallin parametrien lukumäärä.

Mallinvalintatekniikoita voidaan pitää jonkin fyysisen suuren arvioina , kuten todennäköisyydellä, että malli tuottaa saatavilla olevan datan. Bias ja varianssi ovat tärkeitä ennustajan laadun indikaattoreita. Usein huomioidaan myös suoritusindikaattori .

Tavallinen esimerkki mallin valinnasta on käyräsovitus , jossa pistejoukon ja muun yleisen tiedon perusteella (esimerkiksi kun pisteet ovat riippumattomien satunnaismuuttujien otoksen tulos ), meidän on valittava käyrä, joka kuvaa funktiota, joka tuottaa pisteitä.

Ehdokasjoukon valintamenetelmät mallissa

Kriteerit

Jos rajoitamme etukäteen tarkastelemaan vain autoregressiivisiä (AR) malleja, eli oletetaan, että prosessi Xt seuraa AR(k)-mallia tuntemattomalla todellisella järjestyksellä k, niin pitkään k:tä käytettiin määrittämään k in. tällaiset tilanteet [4]

Edullisempi on tällä hetkellä yleisesti käytetty [4]

Hieman myöhemmin ehdotettiin [4]

Usein käytetty

Myös seuraavia kriteerejä käytetään

Katso myös

Muistiinpanot

  1. Konishi, Kitagawa, 2008 , s. 75.
  2. Cox, 2006 , s. 197.
  3. Burnham, Anderson, 2002 .
  4. 1 2 3 4 Tietokriteerit . Haettu 30. joulukuuta 2018. Arkistoitu alkuperäisestä 14. huhtikuuta 2018.
  5. Mallows, 1973 , s. 661-675.

Kirjallisuus