Bias-dispersion dilemma

Varianssin ja varianssin välinen kompromissi tilastoissa ja koneoppimisessa on  ominaisuus ennustemallien joukossa, jossa malleilla, joilla on vähemmän vaihtelua käytettävissä olevista tiedoista, on suurempi varianssi uudessa tiedossa (eli ylisovitettavissa ) ja päinvastoin. Varianssin ja varianssin kompromissi  on ristiriita yritettäessä minimoida samanaikaisesti nämä kaksi virhelähdettä , jotka estävät valvottuja oppimisalgoritmeja yleistämästä opetusjoukon [ ulkopuolelle .

Bias-varianssihajotelma  on tapa analysoida tietyn ongelman oppimisalgoritmin odotettua yleistysvirhettä vähentämällä se kolmen termin summaan - harha, varianssi ja suureen, jota kutsutaan väistämättömäksi virheeksi , joka on tulos. melu itse ongelmassa.

Dilemma syntyy kaikissa ohjatun oppimisen muodoissa  - luokittelussa , regressiossa ( funktion approksimaatio ) [1] [2] ja rakenteellisessa ennustamisessa . Dilemmaa käytetään myös selittämään heuristiikan tehokkuutta ihmisten opettamisessa [3] .

Motiivit

Bias-varianssi-dilemma on keskeinen ongelma ohjatussa oppimisessa. Valitun mallin tulee toisaalta kaapata tarkasti kaikki harjoitustietojen mallit ja toisaalta yleistää kuviot tuntemattomiksi tiedoiksi. Valitettavasti molempia ei yleensä ole mahdollista tehdä samanaikaisesti. Suuren varianssin harjoittelumenetelmät voivat edustaa harjoitussarjaa hyvin, mutta vaarana on, että ne sopivat liikaa meluisan tai epäedustavan datan vuoksi. Sitä vastoin alhaisen varianssin algoritmit tuottavat tyypillisesti yksinkertaisempia malleja, eivät ole alttiita ylisovitukselle , mutta voivat päätyä alisovituksiin , mikä johtaa tärkeiden ominaisuuksien puuttumiseen.

Pienen biasin mallit ovat yleensä monimutkaisempia (esimerkiksi niillä on korkeamman asteen regressiopolynomit), minkä ansiosta ne voivat esittää harjoitusjoukon tarkemmin. Niissä voi kuitenkin olla suuri harjoitussarjan kohinakomponentti , tekee ennusteesta vähemmän tarkkoja monimutkaisuudesta huolimatta. Sitä vastoin suuren poikkeaman mallit ovat suhteellisen yksinkertaisempia (sillä on alemman kertaluvun tai jopa lineaariset polynomit), mutta ne voivat tuottaa alhaisen ennustevarianssin, jos niitä käytetään harjoitusjoukon ulkopuolella.

Neliövirheen bias-varianssihajotelma

Oletetaan, että meillä on harjoitussarja, joka koostuu joukosta pisteitä ja todellisia arvoja , jotka liittyvät kuhunkin näihin pisteisiin . Oletetaan, että on olemassa kohinafunktio, jossa kohinan keskiarvo ja varianssi on nolla .

Haluamme löytää funktion , joka approksimoi todellista funktiota mahdollisimman hyvin jonkin oppimisalgoritmin suhteen. Teemme käsitteen "mahdollisimman hyvä" mittaamalla keskimääräisen neliövirheen välillä ja  - haluamme arvon olevan minimaalinen sekä pisteille että otoksemme ulkopuolella . Luonnollisesti emme voi tehdä sitä täydellisesti, koska se sisältää melua . Tämä tarkoittaa, että meidän on oltava valmiita hyväksymään kohtalokas virhe missä tahansa toiminnassamme.

Harjoitusjoukon ulkopuolisiin pisteisiin yleistävän funktion löytäminen voidaan tehdä millä tahansa lukemattomalla määrällä ohjattuun oppimiseen käytettyjä algoritmeja. Osoittautuu, että minkä tahansa funktion valitsemmekin, voimme hajottaa sen odotetun virheen näkymättömälle datainstanssille seuraavasti: [4] [5] .

,

missä

ja

Matemaattiset odotukset kulkevat eri harjoitussarjavalinnoissa samasta yhteisjakelusta . Kolme jäsentä edustavat

Mitä monimutkaisempi malli on, sitä enemmän datapisteitä se kerää ja sitä pienempi harha on. Kuitenkin monimutkaisuus saa mallin keräämään enemmän pisteitä, ja siksi sen varianssi on suurempi.

Johtopäätös

rms-virheen bias-varianssihajotus on annettu alla [6] [7] . Mukavuuden vuoksi otamme käyttöön merkinnät ja . Ensinnäkin, muista, että määritelmän mukaan meillä on minkä tahansa satunnaismuuttujan kohdalla

Järjestämällä ehdot uudelleen saamme:

Koska se on päätetty

.

Siitä seuraa ja siitä .

Mutta koska saamme

Koska ja ovat itsenäisiä, voimme kirjoittaa

Regressiohakemus

Bias-varianssihajotelma muodostaa käsitteellisen perustan regression regularisointimenetelmille , kuten Lasso ja harjaregressio . Regularisointimenetelmät tuovat harhaa regressioratkaisuun, mikä voi merkittävästi vähentää varianssia verrattuna tavallisiin pienimpiin neliöihin OLS ) .  Vaikka GLSM-ratkaisu antaa puolueettoman regressioestimaatin, antavat regularisoinnilla saadut pienemmän varianssin ratkaisut erinomaisen keskineliövirheen.

Luokitushakemus

Bias-varianssihajotelma muotoiltiin alun perin lineaarista pienimmän neliösumman regressiota varten . Luokittelutapaukselle , jossa on 0-1 - häviöfunktio (väärin luokiteltu murtoluku), voidaan löytää samanlainen jaottelu [8] [9] . Vaihtoehtoisesti, jos luokitusongelma voidaan muotoilla todennäköisyysluokituksena , ennustettujen todennäköisyyksien neliövirheen odotus suhteessa todellisiin todennäköisyyksiin voidaan hajottaa kuten aiemmin [10] .

Lähestymistavat

Mittasuhteiden vähentäminen ja ominaisuuksien valinta voivat vähentää varianssia yksinkertaistamalla malleja. Samoin suurempi harjoitussarja johtaa varianssin pienenemiseen. Ominaisuuksien (ennustajien) lisääminen johtaa harhan vähenemiseen lisäämällä varianssia. Oppimisalgoritmeilla on yleensä joitain konfiguroitavia parametreja, jotka ohjaavat harhaa ja varianssia. Esimerkiksi,

Yksi tapa ratkaista ongelma on käyttää sekamalleja ja sävellystä oppimista [14] [15] . Esimerkiksi pakottaminen yhdistää useita "heikkoja" (high bias) malleja rakennelmaksi, jolla on pienempi bias kuin jokaisella yksittäisellä mallilla, kun taas pussittaminen yhdistää "tiukan" harjoittelun tavalla, joka vähentää varianssia.

k -lähimmät naapurit

K -lähimmän naapurin regression tapauksessa on suljetun muotoinen lauseke , joka liittyy bias-varianssihajotelmaan parametriin k [5] :

missä ovat x :n k lähimmät naapurit harjoitusjoukossa. Bias (ensimmäinen termi) on monotonisesti kasvava funktio k :stä , kun taas varianssi (toinen termi) pienenee k :n kasvaessa . Itse asiassa "kohtuullisilla olettamuksilla" lähin naapuribiasestimaattori (1-NN) katoaa kokonaan, kun harjoitusjoukon koko menee äärettömään [1] .

Sovellus ihmisten opettamiseen

Vaikka harha-varianssi-dilemmasta keskustellaan laajasti koneoppimisen yhteydessä, sitä on testattu ihmisen kognition yhteydessä , varsinkin Gerd Gigerenzer et al. He väittävät, että (katso viitteet alla) ihmisen aivot ratkaisevat harvoin, huonosti kuvattujen harjoitussarjojen tapauksessa henkilökohtaisesta kokemuksesta johdetun dilemman käyttämällä suurta harhaa/matala varianssi -heuristia. Tämä heijastaa sitä tosiasiaa, että nollabias-lähestymistapa on huonosti yleistettävissä uusiin tilanteisiin ja lisäksi olettaa kohtuuttomasti tarkkaa tietoa maailman tilasta. Tuloksena oleva heuristiikka on suhteellisen yksinkertainen, mutta se sopii paremmin monenlaisiin tilanteisiin [3] .

Gieman ym. [1] vastustavat sitä, että bias-dispersion dilemma tarkoittaa, että ominaisuuksia, kuten yleistä objektintunnistusta, ei voida hankkia tyhjästä, vaan ne vaativat jonkinlaista "johdotusta", josta tulee sitten kokemusta. Tästä syystä mallittomat päättelymenetelmät vaativat kohtuuttoman suuria harjoitusjoukkoja, jos halutaan välttää suurta varianssia.

Katso myös

Muistiinpanot

  1. 1 2 3 4 Geman, Bienenstock, Doursat, 1992 , s. 1–58.
  2. Encyclopedia of Machine Learning, 2011 , s. 100-101.
  3. 1 2 Gigerenzer, Brighton, 2009 , s. 107-143.
  4. 1 2 James, Witten, Hastie, Tibshirani, 2013 , s. 34.
  5. 1 2 Hastie, Tibshirani, Friedman, 2009 , s. 223.
  6. Vijayakumar, 2007 .
  7. Shakhnarovich, 2011 .
  8. Domingos, 2000 .
  9. Valentini, Dietterich, 2004 , s. 725–775.
  10. Manning, Raghavan, Schütze, 2008 , s. 308–314.
  11. Belsley, 1991 .
  12. Gagliardi, 2011 , s. 123-139.
  13. James, Witten, Hastie, Tibshirani, 2013 , s. 307.
  14. Ting, Vijaykumar, Schaal, 2011 , s. 615.
  15. Fortmann-Roe, 2012 .

Kirjallisuus