Bias-dispersion dilemma

Varianssin ja varianssin välinen kompromissi tilastoissa ja koneoppimisessa on ominaisuus ennustemallien joukossa, jossa malleilla, joilla on vähemmän vaihtelua käytettävissä olevista tiedoista, on suurempi varianssi uudessa tiedossa (eli ylisovitettavissa ) ja päinvastoin. Varianssin ja varianssin kompromissi on ristiriita yritettäessä minimoida samanaikaisesti nämä kaksi virhelähdettä , jotka estävät valvottuja oppimisalgoritmeja yleistämästä opetusjoukon [ ulkopuolelle .

Bias on estimointivirhe, joka johtuuoppimisalgoritmin virheellisestä oletuksesta. Suuren poikkeaman seurauksena algoritmista saattaa jäädä huomaamatta yhteys ominaisuuksien ja lähdön välillä (alisovitus).
Varianssi on herkkyysvirhe harjoitussarjan pienille poikkeamille. Suurella varianssilla algoritmi saattaa jotenkin käsitellä harjoitussarjassa satunnaista kohinaa halutun tuloksen ( overfitting ) sijaan.

Bias-varianssihajotelma on tapa analysoida tietyn ongelman oppimisalgoritmin odotettua yleistysvirhettä vähentämällä se kolmen termin summaan - harha, varianssi ja suureen, jota kutsutaan väistämättömäksi virheeksi , joka on tulos. melu itse ongelmassa.

Dilemma syntyy kaikissa ohjatun oppimisen muodoissa - luokittelussa , regressiossa ( funktion approksimaatio ) [1] [2] ja rakenteellisessa ennustamisessa . Dilemmaa käytetään myös selittämään heuristiikan tehokkuutta ihmisten opettamisessa [3] .

Motiivit

Bias-varianssi-dilemma on keskeinen ongelma ohjatussa oppimisessa. Valitun mallin tulee toisaalta kaapata tarkasti kaikki harjoitustietojen mallit ja toisaalta yleistää kuviot tuntemattomiksi tiedoiksi. Valitettavasti molempia ei yleensä ole mahdollista tehdä samanaikaisesti. Suuren varianssin harjoittelumenetelmät voivat edustaa harjoitussarjaa hyvin, mutta vaarana on, että ne sopivat liikaa meluisan tai epäedustavan datan vuoksi. Sitä vastoin alhaisen varianssin algoritmit tuottavat tyypillisesti yksinkertaisempia malleja, eivät ole alttiita ylisovitukselle , mutta voivat päätyä alisovituksiin , mikä johtaa tärkeiden ominaisuuksien puuttumiseen.

Pienen biasin mallit ovat yleensä monimutkaisempia (esimerkiksi niillä on korkeamman asteen regressiopolynomit), minkä ansiosta ne voivat esittää harjoitusjoukon tarkemmin. Niissä voi kuitenkin olla suuri harjoitussarjan kohinakomponentti , tekee ennusteesta vähemmän tarkkoja monimutkaisuudesta huolimatta. Sitä vastoin suuren poikkeaman mallit ovat suhteellisen yksinkertaisempia (sillä on alemman kertaluvun tai jopa lineaariset polynomit), mutta ne voivat tuottaa alhaisen ennustevarianssin, jos niitä käytetään harjoitusjoukon ulkopuolella.

Neliövirheen bias-varianssihajotelma

Oletetaan, että meillä on harjoitussarja, joka koostuu joukosta pisteitä ja todellisia arvoja , jotka liittyvät kuhunkin näihin pisteisiin . Oletetaan, että on olemassa kohinafunktio, jossa kohinan keskiarvo ja varianssi on nolla . $x_{1},\pisteet ,x_{n}$ $y_{i}$ $x_{i}$ $y=f(x)+\varepsilon$ $\varepsilon$ $\sigma ^{2}$

Haluamme löytää funktion , joka approksimoi todellista funktiota mahdollisimman hyvin jonkin oppimisalgoritmin suhteen. Teemme käsitteen "mahdollisimman hyvä" mittaamalla keskimääräisen neliövirheen välillä ja - haluamme arvon olevan minimaalinen sekä pisteille että otoksemme ulkopuolella . Luonnollisesti emme voi tehdä sitä täydellisesti, koska se sisältää melua . Tämä tarkoittaa, että meidän on oltava valmiita hyväksymään kohtalokas virhe missä tahansa toiminnassamme. ${\näyttötyyli {\hattu {f}}(x)}$ $f(x)$ $y$ ${\näyttötyyli {\hattu {f}}(x)}$ $(y-{\hat {f}}(x))^{2}$ $x_{1},\pisteet ,x_{n}$ $y_{i}$ $\varepsilon$

Harjoitusjoukon ulkopuolisiin pisteisiin yleistävän funktion löytäminen voidaan tehdä millä tahansa lukemattomalla määrällä ohjattuun oppimiseen käytettyjä algoritmeja. Osoittautuu, että minkä tahansa funktion valitsemmekin, voimme hajottaa sen odotetun virheen näkymättömälle datainstanssille seuraavasti: [4] [5] . ${\näyttötyyli {\hattu {f))}$ ${\näyttötyyli {\hattu {f))}$ $x$

{\begin{aligned}\operatorname {E} {\Big [}{\big (}y-{\hat {f))(x){\big )}^{2}{\Big ]} &={\Big (}\operaattorinimi {Bias} {\iso [}{\hat {f))(x){\big ]}{\Big )}^{2}+\operaattorinimi {Var} {\iso [}{\hat {f}}(x){\big ]}+\sigma ^{2}\\\end{aligned}}

missä

{\begin{aligned}\operatorname {Bias} {\big [}{\hat {f}}(x){\big ]}=\operaattorinimi {E} {\big [}{\hat {f }}(x)-f(x){\big ]}\end{aligned}}

{\begin{aligned}\operatorname {Var} {\big [}{\hat {f}}(x){\big ]}=\operaattorinimi {E} [{\hat {f}}(x) )^{2}]-{\Big (}\operaattorinimi {E} [{\hattu {f}}(x)]{\Big )}^{2}\end{aligned}}

Matemaattiset odotukset kulkevat eri harjoitussarjavalinnoissa samasta yhteisjakelusta . Kolme jäsentä edustavat ${\displaystyle x_{1},\dots ,x_{n},y_{1},\dots ,y_{n))$ $P(x,y)$

oppimismenetelmän neliöity bias , joka voidaan nähdä menetelmässä tehtyjen oletusten yksinkertaistamisesta johtuvana virheenä. Esimerkiksi kun käytetään epälineaarista funktion approksimaatiota käytettäessä oppimismenetelmää lineaarisille malleille , tällaisesta oletuksesta seuraa estimointivirhe ; $f(x)$ ${\näyttötyyli {\hattu {f}}(x)}$
oppimismenetelmän varianssi tai intuitiivisesti kuinka kauas oppimismenetelmä vie pois keskiarvosta; ${\näyttötyyli {\hattu {f}}(x)}$
kohtalokas virhe . Koska kaikki kolme suuretta ovat ei-negatiivisia, ne muodostavat alarajan odotetulle virheelle näkymättömässä datassa [4] . $\sigma ^{2}$

Mitä monimutkaisempi malli on, sitä enemmän datapisteitä se kerää ja sitä pienempi harha on. Kuitenkin monimutkaisuus saa mallin keräämään enemmän pisteitä, ja siksi sen varianssi on suurempi. ${\näyttötyyli {\hattu {f}}(x)}$

Johtopäätös

rms-virheen bias-varianssihajotus on annettu alla [6] [7] . Mukavuuden vuoksi otamme käyttöön merkinnät ja . Ensinnäkin, muista, että määritelmän mukaan meillä on minkä tahansa satunnaismuuttujan kohdalla $f=f(x)$ ${\hat {f}}={\hattu {f}}(x)$ $X$

{\begin{align}\operatorname {Var} [X]=\operatorname {E} [X^{2}]-{\Big (}\operaattorinnimi {E} [X]{\Big )}^ {2}\end{aligned}}

Järjestämällä ehdot uudelleen saamme:

{\begin{aligned}\operaattorinnimi {E} [X^{2}]=\operaattorinnimi {Muuttu} [X]+{\Big (}\operaattorinimi {E} [X]{\Big )}^ {2}\end{aligned}}

Koska se on päätetty $f$

{\begin{aligned}\operatorname {E} [f]=f\end{aligned}}

Siitä seuraa ja siitä . $y=f+\varepsilon$ $\operaattorinimi {E} [\varepsilon ]=0$ $\operaattorinimi {E} [y]=\operaattorinimi {E} [f+\varepsilon ]=\operaattorinimi {E} [f]=f$

Mutta koska saamme $\operatorname {Var} [\varepsilon ]=\sigma ^{2},$

{\begin{align}\operatorname {Var} [y]=\operatorname {E} [(y-\operatorname {E} [y])^{2}]=\operaattorinimi {E} [(yf )^{2}]=\operaattorinimi {E} [(f+\varepsilon -f)^{2}]=\operaattorinimi {E} [\varepsilon ^{2}]=\operaattorinimi {Var} [\varepsilon ]+ {\Big (}\operaattorinimi {E} [\varepsilon ]{\Big )}^{2}=\sigma ^{2}\end{aligned))

Koska ja ovat itsenäisiä, voimme kirjoittaa $\varepsilon$ ${\näyttötyyli {\hattu {f))}$

{\begin{aligned}\operatorname {E} {\big [}(y-{\hat {f)))^{2}{\big ]}&=\operaattorinimi {E} [y^{ 2}+{\hattu {f}}^{2}-2v{\hattu {f}}]\\&=\operaattorinimi {E} [y^{2}]+\operaattorinimi {E} [{\hattu {f}}^{2}]-\operaattorinimi {E} [2v{\hattu {f}}]\\&=\operaattorinimi {Var} [y]+\operaattorinimi {E} [y]^{2} +\operaattorinimi {Var} [{\hattu {f}}]+\operaattorinimi {E} [{\hattu {f}}]^{2}-2f\operaattorinimi {E} [{\hattu {f}}] \\&=\operaattorinimi {Muuttu} [y]+\operaattorinimi {Muuttu} [{\hat {f}}]+{\Big (}f^{2}-2f\operaattorinimi {E} [{\hat { f}}]+\operaattorinimi {E} [{\hattu {f}}]^{2}{\Big )}\\&=\operaattorinimi {Muuttu} [y]+\operaattorinimi {Muuttu} [{\hattu {f}}]+(f-\operaattorinimi {E} [{\hattu {f}}])^{2}\\&=\sigma ^{2}+\operaattorinimi {Var} [{\hat {f }}]+\operaattorinimi {Bias} [{\hat {f}}]^{2}\end{aligned}}

Regressiohakemus

Bias-varianssihajotelma muodostaa käsitteellisen perustan regression regularisointimenetelmille , kuten Lasso ja harjaregressio . Regularisointimenetelmät tuovat harhaa regressioratkaisuun, mikä voi merkittävästi vähentää varianssia verrattuna tavallisiin pienimpiin neliöihin OLS ) . Vaikka GLSM-ratkaisu antaa puolueettoman regressioestimaatin, antavat regularisoinnilla saadut pienemmän varianssin ratkaisut erinomaisen keskineliövirheen.

Luokitushakemus

Bias-varianssihajotelma muotoiltiin alun perin lineaarista pienimmän neliösumman regressiota varten . Luokittelutapaukselle , jossa on 0-1 - häviöfunktio (väärin luokiteltu murtoluku), voidaan löytää samanlainen jaottelu [8] [9] . Vaihtoehtoisesti, jos luokitusongelma voidaan muotoilla todennäköisyysluokituksena , ennustettujen todennäköisyyksien neliövirheen odotus suhteessa todellisiin todennäköisyyksiin voidaan hajottaa kuten aiemmin [10] .

Lähestymistavat

Mittasuhteiden vähentäminen ja ominaisuuksien valinta voivat vähentää varianssia yksinkertaistamalla malleja. Samoin suurempi harjoitussarja johtaa varianssin pienenemiseen. Ominaisuuksien (ennustajien) lisääminen johtaa harhan vähenemiseen lisäämällä varianssia. Oppimisalgoritmeilla on yleensä joitain konfiguroitavia parametreja, jotka ohjaavat harhaa ja varianssia. Esimerkiksi,

( Yleistetty ) lineaarisia malleja voidaan säädellä varianssin pienentämiseksi lisäämällä harhaa [11] .
keinotekoisissa neuroverkoissa varianssi kasvaa ja bias pienenee piiloyksiköiden määrän kasvaessa [1] . Kuten yleistetyt lineaariset mallit , niille käytetään yleisesti myös regularisointia.
K-lähimmän naapurin malleissa suuri k :n arvo johtaa suureen harhaan ja pieneen varianssiin (katso alla).
Esimerkkioppimisessa regularisointi voidaan saada sekoittamalla prototyyppejä ja esimerkkejä [12] .
Päätöspuissa puiden syvyys määrää varianssin. Päätöspuut leikataan yleensä varianssin säätelemiseksi [13] .

Yksi tapa ratkaista ongelma on käyttää sekamalleja ja sävellystä oppimista [14] [15] . Esimerkiksi pakottaminen yhdistää useita "heikkoja" (high bias) malleja rakennelmaksi, jolla on pienempi bias kuin jokaisella yksittäisellä mallilla, kun taas pussittaminen yhdistää "tiukan" harjoittelun tavalla, joka vähentää varianssia.

k -lähimmät naapurit

K -lähimmän naapurin regression tapauksessa on suljetun muotoinen lauseke , joka liittyy bias-varianssihajotelmaan parametriin k [5] :

\operaattorinimi {E} [(y-{\hat {f}}(x))^{2}\mid X=x]=\left(f(x)-{\frac {1}{k }}\sum _{i=1}^{k}f(N_{i}(x))\right)^{2}+{\frac {\sigma ^{2}}{k}}+\sigma ^{2}

missä ovat x :n k lähimmät naapurit harjoitusjoukossa. Bias (ensimmäinen termi) on monotonisesti kasvava funktio k :stä , kun taas varianssi (toinen termi) pienenee k :n kasvaessa . Itse asiassa "kohtuullisilla olettamuksilla" lähin naapuribiasestimaattori (1-NN) katoaa kokonaan, kun harjoitusjoukon koko menee äärettömään [1] . $N_{1}(x),\dots ,N_{k}(x)$

Sovellus ihmisten opettamiseen

Vaikka harha-varianssi-dilemmasta keskustellaan laajasti koneoppimisen yhteydessä, sitä on testattu ihmisen kognition yhteydessä , varsinkin Gerd Gigerenzer et al. He väittävät, että (katso viitteet alla) ihmisen aivot ratkaisevat harvoin, huonosti kuvattujen harjoitussarjojen tapauksessa henkilökohtaisesta kokemuksesta johdetun dilemman käyttämällä suurta harhaa/matala varianssi -heuristia. Tämä heijastaa sitä tosiasiaa, että nollabias-lähestymistapa on huonosti yleistettävissä uusiin tilanteisiin ja lisäksi olettaa kohtuuttomasti tarkkaa tietoa maailman tilasta. Tuloksena oleva heuristiikka on suhteellisen yksinkertainen, mutta se sopii paremmin monenlaisiin tilanteisiin [3] .

Gieman ym. [1] vastustavat sitä, että bias-dispersion dilemma tarkoittaa, että ominaisuuksia, kuten yleistä objektintunnistusta, ei voida hankkia tyhjästä, vaan ne vaativat jonkinlaista "johdotusta", josta tulee sitten kokemusta. Tästä syystä mallittomat päättelymenetelmät vaativat kohtuuttoman suuria harjoitusjoukkoja, jos halutaan välttää suurta varianssia.

Katso myös

Suurimman todennäköisyyden menetelmä

Muistiinpanot

↑ 1 2 3 4 Geman, Bienenstock, Doursat, 1992 , s. 1–58.
↑ Encyclopedia of Machine Learning, 2011 , s. 100-101.
↑ 1 2 Gigerenzer, Brighton, 2009 , s. 107-143.
↑ 1 2 James, Witten, Hastie, Tibshirani, 2013 , s. 34.
↑ 1 2 Hastie, Tibshirani, Friedman, 2009 , s. 223.
↑ Vijayakumar, 2007 .
↑ Shakhnarovich, 2011 .
↑ Domingos, 2000 .
↑ Valentini, Dietterich, 2004 , s. 725–775.
↑ Manning, Raghavan, Schütze, 2008 , s. 308–314.
↑ Belsley, 1991 .
↑ Gagliardi, 2011 , s. 123-139.
↑ James, Witten, Hastie, Tibshirani, 2013 , s. 307.
↑ Ting, Vijaykumar, Schaal, 2011 , s. 615.
↑ Fortmann-Roe, 2012 .

Kirjallisuus

Bias-varianssihajotelma // Encyclopedia of Machine Learning. – 2011.
Gerd Gigerenzer, Henry Brighton. Homo Heuristicus: Miksi puolueelliset mielet tekevät parempia johtopäätöksiä. - 2009. - T. 1 . - doi : 10.1111/j.1756-8765.2008.01006.x . — PMID 25164802 .
Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. Johdatus tilastooppimiseen . - Springer, 2013.
Trevor Hastie, Robert Tibshirani, Jerome Friedman. Tilastollisen oppimisen elementit . — 2009. Arkistoitu 26. tammikuuta 2015 Wayback Machineen
Sethu Vijayakumar. Bias-Variance -vaihto . – Edinburghin yliopisto, 2007.
Greg Shakhnarovich. Huomautuksia bias-varianssihajotelman johtamisesta lineaarisessa regressiossa . - 2011. Arkistoitu 21. elokuuta 2014.
David Belsley. 7Ehdollinen diagnostiikka: kollineaarisuus ja heikko data regressiossa . - New York: Wiley, 1991. - ISBN 978-0471528890 .
Pedro Domingos. Yhtenäinen bias-varianssihajotelma // ICML . – 2000.
Giorgio Valentini, Thomas G. Dietterich. Tukivektorikoneiden bias-varianssianalyysi SVM-pohjaisten ensemble-menetelmien kehittämiseen // JMLR . - 2004. - T. 5 .
Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. Johdatus tiedonhakuun . - Cambridge University Press, 2008.
Gagliardi F. Lääketieteellisiin tietokantoihin sovelletut instanssipohjaiset luokittimet: diagnoosi ja tiedon poimiminen // Tekoäly lääketieteessä. - 2011. - T. 52 , no. 3 . - doi : 10.1016/j.artmed.2011.04.002 .
Jo-Anne Ting, Sethu Vijaykumar, Stefan Schaal. Paikallisesti painotettu regressio kontrollia varten. Teoksessa Encyclopedia of Machine Learning / Claude Sammut, Geoffrey I. Webb .. - Springer, 2011. - S. 615.
Scott Fortmann Roe. Bias-variance-korjauksen ymmärtäminen . – 2012.

Koneoppiminen ja tiedon louhinta
Tehtävät	Luokitteluongelma Oppiminen ilman opettajaa Opettajan avustama oppiminen Taantumisanalyysi AutoML Yhdistyksen säännöt Ominaisuuksien erottaminen Ominaisuuksien koulutus Ranking koulutus Kieliopillinen johtaminen Verkko-oppiminen
Opettajan kanssa oppimista	k-lähimmän naapurin menetelmä Naiivi Bayesin luokitin päätöspuu Tuki vektorikonetta Lineaarinen regressio Logistinen regressio perceptron Mallien kokoonpanot Pussittaminen tehostaa satunnainen metsä Asiaankuuluva vektorimenetelmä
ryhmäanalyysi	k-keinomenetelmä Sumea klusterointimenetelmä Hierarkkinen klusterointi EM-algoritmi KOIVU PARANTAA DBSCAN OPTIIKKA Keskimääräinen siirto
Mittasuhteiden vähentäminen	Tekijäanalyysi Pääkomponenttimenetelmä CCA ICA LDA Ei-negatiivinen matriisin laajennus t-SNE
Rakenteellinen ennustaminen	Graafinen todennäköisyysmalli Bayesin verkko Piilotettu Markovin malli CRF
Anomalian havaitseminen	k-lähimmän naapurin menetelmä Paikallinen päästötaso
Piirrä todennäköisyysmallit	Bayesin verkko Markovin verkko Piilotettu Markovin malli
Neuroverkot	Rajoitettu Boltzmann-kone itseorganisoituva kartta Aktivointitoiminto Sigmoidi softmax Radiaalinen kantafunktio Takaisin lisäysmenetelmä Syväoppiminen Monikerroksinen perceptroni Toistuva neuroverkko pitkä lyhytaikainen muisti Hallittu toistuva esto Konvoluutiohermoverkko U-Net Autoenkooderi
Vahvistusoppiminen	Markovin prosessi Bellmanin yhtälö Ahne algoritmi Q-oppiminen SARSA Aikaero (TD)
Teoria	Vapnik-Chervonenkis teoria Bias-dispersion dilemma Laskennallinen oppimisteoria Empiirinen riskin minimointi Occam oppii PAC-oppiminen Tilastollinen oppimisteoria
Lehdet ja konferenssit	NeurIPS ICML ML JMLR ArXiv:cs.LG