Bayesin tilastot

Bayesin tilasto on tilastotieteen teoria, joka perustuu todennäköisyyden Bayesin tulkintaan , jossa todennäköisyys heijastaa tapahtuman luotettavuuden astetta , joka voi muuttua uutta tietoa kerättäessä, toisin kuin taajuuslähestymistapaan perustuva kiinteä arvo. [1] . Luottamusaste voi perustua ennakkotietoon tapahtumasta, kuten aikaisempien kokeiden tuloksiin tai henkilökohtaiseen luottamukseen tapahtumaa kohtaan. Tämä eroaa useista muista todennäköisyystulkinnoista , kuten frekvenssitulkinnasta , joka pitää todennäköisyyttä rajana useiden kokeiden jälkeen tapahtuvan tapahtuman suhteelliselle esiintymistiheydelle [2] .

Johdanto

Bayesin tilastolliset menetelmät käyttävät Bayesin lausetta todennäköisyyksien laskemiseen ja päivittämiseen, kun uutta dataa saadaan. Bayesin lause kuvaa tapahtuman ehdollista todennäköisyyttä , joka perustuu sekä dataan että ennakkotietoon, tai luottamusta tapahtumaan tai tapahtumaan liittyviin olosuhteisiin. Esimerkiksi Bayesin päättelyssä Bayesin lausetta voidaan käyttää todennäköisyysjakauman tai tilastollisen mallin parametrin estimoimiseen . Koska Bayesin tilastot käsittelevät todennäköisyyttä luottamusasteena, Bayesin lause voi määrittää suoraan todennäköisyysjakauman, joka kvantifioi parametrin tai parametrijoukon [2] .

Bayesin tilastot on nimetty Thomas Bayesin mukaan, joka muotoili erikoistapauksen Bayesin lauseesta vuonna 1763 julkaistussa artikkelissaan . Pierre-Simon Laplace kehitti useissa 1700-luvun lopulta 1800-luvun alkuun julkaistuissa julkaisuissa Bayesin todennäköisyyden tulkinnan. . Laplace käytti nykyään Bayesilaiseksi katsottuja menetelmiä useiden tilastollisten ongelmien ratkaisemiseen. Myöhemmät kirjoittajat kehittivät monia Bayesin menetelmiä, mutta termiä käytettiin kuvaamaan tällaisia menetelmiä vasta 1950-luvulla. Suurimman osan 1900-luvusta Bayesin menetelmät eivät olleet toivottuja useimmille tilastotieteilijöille filosofisista ja käytännön syistä. Monet Bayesin menetelmät ovat laskennallisesti intensiivisiä ja useimmat yli vuosisadan ajan käytetyt menetelmät ovat perustuneet taajuustulkintaan. Kuitenkin tehokkaiden tietokoneiden ja uusien algoritmien , kuten Monte Carlo -menetelmän Markovin ketjuille tulon myötä, Bayesin menetelmiä aletaan käyttää yhä voimakkaammin 2000-luvun tultua [2] [3] .

Bayesin lause

Bayesin lause on peruslause Bayesin tilastoissa, koska Bayesin menetelmät käyttävät sitä päivittämään todennäköisyyksiä, jotka ovat luottamusasteita, kun uutta dataa vastaanotetaan. Kun on annettu kaksi tapahtumaa ja , ehdollinen todennäköisyys , mikäli se on tosi, ilmaistaan kaavalla [4] : $A$ $B$ $A$ $B$

P(A\mid B)={\frac {P(B\mid A)P(A)}{P(B)))

missä . Vaikka Bayesin lause on todennäköisyysteorian perustavanlaatuinen tulos , sillä on erityinen tulkinta Bayesin tilastoissa. Yllä olevassa yhtälössä se edustaa yleensä lausuntoa (kuten lausuntoa, että kolikko nousee esiin 50 prosenttia ajasta) ja edustaa perustetta tai uutta tietoa, joka on otettava huomioon (kuten tulos sarjasta kolikonheitot). on tapahtuman ennakkotodennäköisyys , joka ilmaisee luottamusta tapahtumaan ennen kuin perustelut otetaan huomioon. Aikaisempi todennäköisyys voi myös kvantifioida tietoa tai tietoa tapahtumasta . on todennäköisyysfunktio , joka voidaan tulkita todisteen todennäköisyydeksi , kun otetaan huomioon , että tapahtuma on tapahtunut . Todennäköisyys ilmaisee sen, missä määrin todisteet tukevat väitettä . on posteriori todennäköisyys , väitteen todennäköisyys todisteiden tarkastelun jälkeen . Pohjimmiltaan Bayesin lause päivittää a priori varmuuden uusien todisteiden tarkastelun jälkeen [2] . $P(B)\neq 0$ $A$ $B$ $P(A)$ $A$ $A$ $A$ $P(B\mid A)$ $B$ $A$ $B$ $A$ $P(A\mid B)$ $A$ $B$ $P(A)$ $B$

Todistuksen todennäköisyys voidaan laskea käyttämällä kokonaistodennäköisyyskaavaa . Jos on alkeistapahtumien tilan osio , joka on kokeen kaikkien tulosten joukko , niin [2] [4] $P(B)$ $\{A_{1},A_{2},\dots ,A_{n}}\}$

P(B)=P(B\mid A_{1})P(A_{1})+P(B\mid A_{2})P(A_{2})+\dots +P(B) \mid A_{n})P(A_{n})=\sum _{i}P(B\mid A_{i})P(A_{i})

Jos tuloksia on ääretön määrä, on tarpeen integroida kaikki tulokset laskeaksesi kokonaistodennäköisyyskaavaa käyttäen. Laskeminen on usein vaikeaa, koska on tehtävä summaus tai integrointi, joka on aikaa vievää, joten usein huomioidaan vain priorin ja todennäköisyyden tulos. Posteriori todennäköisyys on verrannollinen tähän tuotteeseen [2] : $P(B)$ $P(B)$

P(A\mid B)\propto P(B\mid A)P(A)

Maksimi posterioriestimaatti , joka on posterioriestimaatin muoto ja joka usein lasketaan Bayesin tilastoissa matemaattisia optimointimenetelmiä käyttäen , pysyy samana. Posteriori todennäköisyys voidaan approksimoida jopa ilman tarkkaa arvon laskemista menetelmillä, kuten Monte Carlo Markovin ketjuille tai variaatio Bayesin menetelmillä [2] . $P(B)$

Bayesin menetelmät

Yleiset tilastotekniikat voidaan jakaa useisiin haaroihin, joista monilla on erityisiä Bayesin versioita.

Bayesin päättely

Bayesin päättely viittaa tilastolliseen päättelyyn , jossa päätelmän epävarmuus kvantifioidaan todennäköisyydellä. Klassisessa taajuuspäätelmässä mallin ja hypoteesiparametrien oletetaan olevan kiinteitä, eikä taajuuspäätelmän parametreille tai hypoteeseille anneta todennäköisyyksiä. Esimerkiksi taajuuspäätelmässä ei ole järkevää ilmaista nimenomaisesti sellaisen tapahtuman todennäköisyyttä, joka voi tapahtua vain kerran, kuten symmetrisen kolikon seuraavan heiton tulos. Olisi kuitenkin järkevää sanoa, että nousevien päiden osuus konvergoi puoleen , kun kolikonheittojen määrä kasvaa [5] .

Tilastolliset mallit määrittelevät joukon tilastollisia oletuksia ja prosesseja, jotka edustavat otostietojen luomista. Tilastollisissa malleissa on joukko parametreja, joita voidaan muuttaa. Esimerkiksi kolikko voidaan esittää Bernoulli-jakauman kokeina , jotka simuloivat kahta mahdollista tulosta. Bernoullin jakaumassa on yksi parametri, joka on yhtä suuri kuin yhden tuloksen todennäköisyys, joka useimmissa tapauksissa on yhtä suuri kuin todennäköisyys saada päät [6] . Hyvän mallin rakentaminen datalle on keskeistä Bayesin päättelyssä. Useimmissa tapauksissa mallit vain arvioivat todellisia prosesseja eivätkä välttämättä ota huomioon joitain dataan vaikuttavia tekijöitä [2] . Bayesilaisessa päätelmässä mallin parametreille voidaan määrittää todennäköisyydet. Parametrit voidaan esittää satunnaismuuttujina . Bayesin johtopäätös käyttää Bayesin lausetta päivittämään todennäköisyydet saatuaan lisää dataa [2] [7] .

Tilastollinen mallinnus

Tilastollisen mallintamisen muotoilulla Bayesin tilastoja käyttämällä on erottuva piirre, että mille tahansa tuntemattomalle parametrille vaaditaan ennakkotodennäköisyys . Lisäksi aikaisemmat todennäköisyysparametrit voivat itse omata aiemmat todennäköisyydet, mikä johtaa Bayesin hierarkkiseen mallinnukseen [8] , tai ne voivat olla toisistaan riippuvaisia, mikä johtaa Bayesin verkkoihin .

Kokeiden suunnittelu

Bayesilainen kokeiden suunnittelu sisältää käsitteen nimeltä "ennakkoluottamusvaikutus". Tämä lähestymistapa käyttää tilastollisia analyysitekniikoita aiempien kokeiden tulosten sisällyttämiseksi seuraavan kokeen suunnitteluun. Tämä saavutetaan päivittämällä "luottamusta" käyttämällä aikaisempia ja jälkimmäisiä jakaumia . Näin voit käyttää kaikenlaisia resursseja kokeilujen suunnittelussa. Esimerkki on monikätinen rosvoongelma .

Tilastokaaviot

Tilastokaaviot sisältävät menetelmiä tietojen tutkimiseen, mallin riittävyyden validointiin jne. Joidenkin nykyaikaisten tietokonetekniikoiden käyttö Bayesin päättelyyn, erityisesti erilaisten Monte Carlo -tekniikoiden käyttö Markovin ketjuille , on johtanut tarpeeseen tarkistaa, usein graafisesti, tällaisten laskelmien riittävyys, mikä heijastaa vaadittua posterioria todennäköisyyttä.

Muistiinpanot

↑ Mitä ovat Bayesin tilastot? . deepai.org . Haettu 11. tammikuuta 2019. Arkistoitu alkuperäisestä 12. helmikuuta 2019. (määrätön)
↑ 1 2 3 4 5 6 7 8 9 Gelman, Carlin, Stern et al., 2013 .
↑ Fienberg, 2006 , s. 1–40.
↑ 1 2 Grinstead, Snell, 2006 .
↑ Wakefield, 2013 .
↑ Tämä viittaa kolikon puoleen, toinen puoli on hännät
↑ Kongo, 2014 .
↑ Hajiramezanali, Dadaneh et al., 2018 .

Kirjallisuus

Andrew Gelman, John B. Carlin, Hal S. Stern, David B. Dunson, Aki Vehtari, Donald B. Rubin. Bayesian Data Analysis, kolmas painos. - Chapman ja Hall/CRC, 2013. - ISBN 978-1-4398-4095-5 .
Stephen E. Fienberg. Milloin Bayesilaisesta päätelmästä tuli "bayesilainen"? // Bayesin analyysi. - 2006. - Osa 1 , numero. 1 .
Charles M. Grinstead, J. Laurie Snell. Johdatus todennäköisyyksiin. – 2. — Providence, RI: American Mathematical Society, 2006. — ISBN 978-0-8218-9414-9 .
Peter Congdon. Sovellettu Bayesin mallinnus. – 2. - Wiley, 2014. - ISBN 978-1119951513 .
Hajiramezanali E., Dadaneh SZ, Karbalayghareh A., Zhou Z., Qian X. Bayesin multi-domain-oppiminen syövän alatyyppien löytämiseksi seuraavan sukupolven sekvensointilaskentatiedoista // 32nd Conference on Neural Information Processing Systems (NIPS 2018) . – Montreal, Kanada, 2018.
Jon Wakefield. Bayesin ja taajuuden regressiomenetelmät . — New York, NY: Springer, 2013. — ISBN 978-1-4419-0924-4 .

Lue lisää lukemista varten

Think Bayes, Allen B. Downey Arkistoitu 29. helmikuuta 2016 Wayback Machinessa
Bayesian Statistics: Why and How Arkistoitu 10. elokuuta 2015 at the Wayback Machine
Bayesin tilastot // Nature Methods . - 2015. - toukokuu ( nide 12 , numero 5 ). - S. 377-8 . - doi : 10.1038/nmeth.3368 .

Linkit

Eliezer S. Yudkowsky. Bayesin lauseen intuitiivinen selitys . Haettu 15. kesäkuuta 2015. Arkistoitu alkuperäisestä 21. kesäkuuta 2015. (määrätön)
Theo Kypraios. Hellävarainen opetusohjelma Bayesin tilastoista . Haettu 3. marraskuuta 2013. Arkistoitu alkuperäisestä 17. toukokuuta 2018. (määrätön)
Jordi Valverdu. Bayesit versus Frequentist Filosofinen keskustelu tilastollisesta päättelystä . Haettu 11. tammikuuta 2019. Arkistoitu alkuperäisestä 12. tammikuuta 2019. (määrätön)
Bayesin tilastot Arkistoitu 12. tammikuuta 2019 Wayback Machinessa David Spiegelhalter, Kenneth Rice Scholarpedia 4 (8):5230. doi: 10.4249/scholarpedia.5230
Bayesin mallinnuskirja Arkistoitu 19. elokuuta 2013 Wayback Machinessa ja esimerkkejä ladattavissa.
Rens Van DeSchoot. Hellävarainen johdatus bayesialaiseen analyysiin . Haettu 11. tammikuuta 2019. Arkistoitu alkuperäisestä 14. heinäkuuta 2018. (määrätön)