Bootstrap [1] ( englanniksi bootstrap ) tilastoissa on käytännöllinen tietokonemenetelmä todennäköisyysjakaumien tilastojen jakautumisen tutkimiseen , joka perustuu useaan otosten generointiin Monte Carlo -menetelmällä olemassa olevan otoksen perusteella [2] . Voit helposti ja nopeasti arvioida monenlaisia tilastoja ( luottamusvälit , varianssi , korrelaatio ja niin edelleen) monimutkaisille malleille.
Bradley Efron esitteli konseptin vuonna 1977 (ensimmäinen julkaisu on vuodelta 1979 [3] ). Menetelmän ydin on rakentaa empiirinen jakauma olemassa olevan otoksen perusteella . Käyttämällä tätä jakaumaa teoreettisena todennäköisyysjakaumana on mahdollista tuottaa näennäissatunnaislukugeneraattorilla lähes rajoittamaton määrä mielivaltaisen kokoisia, esimerkiksi alkuperäisen kanssa samanlaisia pseudokonotoksia. Näennäytteiden sarjalla voidaan arvioida analysoitujen tilastollisten ominaisuuksien lisäksi myös niiden todennäköisyysjakaumia. Siten on mahdollista esimerkiksi arvioida minkä tahansa tilaston varianssi tai kvantiilit riippumatta sen monimutkaisuudesta. Tämä menetelmä on ei-parametristen tilastojen menetelmä .
" Jackknife "-menetelmien lisäksi ristiinvalidointi ja permutaatiotestaus ( eng. tarkka testi ) muodostavat luokan uudelleennäytteenottomenetelmiä ( eng. resampling ).
Sana tulee ilmaisusta: "Vetäytyä aidan yli saappaiden hihnoilla." (kirjaimellisesti - "päästä aidan yli vetämällä saappaiden hihnat" (katso kuva oikealla). Venäjänkielisille ihmisille on lähempänä tarina paroni Münchausenista , joka hiuksistaan vetäen veti itsensä ja hänen hevosensa suosta.
Bootstrap-anglismia itsessään käytetään monilla tiedon aloilla, joilla sinun on välitettävä merkitys saada jotain "ilmaiseksi" tai maagisesti saada jotain arvokasta tyhjästä. Tilastojen alalla termin lähin analogi etymologian kannalta on "itsevetävä".
Olkoon kaksi havaintoa:
Oletetaan, että meidän on arvioitava parametri y : n regressiossa x :llä :
Pienimmän neliösumman menetelmällä saatu parametriestimaatti on yhtä suuri kuin
Empiirinen jakaumafunktio tässä tapauksessa on yhtä suuri kuin
Tässä tapauksessa kahden havainnon tiedot empiirisen jakauman suhteen jakautuvat seuraavasti:
Tämä on bootstrap-jakelu. Seuraavaksi löydämme OLS-arvion jakautumisen:
Bootstrapia käytetään korjaamaan harhaa, testaamaan hypoteeseja ja rakentamaan luottamusväliä.
Olkoon otos yleisestä perusjoukosta ja sitä vaaditaan parametrin arvioimiseksi . On tarpeen valita pseudonäytteiden lukumäärä, jotka muodostetaan alkuperäisen näytteen elementeistä palautuksella. Jokaiselle pseudonäytteelle lasketaan pseudotilasto .
Pseudotilastot lajitellaan pienimmästä suurimpaan. Kvantiilit ottavat arvoja . Niitä käytetään luottamusvälin muodostamiseen.
![]() |
|
---|