Robustiteetti ( eng. robustness ← robust "vahva; vahva; kiinteä; vakaa") on tilastollisen menetelmän ominaisuus, joka kuvaa erilaisten päästöjen tutkimuksen tulokseen vaikuttamisen riippumattomuutta , häiriönkestävyyttä.
Outlier (robust) -menetelmä - menetelmä, jolla pyritään tunnistamaan poikkeavia arvoja, vähentämään niiden vaikutusta tai jättämään ne pois otoksesta .
Käytännössä jopa pienen määrän outliers (outliers) esiintyminen näytteissä voi vaikuttaa suuresti tutkimuksen tulokseen, esimerkiksi pienimmän neliösumman menetelmä ja maksimitodennäköisyysmenetelmä tietyissä jakaumissa ovat alttiina tällaisille vääristymille, ja tutkimuksen tuloksena saadut arvot saattavat lakata vastaamasta sinulle. Tällaisten häiriöiden vaikutuksen eliminoimiseksi käytetään erilaisia lähestymistapoja "huonojen" havaintojen (outliers) vaikutuksen vähentämiseksi tai niiden poistamiseksi kokonaan. Outlier-menetelmien päätehtävänä on erottaa "huono" havainto "hyvästä", ja yksinkertaisimmistakin lähestymistavoista, subjektiivisista (tutkijan sisäisten tunteiden perusteella), voi kuitenkin olla merkittävää hyötyä motivoituneelle hylkäämiselle. tutkijat käyttävät edelleen menetelmiä, jotka perustuvat joihinkin tiukkaan matemaattisiin perusteluihin. Tämä prosessi on tilastotieteilijälle hyvin ei-triviaali tehtävä ja määrittelee yhden tilastotieteen alueista .
Harkitse klassista esimerkkiä kestävistä ja epävakaista ominaisuuksista keskimääräisen tulon laskemiseksi. Olkoon 10 ihmistä, joista yhdeksän ansaitsee kukin 100 ruplaa ja yksi 500 ruplaa. Lukujen aritmeettinen keskiarvo on 140, vaikka 90 % otokseen kuuluneista ansaitsee vähemmän. Samalla otoksen mediaani on 100: hyvin erilainen arvo ei vaikuttanut mediaanin arvoon. Siten mediaani on esimerkki vahvasta ominaisuudesta, kun taas aritmeettinen keskiarvo ei ole.
Outlier-stabiilisuus (robustius) tilastoissa ymmärretään herkkyydeksi erilaisille poikkeamille ja epähomogeenisuuksille otoksessa, joka liittyy tiettyihin, yleisesti tuntemattomiin syihin [1] [2] . Nämä voivat olla havaintoja rekisteröiviä ilmaisinvirheitä, jonkun tunnollisia tai tahallisia yrityksiä "sovittaa" otos ennen kuin se pääsee tilastoihin, suunnitteluvirheitä, sisään hiipiviä kirjoitusvirheitä ja paljon muuta. Esimerkiksi jakaumalain muutosparametrin poikkeavin estimaatti on mediaani , joka on varsin ilmeinen intuitiivisella tasolla (tiukkaa todistusta varten kannattaa käyttää sitä tosiasiaa, että mediaani on katkaistu M-estimaatti, katso alla ) [ 1] . Suoraan "virheellisten" havaintojen lisäksi voi olla myös useita havaintoja, jotka noudattavat erilaista jakaumaa . Jakaumalakien ehdollisuuden vuoksi , ja tämä ei ole muuta kuin kuvausmalli, itse otos voi sisältää joitain poikkeavuuksia ihanteen kanssa.
Parametrinen lähestymistapa on kuitenkin niin tottunut, mikä osoittaa sen yksinkertaisuuden ja tarkoituksenmukaisuuden, että on järjetöntä kieltäytyä siitä. Siksi tuli tarpeen mukauttaa vanhoja malleja uusiin tehtäviin.
On syytä korostaa erikseen ja unohtamatta, että hylätyt havainnot vaativat erillistä, lähempää huomiota. Havainnot, jotka vaikuttavat "huonolta" yhdelle hypoteesille, voivat hyvinkin olla yhdenmukaisia toisen hypoteesin kanssa. Lopuksi, ei suinkaan aina terävästi erotetut havainnot ole "avioliitto". Yksi tällainen havainto esimerkiksi geenitekniikan osalta on miljoonien muiden havaintojen arvoinen, jotka eroavat vähän toisistaan.
Epähomogeenisuuksien vaikutuksen rajoittamiseksi tai sen poistamiseksi kokonaan on olemassa monia erilaisia lähestymistapoja. Niistä erottuu kaksi pääsuuntaa.
Otos ryhmittelemällä yksittäisten havaintojen vaikutusta voidaan vähentää merkittävästi niitä hylkäämättä. Jako intervalleihin ei ole erityisen vaikeaa ja antaa erittäin konkreettisen tuloksen. On olemassa kolme yleisintä osiointimenetelmää.
Erillinen lähestymistapa outlier-menetelmien rakentamiseen on "kontaminoituneen" näytteen jakautumislain parametrien estimoiminen Hampelin [1] ehdottaman lähestymistavan avulla . Tutkiakseen yksittäisen havainnon vaikutusta jakautumislain yhden tai toisen parametrin arviointiin (tarkasteltavana olevaan tilastoon), Hampel ottaa käyttöön ns. vaikutusfunktion , joka ei ole muuta kuin tämän tilaston johdannainen .
Funktionaali otetaan käyttöön jonkin jakauman näytteen funktiona parametrilla (se on myös ). riippuu . Samoin lain ja parametrin funktio . Let täyttää myös joitain johdonmukaisuuden ja säännöllisyyden ehtoja :
Tämän funktion derivaatta pisteessä, jossa on jakauma :
missä:
Korvattaessa tapahtumalle annetaan yksikkömassa sen sijaan , minkä seurauksena vain :
Tätä funktiota kutsutaan vaikutusfunktioksi .
Vaikutusfunktion merkitys osoitetaan korvaamalla ja korvaamalla raja, jolloin lauseke muunnetaan muotoon , joka vastaa tilannetta, kun jakaumaa noudattavien havaintojen otokseen lisätään uusi uusi . Siten se seuraa käytetyn toiminnallisuuden reaktiota tehtyyn lisäykseen ja näyttää yksittäisen havainnon vaikutuksen koko tietojoukon arviointiin.
Yksittäisten havaintojen vaikutuksen karakterisoimiseksi otetaan käyttöön myös käsite herkkyys suurelle virheelle :
Jos vaikutusfunktio on rajoitettu, niin vastaavaa estimaattia kutsutaan B(be)-robustiksi .
Tehokkaimmat ja laajimmin käytetyt jakautumalakien parametrien estimaatit ovat maksimitodennäköisyysestimaatit (MLE), jotka määritetään jollakin seuraavista ehdoista:
kun on kyse ryhmittämättömästä näytteestä ja ryhmitellystä näytteestä,
M-arviot - joukkotuhoaseista on tietty yleistys. Ne määritellään samalla tavalla jollakin suhteista:
Jos asetamme substituutioon säännöllisyysehdon ja erottelemme sen suhteessa nollaan:
silloin ei ole vaikeaa saada vaikutusfunktion lauseke M-estimaateille :
Tämän lausekkeen avulla voimme päätellä, että M-estimaatit vastaavat nollasta poikkeavaa vakiotekijää.
On helppo tarkistaa, että normaalin normaalijakauman lain MLE:ssä siirtoparametrin ja skaalausparametrin vaikutusfunktiot näyttävät vastaavasti:
Nämä toiminnot ovat rajoittamattomia, mikä tarkoittaa, että MLE ei ole purkaustolerantti (jämäkkä) B-kestävyyden suhteen.
Tämän korjaamiseksi M-estimaatit rajoittavat keinotekoisesti ja siten rajoittavat sitä (katso M-estimaattien lauseke ) asettaen ylemmän esteen poikkeavien (kaukana parametrien odotettujen arvojen) havaintojen vaikutukselle. Tämä tehdään ottamalla käyttöön niin sanotut typistetyt M-estimaatit, jotka määritellään lausekkeella:
jossa , ja ovat arviot siirto- ja skaalausparametreista, vastaavasti.
Katkaistujen M-estimaattien joukossa katkaistu MLE [1] on optimaalinen B-robustiteetin kannalta .
Yhtälön ratkaisemiseksi
,jotain numeerista menetelmää on käytettävä . Tätä varten sinun on valittava alkuperäiset likiarvot. Nollasiirtymäparametri on yleensä mediaani , ja skaalausparametri on mediaanista poikkeamien mediaanin kerrannainen.
Jos sinun on esimerkiksi arvioitava siirtoparametri, esimerkiksi normaalijakauman laissa , voit käyttää Newtonin menetelmää yhtälön juurten numeeriseen löytämiseen . Tämän seurauksena koko parametrin löytämismenettely pelkistyy lausekkeen iteratiiviseen laskemiseen:
jossa on jokin arvio skaalausparametrista, jota käytetään tasoittamaan jakaumat eri alueilla.