Estimointitilastot ( Estimation Statistics ) on lähestymistapa data - analyysiin , joka sisältää yhdistelmän menetelmiä: vaikutuksen koko , luottamusvälit , suunnittelun tarkkuus ja meta-analyysi kokeiden suunnittelua , tietojen analysointia ja tulosten tulkintaa varten. [1] Tämä lähestymistapa eroaa nollahypoteesin merkitsevyystestistä (NHST), jota pidetään vähemmän informatiivisena. [2] [3] Pisteytystilastoa tai yksinkertaisesti pisteytystä , joka tunnetaan myös nimellä uusi tilasto , [3] käytetään psykologiassa , lääketieteellisessä tutkimuksessa, biotieteissä ja monissa muissa kokeellisissa tieteissä, joissa testataan nollahypoteesi on edelleen yleinen lähestymistapa [4] huolimatta siitä, että viime vuosikymmeninä on suositeltu estimointitilastoja suositeltavin lähestymistavana. [5] [6]
Arviointitilaston päätarkoituksena on raportoida vaikutuksen koko (pisteestimaatti) sekä sen luottamusväli , joka liittyy arvion tarkkuuteen. [7] Luottamusväli on yhteenveto todennäköisten arvojen alueesta pääpopulaatiovaikutukselle. Pisteytystilastojen kannattajat ilmoittavat mieluummin vaikutuskoot niiden luottamusvälillä p-merkittävyystasojen sijaan [8] ja uskovat, että pisteytystilastojen tulisi korvata data- analyysin merkitsevyystestimenetelmä . [9]
Fysiikka on pitkään käyttänyt painotetun keskiarvon menetelmää , joka on samanlainen kuin meta-analyysi . [kymmenen]
Estimointitilastojen historia alkoi Jacob Cohenin 1960-luvulla kehittämällä standardisoitujen vaikutuskokojen . Ensimmäiset arvioivia tilastoja käyttävät tutkimukset olivat Gene W. Glassin edelläkävijä meta-analyysimenetelmän kehittämisen myötä 1970- luvulla. [11] Siitä lähtien estimointitilastomenetelmiä ovat jalostaneet Larry Hedges, Michael Borenstein, Doug Altman, Martin Gardner, Jeff Cumming ja muut. Systemaattinen tarkastelu yhdistettynä meta-analyysiin on siihen liittyvä menetelmä, jota käytetään laajasti lääketieteellisessä tutkimuksessa. Huolimatta meta-analyysin laajasta käytöstä, pisteytystilastollista lähestymistapaa ei vieläkään käytetä johdonmukaisesti valtavirran biolääketieteen tutkimuksessa. [neljä]
1990-luvulla toimittaja Kenneth Rothman kielsi p-arvojen käytön Epidemiology - lehdessä ; kirjoittajat tukivat aloitetta, mutta tämä ei vaikuttanut heidän analyyttiseen ajatteluun tutkimusta tehdessään. [12]
Viime aikoina arviointitilastomenetelmiä on sovellettu sellaisilla aloilla kuin neurotiede , koulutuspsykologia ja psykologia . [13]
American Psychological Associationin julkaisuohjeet suosittelevat hypoteesien estimoimista (estimointia) eikä testaamista (testausta). [14] Dokumentissa Uniform Requirements for Manuscripts Submitted to Biomedical Journals esitetään samanlainen suositus: "Vältä tukemasta pelkästään tilastollisiin hypoteesitestauksiin, kuten p-arvoihin , jotka eivät voi välittää tärkeitä tietoja vaikutusten koosta ." [viisitoista]
Vuonna 2019 Society for Neuroscience -lehti eNeuro esitteli politiikan, jossa suositellaan tulostilastokaavioiden käyttöä tiedon esittämiseen ensisijaisena menetelmänä. [16]
Monilla merkitsevyystesteillä on vastine arviointitilastoissa. [17] Lähes kaikissa tapauksissa testitulos (tai sen p-arvo ) voidaan yksinkertaisesti korvata efektin koolla ja tarkkuuspisteillä . Esimerkiksi Studentin t-testin sijaan analyytikko voi verrata kahta itsenäistä ryhmää laskemalla keskimääräisen eron ja sen 95 %:n luottamusvälin . Sopivia menetelmiä voidaan käyttää parilliseen t-testiin ja useisiin vertailuihin. Vastaavasti regressioanalyysiä varten analyytikon on raportoitava determinaatiokerroin (R 2 ) ja malliyhtälö mallin p-arvon sijaan .
Arvioivien tilastojen kannattajat suosittelevat kuitenkin tietojen analysointia ja esittämistä tietojen visualisoinnin avulla numeeristen laskelmien lisäksi. [2] [6] [7] Esimerkkejä sopivista visualisoinneista ovat hajontakäyrät regressiolle ja Gardner-Altman-kaaviot kahdelle itsenäiselle ryhmälle. [18] Vaikka klassiset juonit (kuten histogrammit , viiksilaatikot ja viulukuviot) eivät näytä vertailua, pistetilastokaavioihin lisätään toinen akseli tehosteen koon selkeästi visualisoimiseksi . [19]
Martin Gardner ja Doug Altman kuvasivat Gardner-Altmanin keskimääräisen erokäyrän ensimmäisen kerran vuonna 1986 [18] Tämä tilastollinen käyrä näyttää tietoja kahdesta riippumattomasta ryhmästä. [6] Kaaviosta on myös linkitetyille näytteille sopiva versio . Tärkeimmät ohjeet tämän kaavion rakentamiseen ovat: (1) piirrä kaikki havaitut arvot molemmille ryhmille vierekkäin; (2) aseta toinen akseli oikealle siirtämällä sitä näyttämään keskimääräisen eron asteikon ; ja (3) piirtää keskimääräisen eron sen luottamusvälillä merkkinä, jonka virhearvo on . [3] Gardner-Altman-kuvat voidaan luoda mukautetulla koodilla käyttämällä Ggplot2- , seaborn- tai DABEST-paketteja ; vaihtoehtoisesti analyytikko voi käyttää käteviä ohjelmistoja, kuten Estimation Stats -sovellusta .
Useille ryhmille Jeff Cumming esitteli ylimääräisen paneelin kahden tai useamman keskimääräisen eron ja niiden luottamusvälien piirtämiseksi , joka on sijoitettu havaittujen arvojen ensimmäisen paneelin alle [3] : tämä järjestely helpottaa keskimääräisten erojen ("deltoja") vertailua. useissa tietoryhmissä. Cumming-kuvaajat voidaan luoda käyttämällä ESCI- , DABEST- tai Estimation Stats -sovellusta .
Keskimääräisen eron lisäksi on olemassa monia muita tehosteen kokotyyppejä , joilla on omat etunsa toisiinsa nähden. Tärkeimmät tyypit sisältävät Cohenin d-tyypin vaikutuskoot ja determinaatiokertoimen (R 2 ) regressioanalyysiä varten . Ei -normaalijakaumia varten on olemassa useita tehokkaampia tapoja laskea tehosteiden kokoja , mukaan lukien Cliff-delta ja Kolmogorov-Smirnov- tilastot .
Hypoteesitestauksessa tilastollisen laskennan päätarkoitus on saada p-arvo , tietyn tuloksen näkemisen todennäköisyys tai äärimmäisempi tulos, jos nollahypoteesi oletetaan pitävän paikkansa. Jos p -arvo on pieni (yleensä <0,05), tilastotieteilijää neuvotaan hylkäämään nollahypoteesi . Estimointitilastojen kannattajat hylkäävät hypoteesien testauslähestymistavan [ 3 ] [7] seuraavista syistä:
Luottamusvälit käyttäytyvät ennakoitavasti. Määritelmän mukaan 95 %: n luottamusvälillä on 95 %:n mahdollisuus saada populaation keskiarvo (μ). Tämä ominaisuus pysyy samana otoksen koon kasvaessa ; mikä muuttuu on se, että intervalli pienenee (tarkemmin). Lisäksi 95 %:n luottamusvälit ovat myös 83 %:n ennustevälejä: yksittäisen kokeen luottamusvälillä on 83 %:n mahdollisuus saada minkä tahansa tulevan kokeen keskiarvo . [3] Siten yksittäisen kokeen 95 % :n luottamusvälien tunteminen antaa analyytikolle uskottavan alueen populaation keskiarvolle ja uskottaville tuloksille kaikista myöhemmistä replikaatiokokeista .
Tilastojen käsitystä koskevat psykologiset tutkimukset osoittavat, että pisteytysvälit tarjoavat tarkemman käsityksen tiedoista kuin p-arvojen raportit . [25]
Arvion tarkkuus määritellään muodollisesti 1/ varianssiksi ja tehoksi , joka kasvaa otoksen koon mukaan. Kuten teho , suuri tarkkuus on työvoimavaltaista. Tutkimusapurahahakemuksiin tulisi mieluiten sisältyä tarkkuus/kustannusanalyysi. Estimointitilastojen kannattajat uskovat, että tarkkuussuunnittelun tulisi korvata teho , koska itse tilastollinen teho liittyy käsitteellisesti merkitsevyystestaukseen . [3]