Väärä riippuvuus

Väärä riippuvuus tai väärä korrelaatio tilastoissa  on matemaattinen riippuvuus , jossa kaksi tai useampi tapahtuma tai muuttuja liittyy toisiinsa, mutta ei kausaalisesti , vaan sattuman vuoksi tai tietyn kolmannen, piilotetun tekijän , jota kutsutaan "yhteiseksi vastemuuttujaksi" , läsnäolosta. , " sekava tekijä " tai " piilotettu muuttuja " [1] .

Esimerkkejä

Esimerkkejä virheellisistä suhteista löytyy aikasarjakirjallisuudesta , jossa harhaanjohtava regressio  on regressio, joka tarjoaa harhaanjohtavaa tilastollista näyttöä lineaarisesta suhteesta riippumattomien ei-stationaaristen muuttujien välillä [2] . Itse asiassa epästationaarisuus voi johtua yksikköjuuren läsnäolosta molemmissa muuttujissa [3] . Erityisesti mitkä tahansa kaksi nimellistä taloudellista muuttujaa korreloivat todennäköisesti keskenään, vaikka kummallakaan ei olisi kausaalista vaikutusta toiseen, koska kumpikin on yhtä suuri kuin reaalimuuttuja kertaa hintataso ja hintatason yleinen esiintyminen kaksi datasarjaa antavat heille korrelaation .

Toinen esimerkki väärästä suhteesta voidaan nähdä tarkastelemalla jäätelön myynnin suhdetta kaupungissa hukkuneiden määrään . Myynti voi olla suurin silloin, kun kaupunkialtaissa hukkuneiden määrä on suurin. Väittää, että jäätelön myynti aiheuttaa hukkumista tai päinvastoin, merkitsisi väärää yhteyttä näiden kahden välillä. Itse asiassa kuumuus voi aiheuttaa molemmat. Lämpö on esimerkki piilotetusta tai näkymättömästä hämmentävästä muuttujasta.

Toinen laajalti tunnettu esimerkki on joukko tilastoja, jotka osoittavat positiivisen korrelaation useissa lähteissä pesivien haikaroiden määrän ja tuolloin syntyneiden ihmisvauvojen määrän välillä. Syy-yhteyttä ei tietenkään ollut ; ne korreloivat keskenään vain siksi, että ne korreloivat sään kanssa yhdeksän kuukautta ennen havaintoja [4] . Tutkimukset ovat kuitenkin osoittaneet, että korrelaatio oli vahvempi kuin vain säävaihtelut. Vaikka kliinisten syntymien määrä ei liittynyt haikarakannan kasvuun , yhteisössä syntyneet korreloivat haikarakannan kanssa [5] .

Harvinaisissa tapauksissa kahden täysin toisiinsa liittymättömän muuttujan välillä voi esiintyä väärä suhde ilman hämmentävää muuttujaa. Tunnetuimpia esimerkkejä ovat Washington Redskinsin amerikkalaisen jalkapallojoukkueen voitto tietyssä ottelussa ennen jokaista presidentinvaaleja ja vakiintuneen poliittisen puolueen menestys näissä vaaleissa [6] . Vuosien 1940 ja 2000 välisenä aikana 16 peräkkäisten vaalien aikana " Redskins Rule " ennusti, säilyykö nykyisen puolueen poliittinen puolue presidenttinä vai menettääkö se. Tämä sääntö rikottiin lopulta pian sen jälkeen, kun Elias Athletic Bureau löysi korrelaation vuonna 2000; vuosina 2004, 2012 ja 2016 Redskinsin peli- ja vaalitulokset eivät täsmänneet [7] .

Hypoteesin testaus

On tavallista testata nollahypoteesia , jonka mukaan kahden muuttujan välillä ei ole korrelaatiota, ja päättää etukäteen hypoteesi hylkääminen, jos datanäytteestä laskettu korrelaatio esiintyisi alle 5 %:ssa datanäytteistä, jos nollahypoteesi olisi totta. Vaikka todellinen nollahypoteesi hyväksytään 95 % ajasta, loput 5 % tapauksista, joilla on todellinen nolla ilman korrelaatiota, nollakorrelaatio hylätään virheellisesti, mikä johtaa korrelaation hyväksymiseen, joka on väärä (tapahtuma tunnetaan tyypin I virheenä ). Tässä esimerkissä otoksen virheellinen korrelaatio johtui sellaisen otoksen satunnaisesta valinnasta, joka ei heijasta populaation todellisia ominaisuuksia .

Väärän riippuvuuden tunnistus

Termiä "väärä suhde" käytetään laajalti tilastoissa ja erityisesti kokeellisissa tutkimusmenetelmissä , jotka yrittävät ymmärtää ja ennustaa suoria syy-suhteita (X → Y). Ei- kausaalisen korrelaation voi virheellisesti luoda ennakkoon , joka aiheuttaa molemmat (W → X ja W → Y). Välitysmuuttujat (X → W → Y), jos niitä ei löydy, arvioivat kokonaisvaikutuksen suoran vaikutuksen sijaan ilman välitysmuuttujan M mukauttamista. Tästä syystä kokeelliset korrelaatiot eivät edusta kausaalisia suhteita, ellei vääriä riippuvuuksia sulje pois.

Kokeilut

Kokeissa harhasuhde voidaan usein havaita kontrolloimalla muita tekijöitä , mukaan lukien ne, jotka on teoriassa tunnistettu mahdollisiksi hämmentäväksi tekijäksi. Esimerkiksi kun tutkija yrittää selvittää, tappaako uusi lääke bakteereja ; hän levittää lääkettä bakteeriviljelmään , bakteerit kuolevat. Mutta hämmentävän muuttujan läsnäolon eliminoimiseksi toinen viljelmä asetetaan olosuhteisiin, jotka ovat mahdollisimman lähellä niitä, joita ensimmäinen viljelmä kohtasi, mutta toinen viljelmä ei altistu lääkkeelle. Jos näissä olosuhteissa on läsnä näkymätön häiritsevä tekijä, myös tämä kontrolliviljelmä kuolee, joten ensimmäisen viljelmän tuloksista ei voida tehdä johtopäätöksiä lääkkeen tehokkuudesta. Toisaalta, jos kontrollikulttuuri ei kuole, niin tutkija ei voi hylätä hypoteesia lääkkeen tehokkuudesta.

Ei-kokeellinen tilastollinen analyysi

Tiedealat, joiden tiedot eivät ole ensisijaisesti kokeellisia, kuten taloustiede, käyttävät tyypillisesti havaintodataa syy-suhteiden määrittämiseen. Taloustieteessä käytettyjä tilastollisia menetelmiä kutsutaan ekonometriaksi . Ekonometriikan tärkein tilastollinen menetelmä on monimuuttujaregressioanalyysi . Tyypillisesti oletetaan muodon lineaarista suhdetta , jossa on riippuva muuttuja , kun j = 1, ...,k riippumaton muuttuja , ja on virhetermi (sisältää kaikkien muiden kausaalimuuttujien yhteisvaikutukset, joiden ei pitäisi olla korreloida mukana olevien riippumattomien muuttujien kanssa). Jos on syytä uskoa, että kumpaakaan ei kutsuta , saadaan kertoimien estimaatit . Jos nollahypoteesi koskee hylättyä, niin vaihtoehtoista hypoteesia, joka vastaa määräävää, ei voida hylätä. Toisaalta, jos nollahypoteesia , jota ei voida hylätä, ei myöskään voida hylätä hypoteesia , että siihen ei ole kausaalista vaikutusta .

Jos on tosi , muutos aiheuttaa muutoksen , ellei jokin muu kausaalimuuttuja, joko sisällytettynä regressioon tai implisiittisesti virhetermiin, muutu sillä tavalla, että se tasoittaa tarkasti sen vaikutusta; siis muutos ei riitä muutokseen . Samoin muutos ei ole muutokselle välttämätön, koska muutos voi johtua jostakin implisiittisestä virhetermissä (tai muusta malliin sisältyvästä kausaalista selittävästä muuttujasta).

Regressioanalyysin kontrollit muille olennaisille muuttujille, mukaan lukien ne regressoreina (selittävät muuttujat). Tämä auttaa välttämään virheellisiä päätelmiä kausaalisuudesta, joka johtuu kolmannen taustalla olevan muuttujan läsnäolosta, joka vaikuttaa sekä potentiaalisesti kausatiiviseen muuttujaan että potentiaalisesti riippuvaan muuttujaan: sen vaikutus potentiaalisesti riippuvaiseen muuttujaan otetaan huomioon sisällyttämällä se suoraan regressioon, niin että vaikutus ei havaittaisiin kiinnostavan mahdollisesti syy-muuttujan loisvaikutukseksi. Lisäksi monimuuttujaregression käyttö auttaa välttämään virheellisen johtopäätöksen, jonka mukaan esimerkiksi x1:n epäsuora vaikutus (esimerkiksi x1 → x2 → y) on suora vaikutus (x1 → y). Siten moninkertaisen regressiomallin täytyy hallita kaikkia hämmentäviä tekijöitä, mukaan lukien ne regressoreina. Jos regressiossa ei ole hämmentävää tekijää, sen vaikutus kaapataan oletusarvoisesti virhetermiin, ja jos tuloksena oleva virhetermi korreloi yhden tai useamman sisällytetyn regressorin kanssa, arvioitu regressio voi olla harhaanjohtava tai epäjohdonmukainen .

Regressioanalyysin lisäksi aineistosta voidaan tutkia Grangerin kausaalisuutta . Grangerin kausaalisuuden läsnäolo osoittaa sekä sen, että x edeltää y:tä ja että x sisältää ainutlaatuista tietoa y:stä.

Katso myös

Muistiinpanot

  1. Valheelliset korrelaatiot . web.archive.org (25. syyskuuta 2019). Haettu: 17. helmikuuta 2021.
  2. G. Yule. Miksi joskus saamme aikasarjojen välisiä järjettömiä korrelaatioita? - Tutkimus otoksen ottamisesta ja aikasarjojen luonteesta . - doi : 10.2307/2341482 . Arkistoitu alkuperäisestä 11. helmikuuta 2021.
  3. CWJ (Clive William John) Granger. Ekonometriikan esseitä: Clive W.J. Grangerin kerätyt paperit . - New York: Cambridge University Press, 2001. - 550 s. - ISBN 978-0-521-77496-3 , 978-0-521-79649-1, 978-0-521-79697-2.
  4. Sapsford, Roger; Jupp, Victor, toim. (2006). Tiedonkeruu ja -analyysi . Salvia. ISBN 0-7619-4362-5 .
  5. Hofer, Thomas; Hildegard Przyrembel; Silvia Verleger (2004). "Uusia todisteita haikarateorialle" Arkistoitu 11. huhtikuuta 2019 Wayback Machinessa . Lasten ja perinataalinen epidemiologia . 18 (1):18-22.
  6. ↑ 'Redskins Rule  ' : MNF:n Hirdt jalkapallon ja politiikan risteyksessä  ? . ESPN Front Row (30. lokakuuta 2012). Haettu 17. helmikuuta 2021. Arkistoitu alkuperäisestä 2. maaliskuuta 2021.
  7. Rob Manker, Chicago Tribune -toimittaja. Redskinsin sääntö: Barack Obaman voitto Mitt Romneysta ratkaisee presidentinvaalien ennustajan ensimmäiselle   tappiolleen ? . chicagotribune.com . Haettu 17. helmikuuta 2021. Arkistoitu alkuperäisestä 17. heinäkuuta 2021.