Simpsonin paradoksi

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 27.11.2021 tarkistetusta versiosta . vahvistus vaatii 1 muokkauksen .

Simpsonin paradoksi (myös Yule-Simpsonin paradoksi tai liittoparadoksi ) on ilmiö, ilmiö tilastoissa, kun nämä ryhmät yhdistetään kahden tietoryhmän läsnä ollessa, joista kummassakin on yhtä suunnattu riippuvuus. , riippuvuuden suunta muuttuu päinvastaiseksi.

Tämän ilmiön kuvaili Simpson vuonna 1951 ja Yule vuonna 1903 Colin Blythe ehdotti ensimmäistä kertaa nimeä "Simpsonin paradoksi" vuonna 1972 . Koska Simpson ei kuitenkaan ollut tämän vaikutuksen löytäjä, jotkut kirjoittajat käyttävät persoonattomia nimiä, kuten " liittoparadoksi " .

Paradoksin löytämisen historia

Ensimmäistä kertaa tarkasteltavan tilanteen pani merkille Karl Pearson artikkelissa "Mathematical Contribution to the Theory of Evolution" [1] . Hän pohtii heterogeenisten hevosryhmien merkkien riippuvuutta. Udny Yule analysoi tällaisia ​​väestömuutoksia yksityiskohtaisemmin ja tutkii perinnöllisyyden mekanismeja. Simpson käsittelee sitä, mitä hän kutsuu "omituiseksi tapaukseksi" useissa osissa artikkelissa "The Interpretation of Interaction in Contingency Tables" [2] . Simpson oli ensimmäinen kirjailija, joka tutki tätä ilmiötä tilastollisesti. Siksi myöhempi matemaatikko K. R. Blythe esittelee artikkelissa "Simpsonin paradoksista ja varma-asian periaatteesta" [3] termin "Simpsonin paradoksi".

Esimerkkejä

Siruesimerkki

Olkoon neljä hattua (kaksi mustaa ja kaksi harmaata), 41 pelimerkkiä (23 värillistä ja 18 valkoista) ja kaksi pöytää (A ja B). Sirut jaetaan hattujen mukaan seuraavasti:

Oletetaan, että haluat piirtää värillisen sirun.

Jos olet lähellä pöytää A, niin todennäköisyys saada värillinen siru mustasta hatusta on 5/11 = 35/77 ja harmaasta hatusta samalla pöydällä - 3/7 = 33/77 ; näin ollen värillinen siru tulee todennäköisemmin mustasta hatusta kuin harmaasta.

Jos olet lähellä pöytää B, niin todennäköisyys saada värillinen siru mustasta hatusta on 6/9 = 84/126 ja harmaasta hatusta - 9/14 = 81/126 ; joten myös tässä värillinen siru tulee todennäköisemmin mustasta hatusta kuin harmaasta.

Oletetaan nyt, että kahden mustan hatun merkit on pinottu yhdeksi mustaksi hatuksi ja kahden harmaan hatun merkit pinotaan yhdeksi harmaaksi hatuksi. Ensi silmäyksellä olisi loogista olettaa, että todennäköisyys piirtää värillinen siru mustasta hatusta on suurempi kuin harmaasta. Mutta tämä on väärin:

eli harmaasta hatusta on suurempi mahdollisuus saada värillinen siru kuin mustasta [4] .

Kiviesimerkki

Oletetaan, että meillä on neljä sarjaa kiviä. Todennäköisyys saada musta kivi sarjasta nro 1 on suurempi kuin sarjasta nro 2. Todennäköisyys saada musta kivi sarjasta nro 3 on puolestaan ​​suurempi kuin sarjasta nro 4. Yhdistä sarja nro 1 sarjalla nro 3 (saamme sarjan I) ja sarjalla nro 2 sarjalla nro 4 (sarja II). Intuitiivisesti voisi odottaa, että todennäköisyys saada musta kivi sarjasta I olisi suurempi kuin sarjasta II. Tämä väite ei kuitenkaan pidä paikkaansa yleisessä tapauksessa.

Todellakin, anna  olla mustien kivien määrä -th joukossa (näyte),  on kivien kokonaismäärä -th joukossa kanssa . Ehdon mukaan:

Todennäköisyys piirtää musta kivi sarjoista I ja II:

Joukon I lauseke ei aina ole suurempi kuin joukon II lauseke; eli niin voi käydä

Esimerkiksi osoitteessa . Se on helppo tarkistaa . Vaikka .

Syyt

Syynä paradoksiin on kahden tietojoukon virheellinen keskiarvo, joilla on erilaiset kontrollihavaintojen suhteet ( ei-representiivinen otanta ). Koska intuitiivisesti oletetaan, että löydettyjä riippuvuuksia sovellettaessa kontrollin osuus on sama molemmissa ryhmissä, ja tämä ei pidä paikkaansa lähtötiedoissa, niin aritmeettista keskiarvoa ei voida soveltaa niihin.

Ongelman poistamiseksi keskiarvoa laskettaessa on käytettävä painoja, jotka poistavat ohjausosuuden vinoutumisen. Joten sirujen esimerkissä harmaan hattulastujen osuus taulukossa A on 7/18 (39 %) ja taulukossa B 14/23 (61 %).

Värisirun piirtämismahdollisuuden edustavan keskiarvon laskemiseksi riittää, että molempien värien sirujen määrä yhdessä hatussa kerrotaan painokertoimella, joka eliminoi vinouden. Jos esimerkiksi yhden harmaan hatun sijasta pöydälle A asetetaan kaksi samaa hattua, todennäköisyydet kullekin pöydälle erikseen eivät muutu, mutta taulukoiden yhdistämisen paradoksi eliminoituu: värillisen sirun todennäköisyys harmaasta hatusta tulee 15/28, eli vähemmän kuin mustasta.

Toinen tapa ratkaista paradoksi on käyttää kokonaistodennäköisyyskaavaa .

Simpsonin paradoksi osoittaa, että ei-edustavalla otoksella tehtyjen sosiologisten tutkimusten tuloksista tehtyjä johtopäätöksiä ei voida hyväksyä kiistämättömiksi, tieteellisesti todistetuiksi.

Käytännön merkitys

Simpsonin paradoksi kuvaa epäedustavista näytteistä tehtyjen yleistysten pätemättömyyttä, toisinaan hengenvaarallisia. Niinpä esimerkiksi samasta sairaudesta kärsivien miesten ja naisten ryhmässä tehdyn kokeen aikana standardihoitoon lisättiin uusi lääke. Molempien ryhmien tulos vahvisti erikseen uuden aineen tehokkuuden.

miehet Lääkkeen ottaminen Ei ota lääkkeitä
toipunut 700 80
Palautumaton 800 130
Suhde 0,875 0,615
Naiset Lääkkeen ottaminen Ei ota lääkkeitä
toipunut 150 400
Palautumaton 70 280
Suhde 2.142 1.429

Intuitiivisesti oletetaan, että jos molemmissa ryhmissä on riippuvuus, sen pitäisi ilmetä myös näiden ryhmien yhdistämisessä. Mutta vaikka lääkettä käyttäneiden naisten ja miesten toipuneiden ja sairaiden suhde on suurempi kuin sitä käyttämättömien joukossa, tämä kuvio ei säily aggregoidun vertailuryhmän epäedustavuuden vuoksi.

Summa Lääkkeen ottaminen Ei ota lääkkeitä
toipunut 850 480
Palautumaton 870 410
Suhde 0,977 1.171

Suhde aggregoidussa tiedossa on 850/870<480/410, eli 0,977<1,171. Siksi lääkkeen ottaneiden osuus oli pienempi kuin sama osuus niistä, jotka eivät ottaneet lääkettä.

Paradoksin eliminoimiseksi on huomattava, että kontrolliryhmän ja hoitoryhmän suhde vaihtelee jyrkästi yllä olevissa ryhmissä: miehillä se on (80+130)/(700+800) = 14 % ja naisilla ( 400+280)/(150+70) = 309 %.

Oikean keskiarvon laskemiseksi on tarpeen varmistaa kontrolliryhmän edustavuus molemmissa näytteissä ottamalla käyttöön painokertoimet, jotta molemmissa ryhmissä olevien kontrollien painotettu osuus tulee samaksi. Tässä tapauksessa riittää kertoa lääkkeitä käyttämättömien miesten määrä painotuskertoimella 22,07. Muokatut taulukot näyttävät tältä:

miehet isännöi

lääke

Ei ota lääkkeitä
alkukirjain painolla x 22,07
toipunut 700 80 1765
Palautumaton 800 130 2869
Suhde 0,875 0,615
Summa isännöi

lääke

Ei ota lääkkeitä
alkukirjain painolla x 22,07
toipunut 850 480 2165
Palautumaton 870 410 3149
Suhde 0,977 1.171 0,685

Lääkettä käyttämättömien toipuneiden ja parantumattomien painotettu suhde on tässä tapauksessa 0,685 eli pienempi kuin lääkkeen ottaneiden. Tämä poistaa paradoksin ja näyttää ilman lääkettä toipuneiden ja toipumattomien suhteen samalla osuudella miehiä ja naisia ​​kuin lääkkeen käyttäneitä, mikä mahdollistaa näiden lukujen vertailun.

Katso myös

Muistiinpanot

  1. Karl Pearson. Matemaattiset panokset evoluutioteoriaan. V. Esihistoriallisten rotujen aseman jälleenrakentaminen. Phil. Trans. R. Soc. Lontoo. A. 1899 192:169-244 doi:10.1098/rsta.1899.0004
  2. Interpretation of Interaction in Contingency Tables // Journal of the Royal Statistical Society, B, 13 (1951) - s. 238-241
  3. Blyth, Colin R. Simpsonin paradoksista ja varma-asian periaatteesta // Journal of the American Statistical Association , 67 (1972) - s. 364.
  4. M. Gardner . Luku 19. Induktio ja todennäköisyys // Aikamatka = Aikamatkailu ja muut matemaattiset hämmennykset / Englannista kääntänyt Yu. A. Danilov . - M .: Mir , 1990. - S. 278-279. — 341 s. — ISBN 5-03-001166-8 .

Linkit