Berksonin paradoksi

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 9. joulukuuta 2021 tarkistetusta versiosta . tarkastukset vaativat 2 muokkausta .

Berksonin paradoksi , törmäysvirhe  - matemaattisten tilastojen asema , jonka muotoili J. Berkson ( englanniksi  Joseph Berkson ) vuonna 1946. Lausunto: Kaksi itsenäistä tapahtumaa voi tulla ehdollisesti riippuvaiseksi, jos jokin kolmas tapahtuma tapahtuu . Tämä johtopäätös on joillekin ihmisille ristiriitainen, ja siksi sitä voidaan kuvata paradoksina . Kolmatta tapahtumaa, joka voi tehdä kaksi ensimmäistä tapahtumaa ehdollisesti riippuvaiseksi, kutsutaan törmäykseksi . Berksonin paradoksia kuvataan usein lääketieteellisen tilastotieteen tai biostatistin alalla . Se on monimutkaistava tekijä, joka ilmenee suhteiden tilastollisissa testeissä.

Sama paradoksi mainitaan keinotekoisten hermoverkkojen teoriassa ohimenevänä selityksenä , perusteluvaikutuksena tai syyn vähentämisenä ( eng.  selittää pois ) [1] [2] .

Muodollinen määritelmä

jos 0 < P( A ) < 1 ja 0 < P( B ) < 1, missä A ja B ovat joitain tapahtumia, ja P( A | B ) = P( A ) (eli tapahtumat ovat riippumattomia), silloin P( A | B , C ) < P( A | C ), missä C = A ∪ B (eli A tai B ).

Matemaattisten tilastojen esimerkkiin perustuva kuva

Tutkimme satunnaisen sarjan postimerkkien tilastoja ottaen huomioon kaksi toisistaan ​​riippumatonta postimerkkiominaisuutta: "harvinaisuus" ja "kauneus".

Oletetaan, että postimerkkejä on 1000, joista 300 on kaunista, 100 on harvinaista ja 30 on sekä kaunista että harvinaista. Ilmeisesti koko sarjasta 10 % postimerkeistä on harvinaisia, mutta kaikista kauniista postimerkeistä 10 % on myös harvinaisia, eli postimerkin kauneus ei kerro sen harvinaisuudesta mitään.

Jos kuitenkin valitsemme koko sarjasta (1000) kaikki kauniit postimerkit ja kaikki harvinaiset postimerkit (sellaisia ​​postimerkkejä on 370), niin tässä harvinaisten postimerkkien näytteessä on jo 27% (100/370), mutta joukosta kauniita postimerkkejä on edelleen vain 10 % (30/300). Sitten tarkkailija, analysoidessaan tällaista näytettä (eikä koko sarjaa), näkee ilmeisen käänteisen suhteen brändin kauneuden ja harvinaisuuden välillä (jos brändi on kaunis, niin sen harvinaisuuden todennäköisyys on pienempi). Mutta todellisuudessa sellaista yhteyttä ei ole.

Kuvattu tulos on matemaattisesti täysin oikea, sen "paradoksaalisuus" liittyy ihmisten käsityksen erityispiirteisiin, jotka yleensä uskovat intuitiivisesti, että jos kaksi parametria ovat riippumattomia, ne pysyvät sellaisina missä tahansa otoksessa. Todellisuudessa riippumattomien parametrien välisen valintaharhan tapauksessa ehdollisia riippuvuuksia voi syntyä, mikä johtaa karkeisiin virheisiin analyysissä , kun ne laajennetaan koskemaan koko populaatiota .

Esimerkki esimerkistä hermoverkkojen teoriasta

Olkoon yksinkertaisin Bayesin keinotekoinen hermoverkko, jossa on sigmoidiaktivointifunktio , joka sisältää kaksi riippumatonta tapahtumaa (syytä), että kolmas tapahtuma tapahtuu - talo tärisee. Bias -10 maanjäristystapahtuman neuronissa tarkoittaa, että havaintojen ja ennakkotietojen puuttuessa tämä tapahtuma ei todennäköisemmin tapahdu kuin tapahtuu. Jos maanjäristys tapahtuu, mutta kuorma-autotapahtumaa ei tapahdu, talon tärinätapahtuman neuronin kokonaissyöte on 0, mikä tarkoittaa, että tapahtuman (eli hermosolujen aktivoitumisen) todennäköisyys on 0,5. Eli jos meillä on havainto tapahtumasta "talo tärisee", niin paras selitys tälle tosiasialle on jonkun tapahtumasyyn esiintyminen. On kuitenkin epäloogista olettaa, että molemmat syytapahtumat tapahtuivat kerralla, jotta talon tärähdyksen tapahtumaa voitaisiin selittää, koska niiden samanaikaisen esiintymisen todennäköisyys on yhtä suuri kuin . Jos siis tarkkailemme sekä talon tärinätapahtumaa että tiedämme mitä tapahtui, esimerkiksi maanjäristyksen aiheuttaneen tapahtuman, niin tämä heittää pois selityksen ( selvittää , vähentää syytä), että kuorma-auto oli syyllinen talon täristykseen [3 ] .  

Muistiinpanot

  1. Johdatus Bayesin verkkoihin  / S. A. Terekhov // Tieteellinen istunto MEPhI-2003. V Kokovenäläinen tieteellinen ja tekninen konferenssi Neuroinformatics-2003: Luentoja neuroinformatiikasta / Toim. toim. Yu. V. Tyumentsev (teknisten tieteiden kandidaatti). - M.  : MEPhI, 2003. - Osa 1. - S. 154. - 188 s. : sairas. - SRNTI 28.23.27. - BBK  32.818ya5 . - UDC  004.81.032.26 (063) . — ISBN 5-7262-0471-9 .
  2. Luento 1 “Bayesian ja Markovin verkot” Arkistokopio päivätty 14. heinäkuuta 2014 Wayback Machinessa D. P. Vetrov D. A. Kropotov A. A. Osokin. - Moskovan valtionyliopisto, VMiK, laitos. MMP CC RAS ​​-kurssi "Graafiset mallit"
  3. Hinton, G.E.; Osindero, S.; Teh, Y. Nopea oppimisalgoritmi syvälle uskomusverkoille  (määrittämätön)  // Neural Computation. - 2006. - T. 18 , nro 7 . - S. 1527-1554 . - doi : 10.1162/neco.2006.18.7.1527 . — PMID 16764513 .

Kirjallisuus

Katso myös