Benfordin laki

Benfordin laki tai ensimmäisen numeron laki on laki, joka kuvaa todennäköisyyttä, että tietty ensimmäinen merkitsevä numero esiintyy todellisesta elämästä otettujen suureiden jakaumissa.

Laki pätee moniin tällaisiin jakaumiin, mutta ei kaikkiin. Tekee myös useita ennusteita toisen ja kolmannen numeron esiintymistiheydestä.

Frank Benfordin löytämä laki näyttää tältä: jos meillä on lukukanta b ( b > 2), niin luvun d ( d ∈ {1, ..., b − 1}) todennäköisyys olla ensimmäinen merkitsevä numero on

Tämä on täsmälleen etäisyys d :n ja d+1 :n välillä log-asteikolla, jonka kanta on b .

Tasaisen jakautumisen vuoksi, jos sinulla on numerot 1, 2, 3, 4,5,6,7, 8, 9, 0 (=10), sinulla on 10 segmenttiä (0 - 1, ..., 8 - 8 9, 9-10). Huomaa, että kaikki segmentit ovat alueella [0, 10]. Janan [d, d+1] tasaisen jakauman tulee olla verrannollinen sen pituuteen, eli janan pituuteen [d, d+1], eli (d+1)-d jaettuna janan pituudella segmentti [0, 10], joka on 10.

.

Jos logaritmit jakautuvat jatkuvasti, sinun on otettava luvun logaritmi ennen segmenttien tarkastelua. Logaritmissa otetaan huomioon segmentit 1-10 (koska log 10 0 ei ole järkevää). Tässä tapauksessa sinulla on välit log 10 1 - log 10 2,…, log 10 8 - log 10 9, log 10 9 - log 10 10. Kaikki segmentit ovat välissä [log 10 1, log 10 10] = [0, 1]. Jälkimmäisen pituus on 1. Tarkastellaan siis segmenttiä [d, d + 1] tavallisella asteikolla, logaritmisella asteikolla tasainen jakautuminen on verrannollinen sen pituuteen, eli:

.

Alla oleva taulukko näyttää Benfordin löytämät todennäköisyydet desimaalilukujärjestelmän ensimmäiselle numerolle.

d yksi 2 3 neljä 5 6 7 kahdeksan 9
s 30,1 % 17,6 % 12,5 % 9,7 % 7,9 % 6,7 % 5,8 % 5,1 % 4,6 %

Tässä tapauksessa jakauma riippuu vain numerojärjestelmästä, mutta ei mittayksiköstä. Toisin sanoen, jos tonnit muunnetaan pudoiksi ja neliökilometrit muunnetaan hehtaareiksi , jakauma ei muutu.

Historia

Amerikkalainen tähtitieteilijä Simon Newcome huomasi tämän lain ilmenemisen ensimmäistä kertaa vuonna 1881. Hän havaitsi, että logaritmisia taulukoita sisältävät kirjat olivat rispaantuneet siellä, missä ykkösellä alkavien lukujen logaritmit sisälsivät, ja 9:llä alkavien lukujen logaritmit olivat ehjät.

Fyysikko Frank Benford löysi tämän ilmiön uudelleen vuonna 1938. Benford analysoi noin 20 taulukkoa, joiden joukossa oli tietoja 335 joen altaan pinta-alasta, tuhansien kemiallisten yhdisteiden ominaislämmöstä ja molekyylipainosta, mukaan lukien hakemistossa lueteltujen 342 ensimmäisen kadun talonumerot. Numeroiden analyysi osoitti, että yksikkö on ensimmäinen merkitsevä numero, jonka todennäköisyys ei ole 1/9, kuten voisi odottaa, vaan noin 1/3.

Myöhemmin Benfordin laki sai selityksensä - sitä voidaan soveltaa lukujoukkoon, joka voi kasvaa eksponentiaalisesti (toisin sanoen arvon kasvunopeus on verrannollinen sen nykyiseen arvoon, ). Niihin kuuluvat esimerkiksi sähkölaskut, varastosaldot, osakekurssit, väestö, kuolleet, jokien pituudet, maa-alueet, maailman korkeimpien rakennusten korkeudet.

Rajoitukset

Laki ei yleensä koske jakoja, joilla on tietyt vähimmäis- tai enimmäisarvot (luettelo yrityksistä, joiden tulot ovat 50 000 - 100 000 dollaria). Jakaumat, jotka kattavat vain yhden tai kaksi suuruusluokkaa ( aikuisten älykkyysosamäärät ) , ovat myös sopimattomia . Benfordin laki ei päde moniin kirjaimiin (kuva). Tietojen määrän tulee olla riittävä tilastollisten menetelmien soveltamiseen.

Selitykset

Benfordin laki voidaan selittää monella tapaa.

Tulos prosessista, jossa kasvu on eksponentiaalista

Benfordin lain tarkka muoto voidaan selittää olettamalla, että lukujen logaritmit ovat jakautuneet tasaisesti; esimerkiksi todennäköisyys löytää luku väliltä 100 ja 1000 (logaritmi välillä 2 ja 3) on sama kuin välillä 10 000 ja 100 000 (logaritmi välillä 4 ja 5). Tämä on kohtuullinen oletus monille lukusarjoille, erityisesti niille, joiden kasvu on eksponentiaalista , kuten tulot tai osakekurssit.

Jos määrä esimerkiksi kasvaa jatkuvasti ja kaksinkertaistuu joka vuosi, se on kaksinkertainen alkuarvoon verrattuna vuoden kuluttua, neljä kertaa alkuarvo kahden vuoden kuluttua, kahdeksan kertaa alkuarvo kolmen vuoden kuluttua jne. Kun tämä luku saavuttaa arvo on 100, sillä on merkittävä luku 1 koko vuoden ajan ja saavuttaa 200 ensimmäisen vuoden lopussa. Seuraavan vuoden aikana arvo nousee 200:sta 400:aan; merkitsevä luku on 2 (arvo on 200:sta 300:aan) hieman yli seitsemän kuukauden ajan (muista, että kyseessä on eksponentiaalinen kasvu, eli 200:sta 300:aan funktio kasvaa "hitaammin" kuin 300:sta 400:aan ) ja 3 jäljellä olevien viiden kuukauden ajan. Kolmantena vuonna merkitsevä numero ohittaa 4, 5, 6 ja 7, jolloin kuluu yhä vähemmän aikaa päästä seuraavaan numeroon ja saavuttaa 800:n kyseisen vuoden lopussa. Neljännen vuoden alussa merkitsevä numero vaihtuu 8:sta 9:ään. Merkittävä numero muuttuu jälleen 1:ksi, kun arvo saavuttaa 1000:n ja alkaa alusta, kestää vuoden kaksinkertaistaa arvo 1000:sta 2000:een. Esimerkki osoittaa, että datataulukot, jotka sisältävät eksponentiaalisesti kasvavia arvoja, ovat Benfordin lain mukaisia. Tämä laki pätee kuitenkin myös moniin tapauksiin, joissa eksponentiaalinen kasvu ei ole ilmeistä.

Skaalainvarianssi

Tämä laki voidaan vaihtoehtoisesti selittää sillä, että jos on todellakin totta, että ensimmäisellä numerolla on erityinen jakauma , sen on oltava riippumaton suureista, joilla se mitataan. Tämä tarkoittaa, että muunnettaessa esimerkiksi jalat jaardeiksi (kertomalla vakiolla), jakauman tulee pysyä muuttumattomana - tämä on asteikkoinvarianssi ja ainoa jatkuva jakauma, joka täyttää tämän vaatimuksen, on sellainen, jossa logaritmi on jakautunut tasaisesti.

Esimerkiksi kohteen pituuden tai etäisyyden ensimmäisellä (nollasta poikkeavalla) numerolla tulee olla sama jakautuminen riippumatta siitä, onko mitta jaloissa, jaardeissa tai jossain muussa. Mutta jaardissa on kolme jalkaa, joten todennäköisyyden, että jaardin pituuden ensimmäinen numero on 1, on oltava sama kuin todennäköisyys, että pituuden ensimmäinen numero jaloissa on 3, 4 tai 5. kaikki mahdolliset mitta-asteikot antavat logaritmisen jakauman, ja koska log 10 (1) = 0 ja log 10 (10) = 1, saadaan Benfordin laki. Toisin sanoen, jos ensimmäisen numeron jakauma on yksiköstä riippumaton, ensimmäisen numeron ainoa jakauma voi olla sellainen, joka noudattaa Benfordin lakia.

Useita todennäköisyysjakaumia

Tietystä jakaumasta vedetyt luvut, kuten älykkyysosamäärät, ihmisten pituudet tai muut muuttujat, jotka noudattavat normaalijakaumaa , laki ei päde. Jos kuitenkin "sekoitat" lukuja monista samankaltaisista jakeluista, esimerkiksi ottamalla numeroita sanomalehtiartikkeleista, Benfordin laki tulee jälleen näkyviin. Tämä voidaan todistaa myös matemaattisesti: jos valitset toistuvasti "satunnaisesti" todennäköisyysjakauman ja valitset sitten satunnaisesti tämän jakauman mukaisen luvun, tuloksena oleva lista noudattaa Benfordin lakia [1] [2] [3] .

Esimerkkejä

Maailman 58 korkeimman rakennuksen luettelossa luokassaan (syyskuusta 2010 lähtien) numero "1" on ensimmäisellä paikalla paljon useammin kuin numero "9", mittayksiköstä riippumatta:

Ensimmäinen numero metriä jalat
Määrä % Määrä %
yksi 27 47,4 % 13 22,8 %
2 kahdeksan 14,0 % kahdeksan 14,0 %
3 7 12,3 % kahdeksan 14,0 %
neljä 5 8,8 % 3 5,3 %
5 2 3,5 % neljätoista 24,6 %
6 3 5,3 % 5 8,8 %
7 2 3,5 % 3 5,3 %
kahdeksan 3 5,3 % yksi 1,8 %
9 0 0,0 % 2 3,5 %


Sovellus

Benford-jakelutestiä käytetään tietojen haitallisen manipuloinnin havaitsemiseen, mukaan lukien:

Muistiinpanot

  1. Theodore P. Hill. Ensimmäinen digitaalinen ilmiö. Vuosisadan vanha havainto odottamattomasta kuviosta monissa numeerisissa taulukoissa koskee osakemarkkinoita, väestölaskentatilastoja ja kirjanpitotietoja.  (englanniksi)  (linkki ei ole käytettävissä) 358-363. American Scientist 86.4 (1998). Haettu 24. syyskuuta 2016. Arkistoitu alkuperäisestä 24. syyskuuta 2016.
  2. Theodore P. Hill. The Significant-Digit Phenomenon  (englanniksi) 322-327. The American Mathematical Monthly 102.4 (1995): 322-327. (huhtikuu 1995). Haettu 24. syyskuuta 2016. Arkistoitu alkuperäisestä 24. syyskuuta 2016.
  3. Theodore P. Hill. Merkittävien numeroiden lain tilastollinen johdannainen  . Statistical Science, 1995, Voi. 10, No. 4, 354 - 363 (1995). Haettu 24. syyskuuta 2016. Arkistoitu alkuperäisestä 14. maaliskuuta 2016.
  4. Minulla on numerosi. Kuinka matemaattinen ilmiö voi auttaa hankintakohtaisia ​​maksuja paljastamaan petoksia ja muita väärinkäytöksiä.  (englanniksi) . Journal of Accountancy (1999). - esimerkkejä Benfordin lain soveltamisesta. Arkistoitu alkuperäisestä 1. heinäkuuta 2012.
  5. Vaalipetos. Kuinka varastaa vaalit" Arkistoitu 14. toukokuuta 2012 at the Wayback Machine / The Economist , 3. maaliskuuta 2012  

Linkit