Zipfin laki ("rank-frekvenssi") on empiirinen säännönmukaisuus luonnollisen kielen sanojen esiintymistiheyden jakautumisesta : jos kielen kaikki sanat (tai vain melko pitkä teksti ) on järjestetty niiden esiintymistiheyden mukaan laskevaan järjestykseen . käyttöä, silloin n :nnen sanan esiintymistiheys tällaisessa luettelossa on suunnilleen kääntäen verrannollinen sen järjestysnumeroon n ( tämän sanan ns. arvo , katso järjestysasteikko ). Esimerkiksi toiseksi eniten käytetty sana on noin kaksi kertaa niin yleinen kuin ensimmäinen, kolmas on kolme kertaa harvinaisempi kuin ensimmäinen ja niin edelleen.
Säännöllisyyden löydön tekijä on ranskalainen pikakirjoittaja Jean-Baptiste Estoup ( fr. Jean-Baptiste Estoup ), joka kuvaili sitä vuonna 1908 teoksessaan "Range of shorthand" [1] . Saksalainen fyysikko Felix Auerbach käytti lakia kuvaamaan kaupunkien kokojakaumaa ensimmäisen kerran teoksessaan "Väestökeskittymän laki" vuonna 1913 [2] , ja se on nimetty amerikkalaisen kielitieteilijän George Zipfin mukaan, joka vuonna 1949 aktiivisesti popularisoi tätä mallia. , ehdottaa ensin sen käyttämistä kuvaamaan jakelun taloudellisia voimia ja sosiaalista asemaa [2] .
Zipfin lain selitys, joka perustuu additiivisten Markov-ketjujen korrelaatioominaisuuksiin (askelmuistitoiminnolla), annettiin vuonna 2005 [3] .
Zipfin laki kuvataan matemaattisesti Pareton jakaumalla . Se on yksi infometriikassa käytetyistä perussäännöistä .
George Zipf vuonna 1949 esitti ensimmäisen kerran ihmisten tulojen jakautumisen heidän koonsa mukaan: rikkaimmalla on kaksi kertaa enemmän rahaa kuin seuraavaksi rikkaimmalla ja niin edelleen. Tämä väite osoittautui todeksi useissa maissa (Englanti, Ranska, Tanska, Hollanti, Suomi, Saksa, USA) vuosina 1926-1936 [2] .
Tämä laki toimii myös kaupunkijärjestelmän jakautumisen suhteen: minkään maan suurin väkiluku on kaksi kertaa suurempi kuin seuraavaksi suurin kaupunki ja niin edelleen [2] . Jos järjestät luettelossa kaikki tietyn maan kaupungit laskevassa väestöjärjestyksessä, kullekin kaupungille voidaan määrittää tietty sijoitus, toisin sanoen numero, jonka se saa tässä luettelossa. Samanaikaisesti populaation koko ja sijoitus noudattavat yksinkertaista kaavalla [4] ilmaistavaa kaavaa :
,missä on n :nnen sijan kaupungin väestö ; - maan pääkaupungin väestö (1. sija).
Empiiriset tutkimukset tukevat tätä väitettä [5] [6] [7] [8] [9] .
Taloustieteilijä Xavier Gabet kuvaili vuonna 1999 Zipfin lakia esimerkkinä valtalaista : jos kaupungit kasvavat satunnaisesti samalla keskihajonnalla, jakauma pienenee rajalla Zipfin laiksi [10] .
Venäjän federaation kaupunkiasutusta koskevien tutkijoiden päätelmien mukaan Zipfin lain [11] mukaisesti :
Amerikkalainen bioinformaatikko Wentian Li ehdotti tilastollista selitystä Zipfin laille, joka osoittaa, että myös satunnainen merkkijono noudattaa tätä lakia [12] . Kirjoittaja päättelee, että Zipfin laki on ilmeisesti puhtaasti tilastollinen ilmiö, jolla ei ole mitään tekemistä tekstin semantiikan kanssa ja jolla on pinnallinen suhde kielitieteeseen.
Yleisesti ottaen tämän teorian todiste on seuraava. Todennäköisyys n -pituisen sanan satunnaiselle esiintymiselle satunnaisten merkkien ketjussa pienenee n:n kasvaessa samassa suhteessa kuin tämän sanan järjestys taajuusluettelossa (järjestysasteikko) kasvaa. Siksi sanan arvon ja sen tiheyden tulo on vakio .
Sanakirjat ja tietosanakirjat | |
---|---|
Bibliografisissa luetteloissa |