Tiede | |
Tilastot | |
---|---|
Mediatiedostot Wikimedia Commonsissa |
Tilasto on tiedon haara, tiede, joka hahmottelee massatilastollisen (kvantitatiivisen tai kvalitatiivisen) tiedon keräämisen, mittaamisen, seurannan, analysoinnin ja vertailun yleisiä kysymyksiä; massayhteiskunnallisten ilmiöiden kvantitatiivisen puolen tutkimus numeerisessa muodossa [1] .
Tilastomies on tilastotieteilijä .
Sana "tilastot" tulee latinan sanasta status - the state of affair [2] . Termin "tilasto" toi tieteeseen saksalainen tiedemies Gottfried Achenwall vuonna 1746, joka ehdotti saksalaisissa yliopistoissa opetettavan kurssin " Tilastot " nimen korvaamista sanalla "Statistics", mikä loi perustan tilastojen kehitykselle. tiede ja akateeminen tieteenala. Tästä huolimatta tilastotietoja pidettiin paljon aikaisemmin: väestölaskennat suoritettiin muinaisessa Kiinassa , verrattiin valtioiden sotilaallista potentiaalia, muinaisen Rooman kansalaisten omaisuutta kirjattiin ja niin edelleen [3] . Statistics kehittää erikoismetodologiaa materiaalien tutkimiseen ja käsittelyyn: massatilastolliset havainnot, ryhmittelymenetelmät, keskiarvot , indeksit, tasapainomenetelmä, graafisten kuvien menetelmä, klusteri- , erottelu- , tekijä- ja komponenttianalyysit, optimointi ja muut menetelmät tilastotietojen analysointia.
Tilastokäytännön alku ulottuu suunnilleen valtion syntyaikaan. Sumerilaisen kuningaskunnan ( III-II vuosituhat eKr. ) savitauluja voidaan pitää ensimmäisinä julkaistuina tilastotietoina .
Aluksi tilasto ymmärrettiin kuvaamaan valtion tai sen osan taloudellista ja poliittista tilaa. Esimerkiksi määritelmä viittaa vuoteen 1792: "tilastot kuvaavat tilan tilaa nykyhetkellä tai jollakin tunnetulla hetkellä menneisyydessä." Ja tällä hetkellä valtion tilastopalvelujen toiminta sopii hyvin tähän määritelmään [4] .
Vähitellen termiä "tilastot" alettiin kuitenkin käyttää laajemmin. Napoleon Bonaparten mukaan "tilastot ovat asioiden budjettia" [5] . Näin ollen tilastollisia menetelmiä todettiin hyödyllisiksi paitsi hallinnollisessa johtamisessa myös yksittäisen yrityksen tasolla. Vuoden 1833 sanamuodon mukaan "tilastojen tarkoitus on esittää tosiasiat mahdollisimman ytimekkäässä muodossa" [6] . 1800-luvun toisella puoliskolla - 1900-luvun alussa muodostui tieteellinen tieteenala - matemaattinen tilasto , joka on osa matematiikkaa.
1900 - luvulla tilastoja pidettiin usein ensisijaisesti itsenäisenä tieteenalana. Tilasto on joukko menetelmiä ja periaatteita, joiden mukaan numeerisen tiedon kerääminen, analysointi, vertailu, esittäminen ja tulkinta suoritetaan. Vuonna 1954 Ukrainan SSR:n tiedeakatemian akateemikko B. V. Gnedenko antoi seuraavan määritelmän: "Tilasto koostuu kolmesta osasta:
Termiä "tilastot" käytetään kahdessa muussa merkityksessä. Ensinnäkin jokapäiväisessä elämässä "tilastot" ymmärretään usein joukoksi kvantitatiivisia tietoja ilmiöstä tai prosessista. Toiseksi tilasto on havaintojen tulosten funktio, jota käytetään jakaumien ominaisuuksien ja parametrien arvioinnissa ja hypoteesien testaamisessa.
Tyypillisiä esimerkkejä tilastollisten menetelmien varhaisesta soveltamisesta on kuvattu Raamatussa, Vanhassa testamentissa . Siellä on erityisesti annettu eri heimojen soturien lukumäärä. Matemaattisesta näkökulmasta asia rajoittui havainnoitujen ominaisuuksien arvojen osumien laskemiseen tietyissä asteikoissa.
Välittömästi todennäköisyysteorian ( Pascal , Fermat , 1600-luvulla) syntymisen jälkeen tilastotietojen käsittelyssä alettiin käyttää probabilistisia malleja. Esimerkiksi poikien ja tyttöjen syntymistiheyttä tutkittiin, selvitettiin ero pojan saamisen todennäköisyyksien välillä 0,5:stä, analysoitiin syitä siihen, että pariisilaisissa turvakodeissa tämä todennäköisyys ei ole sama kuin itse Pariisissa. , ja niin edelleen.
Vuonna 1794 (muiden lähteiden mukaan - vuonna 1795) saksalainen matemaatikko Carl Gauss formalisoi yhden modernin matemaattisen tilaston menetelmistä - pienimmän neliösumman menetelmän [8] . 1800-luvulla käytännön tilastojen kehittämiseen antoi merkittävän panoksen belgialainen Quetelet , joka osoitti suuren todellisen tiedon analyysin perusteella suhteellisten tilastoindikaattoreiden, kuten itsemurhien osuuden vakauden. kaikki kuolemat [9] .
1900-luvun ensimmäistä kolmannesta leimasivat parametriset tilastot. Tutkittiin menetelmiä, jotka perustuivat Pearson -perheen käyrien kuvaamien jakaumien parametristen perheiden tietojen analysointiin . Suosituin oli normaalijakauma . Hypoteesien testaamiseen käytettiin Pearsonin , Studentin ja Fisherin kriteerejä . Ehdotettiin maksimitodennäköisyyden menetelmää , varianssianalyysiä , muotoiltiin kokeen suunnittelun pääideat.
1900-luvun ensimmäisellä kolmanneksella kehitettyä data-analyysin teoriaa kutsutaan parametritilastoksi, koska sen pääasiallinen tutkimuskohde on otokset jakaumista, jotka kuvataan yhdellä tai pienellä määrällä parametreja. Yleisin on neljän parametrin määrittelemä Pearson-käyräperhe. Pääsääntöisesti ei voida antaa hyviä syitä sille, miksi tiettyjen havaintojen tulosten jakautuminen pitäisi sisällyttää johonkin parametriperheeseen. Poikkeukset ovat hyvin tiedossa: jos todennäköisyysmalli mahdollistaa riippumattomien satunnaismuuttujien summauksen , niin on luonnollista kuvata summa normaalijakaumalla; jos malli ottaa huomioon tällaisten suureiden tulon, niin tulos on ilmeisesti approksimoitu logaritmisella normaalijakaumalla ja niin edelleen.
Tilastollinen ryhmittely ymmärretään populaation jakamiseksi ryhmiin (parametrien muutosvälit), jotka ovat joka suhteessa homogeenisiä. Tällaisten intervallien (ryhmien) lukumäärä lasketaan käyttämällä Sturges -kaavaa :
,missä k on välien lukumäärä, n on havaintojen lukumäärä.
Ryhmittelyjä on kolmenlaisia: analyyttinen, typologinen ja rakenteellinen.
Analyyttinen ryhmittely – voit tunnistaa ryhmien välisen suhteen. Typologinen ryhmittely on tutkitun populaation jakamista homogeenisiin ryhmiin. Rakenteellinen ryhmittely - jossa homogeeninen populaatio jaetaan ryhmiin tietyn ominaisuuden mukaan.Tyypilliset ryhmät: sisältä maksimaalisesti homogeeniset ja ulkopuolelta heterogeeniset. Ryhmitykset ovat ensisijaisia ja toissijaisia. Ensisijaiset ryhmittelyt saadaan tilastollisten havaintojen yhteydessä. Ja toissijaiset suoritetaan ensisijaisen perusteella.
Tilastolliset menetelmät - menetelmät tilastotietojen analysointiin. On olemassa soveltavan tilaston menetelmiä , joita voidaan soveltaa kaikilla tieteellisen tutkimuksen osa-alueilla ja kaikilla kansantalouden sektoreilla, sekä muita tilastomenetelmiä, joiden sovellettavuus on rajoitettu tiettyyn alueeseen. Tämä tarkoittaa sellaisia menetelmiä kuin tilastollinen hyväksynnän valvonta, teknisten prosessien tilastollinen valvonta, luotettavuus ja testaus sekä kokeiden suunnittelu.
Tilastollisia tietojen analysointimenetelmiä käytetään lähes kaikilla ihmisen toiminnan aloilla. Niitä käytetään aina, kun on tarpeen saada ja perustella mielipiteitä ryhmästä (objekteista tai subjekteista), joilla on jonkin verran sisäistä heterogeenisuutta.
On suositeltavaa erottaa kolme tyyppistä tieteellistä ja sovellettua toimintaa tilastollisten tietojen analysointimenetelmien alalla (erityisiin ongelmiin uppoutumiseen liittyvien menetelmien spesifisyyden asteen mukaan):
a) yleiskäyttöisten menetelmien kehittäminen ja tutkimus sovellusalueen erityispiirteitä huomioimatta;
b) todellisten ilmiöiden ja prosessien tilastollisten mallien kehittäminen ja tutkimus tietyn toimialan tarpeiden mukaisesti;
c) tilastollisten menetelmien ja mallien käyttö tiettyjen tietojen tilastolliseen analysointiin sovellettavien ongelmien ratkaisemisessa, esimerkiksi otantatutkimusten suorittamista varten .
Soveltava tilastotiede on tiedettä siitä, miten mielivaltaisia tietoja käsitellään. Sovellettavan tilaston ja tilastollisten analyysimenetelmien matemaattinen perusta on todennäköisyysteoria ja matemaattinen tilasto .
Tietojen tyypin ja niiden tuottomekanismin kuvaus on kaiken tilastollisen tutkimuksen alku. Datan kuvaamiseen käytetään sekä deterministisiä että probabilistisia menetelmiä. Determinististen menetelmien avulla on mahdollista analysoida vain niitä tietoja, jotka ovat tutkijan käytettävissä. Niitä käytettiin esimerkiksi valtion virallisten tilastolaitosten yritysten ja järjestöjen toimittamien tilastoraporttien perusteella laskemien taulukoiden saamiseksi. Saatuja tuloksia on mahdollista siirtää laajempaan joukkoon, käyttää niitä ennustamiseen ja ohjaukseen vain todennäköisyystilastollisen mallinnuksen perusteella. Siksi matemaattiseen tilastoon sisällytetään usein vain todennäköisyysteoriaan perustuvia menetelmiä.
Yksinkertaisimmassa tilanteessa tilastotiedot ovat jonkin tutkittaville kohteille ominaisen ominaisuuden arvoja. Arvot voivat olla kvantitatiivisia tai edustaa osoitusta kategoriasta, johon kohde voidaan määrittää. Toisessa tapauksessa puhumme laadullisesta merkistä.
Mitattaessa useilla määrällisillä tai kvalitatiivisilla ominaisuuksilla saadaan vektori tilastotietona kohteesta. Sitä voidaan pitää uudenlaisena datana. Tässä tapauksessa näyte koostuu joukosta vektoreita. Jos osa koordinaateista on numeroita ja osa kvalitatiivista (kategorisoitua) dataa, puhumme heterogeenisen datan vektorista.
Yksi otoksen elementti, eli yksi ulottuvuus, voi olla funktio kokonaisuutena. Esimerkiksi indikaattorin dynamiikkaa eli sen muutosta ajan mittaan kuvaava potilaan EKG tai moottorin akselin lyöntien amplitudi . Tai aikasarja , joka kuvaa tietyn yrityksen suorituskyvyn dynamiikkaa. Sitten näyte koostuu joukosta funktioita.
Otoksen elementit voivat olla myös muita matemaattisia objekteja. Esimerkiksi binäärisuhteet. Niinpä he käyttävät asiantuntijoita haastatellessaan usein osaamisobjektien - tuotenäytteiden, investointiprojektien, johdon päätösvaihtoehtojen - järjestystä (ranking) . Asiantuntijatutkimuksen säännöistä riippuen otoksen elementit voivat olla erilaisia binäärisuhteita (järjestys, osiointi , toleranssi ), joukkoja , sumeita joukkoja jne.
Otoselementtien matemaattinen luonne soveltavan tilaston eri ongelmissa voi olla hyvinkin erilainen. Kuitenkin voidaan erottaa kaksi tilastoluokkaa - numeeriset ja ei-numeeriset. Sen mukaisesti sovellettu tilasto on jaettu kahteen osaan - numeeriseen tilastoon ja ei-numeeriseen tilastoon.
Numeeriset tilastot ovat lukuja, vektoreita, funktioita. Ne voidaan lisätä, kertoa kertoimilla. Siksi numeerisissa tilastoissa eri summilla on suuri merkitys. Matemaattinen laitteisto satunnaisotosalkioiden summien analysointiin on suurten lukujen (klassiset) lait ja keskirajalauseet.
Ei-numeeriset tilastotiedot ovat luokiteltuja tietoja, heterogeenisten piirteiden vektoreita, binäärisuhteita, joukkoja, sumeita joukkoja jne. Niitä ei voi lisätä eikä kertoa kertoimilla. Ei siis ole järkevää puhua ei-numeeristen tilastojen summista. Ne ovat ei-numeeristen matemaattisten avaruuksien (joukkojen) elementtejä. Ei-numeerisen tilastotiedon analyysin matemaattinen laitteisto perustuu elementtien välisten etäisyyksien (sekä läheisyysmittojen, eroindikaattoreiden) käyttöön tällaisissa tiloissa. Etäisyyksien avulla määritetään empiirisiä ja teoreettisia keskiarvoja, todistetaan suurten lukujen lait, konstruoidaan ei-parametrisiä arvioita todennäköisyysjakauman tiheydelle , ratkaistaan diagnostisia ja klusterianalyysin ongelmia jne. [2]
Soveltavassa tutkimuksessa käytetään erilaisia tilastotietoja. Tämä johtuu erityisesti niiden hankintamenetelmistä. Esimerkiksi, jos joidenkin teknisten laitteiden testaus jatkuu tiettyyn hetkeen asti, niin saamme niin sanotut sensuroidut tiedot, jotka koostuvat numerojoukosta - useiden laitteiden toiminnan kestosta ennen vikaa ja tiedoista, jotka loput laitteet jatkoivat toimintaansa testin lopussa. Sensuroitua dataa käytetään usein teknisten laitteiden luotettavuuden arvioinnissa ja valvonnassa.
Tilasto on monitieteellinen, koska se käyttää muilta tieteenaloilta lainattuja menetelmiä ja periaatteita. Joten sosiologian ja talousteorian alan tieto toimii teoreettisena perustana tilastotieteen muodostumiselle. Näiden tieteenalojen puitteissa tutkitaan yhteiskunnallisten ilmiöiden lakeja. Tilastot auttavat arvioimaan ilmiön laajuutta sekä kehittämään menetelmäjärjestelmän analysointia ja tutkimusta varten. Tilastot liittyvät epäilemättä matematiikkaan, sillä kuvioiden tunnistamiseen, arvioimiseen ja analysointiin tarvitaan useita matemaattisia operaatioita, menetelmiä ja lakeja, ja tulosten systematisointi näkyy kaavioiden ja taulukoiden muodossa.
Tilastollisten menetelmien teoria tähtää todellisten ongelmien ratkaisemiseen. Siksi siihen ilmestyy jatkuvasti uusia muotoja tilastollisen data-analyysin matemaattisista ongelmista, uusia menetelmiä kehitetään ja perustellaan. Perustelut suoritetaan usein matemaattisin keinoin, toisin sanoen todistamalla lauseita. Tärkeä rooli on metodologisella komponentilla - miten tehtävät asetetaan tarkasti, mitä oletuksia hyväksytään matemaattista jatkotutkimusta varten. Nykyaikaisen tietotekniikan rooli , erityisesti tietokonekokeilu, on suuri.
Kiireellisenä tehtävänä on analysoida tilastollisten menetelmien historiaa kehityssuuntien tunnistamiseksi ja soveltamiseksi ennustamiseen.
Laskentatekniikan kehitys 1900 - luvun jälkipuoliskolla vaikutti merkittävästi tilastoihin. Aikaisemmin tilastollisia malleja edustivat pääasiassa lineaariset mallit . Tietokoneen nopeuden kasvu ja vastaavien numeeristen algoritmien kehitys on lisännyt kiinnostusta epälineaarisia malleja, kuten keinotekoisia hermoverkkoja kohtaan, ja johtanut monimutkaisten tilastollisten mallien, kuten yleisen lineaarisen mallin ja hierarkkisen mallin, kehittämiseen .
Laskennalliset menetelmät, jotka perustuvat uudelleennäytteenottoon permutaatiokriteerinä ja bootstrappaukseen , ovat yleistyneet , samoin kuin menetelmät, kuten Gibbs-näytteenotto , ovat tehneet Bayesin algoritmien käytön helpommin saavutettavissa. Tällä hetkellä on olemassa erilaisia tilastollisia ohjelmistoja yleisiin ja erikoistarkoituksiin.
On olemassa mielipide, että tilastollisten tutkimusten tietoja vääristetään tai tulkitaan yhä enemmän tietoisesti ja valitaan vain ne tiedot, jotka ovat yksittäisen tutkijan kannalta edullisia [10] . Tilastojen väärinkäyttö voi olla joko tahallista tai tahallista. Darrell Huffin How to Lie with Statistics (1954) Kuinka valehdella tilastojen kanssa , esittää useita näkökohtia tilastojen käytöstä ja väärinkäytöstä. Jotkut kirjoittajat tarkastelevat myös tietyillä alueilla käytettyjä tilastollisia menetelmiä (esim. Warne, Lazo, Ramos ja Ritter (2012)) [11] . Tapoja välttää tilastojen väärintulkinta on käyttää asianmukaista suunnittelua ja välttää harhaa tutkimuksessa [12] . Väärinkäyttöä tapahtuu, kun tietyt rakenteet "järjestävät" tällaisia johtopäätöksiä, jotka tarkoituksellisesti tai tiedostamatta johtavat puolueellisten tietojen tai näytteiden valintaan [13] . Samaan aikaan histogrammit, jotka ovat helpoimmin käytettävä ja ymmärrettävä (havaitseva) kaaviotyyppi, voidaan tehdä joko tavanomaisilla tietokoneohjelmilla tai yksinkertaisesti piirtämällä [12] . Useimmat ihmiset eivät yritä etsiä virheitä tai erehtyvät itse, eivätkä siksi näe virheitä. Näin ollen tekijöiden mukaan tilastotietojen pitää olla "kampaamattomia" ollakseen totta (eli luotettavan tiedon ei pitäisi näyttää täydelliseltä) [13] . Jotta tuloksena saadut tilastot olisivat uskottavia ja tarkkoja, otoksen on edustava kokonaisuutta [14] .
Tunnetuin (ja yksi parhaista [15] ) sovelletun tilaston kritiikki on "On kolmenlaisia petoksia: valheita, kirottuja valheita ja tilastoja", Eng. Valheita on kolmenlaisia: valheita, kirottuja valheita ja tilastoja ) on perinteisesti liitetty Britannian pääministerin Benjamin Disraelin ansioksi sen jälkeen, kun Mark Twain on maininnut julkaisussa " Chapter of my autobiography " ( North American Review -lehti 5. heinäkuuta 1907) [ 16] : "Luvut ovat petollisia", hän kirjoitti, "Olin vakuuttunut tästä omasta kokemuksestani; Disraeli puhui tästä aivan oikein: "Valheita on kolmenlaisia: valheita, räikeitä valheita ja tilastoja." Tämä lause ei kuitenkaan ole Disraelin teoksissa, sen alkuperä on kiistanalainen. Vuonna 1964 C. White ( eng. Colin White ) [15] ehdotti Francois Magendien (1783-1855) kirjoittajaksi, joka sanoi fraasin ranskaksi: fr. Ainsi l'altération de la vérité qui se manifeste déjà sous la forme progressive du mensonge et du parjure, nous offre-t-elle au superlatif, la statistique ("Totuuden muunnelma, joka ilmenee epätotuuden ja epätotuuden vertailevana asteena" väärä vala, on myös superlatiivi , tilastot"). Whiten sanoin: "Maailma tarvitsi tämän lauseen, ja muutamat ihmiset saattoivat olla ylpeitä keksiessään sen."
Sanakirjat ja tietosanakirjat |
| |||
---|---|---|---|---|
|