Korrelaatio ( latinan sanasta correlatio "ratio") tai korrelaatioriippuvuus - kahden tai useamman satunnaismuuttujan (tai muuttujan, jota voidaan pitää sellaisena jollain hyväksyttävällä tarkkuudella) tilastollinen suhde, samalla kun yhden tai useamman satunnaismuuttujan arvot muuttuvat. useampaan näistä määristä liittyy systemaattinen toisen tai muun suuren arvojen muutos [1] .
Kahden satunnaismuuttujan korrelaation matemaattinen mitta on korrelaatiosuhde [2] tai korrelaatiokerroin (tai ) [1] . Jos yhden satunnaismuuttujan muutos ei johda säännölliseen muutokseen toisessa satunnaismuuttujassa, vaan johtaa muutokseen tämän satunnaismuuttujan toisessa tilastollisessa ominaisuudessa, tällaista yhteyttä ei pidetä korrelaationa, vaikka se on tilastollinen [3] .
Ranskalainen paleontologi Georges Cuvier otti ensimmäistä kertaa tieteelliseen liikkeeseen termin korrelaatio 1700-luvulla. Hän kehitti elävien olentojen osien ja elinten "korrelaatiolain", jonka avulla on mahdollista palauttaa fossiilisen eläimen ulkonäkö, jolla on käytettävissään vain osa sen jäännöksistä. Tilastoissa sanaa "korrelaatio" käytti ensimmäisen kerran englantilainen biologi ja tilastotieteilijä Francis Galton 1800-luvun lopulla [4] .
Merkittävä korrelaatio kahden satunnaismuuttujan välillä on aina todiste jonkin tilastollisen yhteyden olemassaolosta tietyssä otoksessa, mutta tämän suhteen ei välttämättä tarvitse olla havaittavissa toisessa otoksessa ja olla kausaalista. Korrelaatiotutkimuksen usein houkutteleva yksinkertaisuus rohkaisee tutkijaa tekemään vääriä intuitiivisia johtopäätöksiä ominaisuusparien välisen kausaalisen yhteyden olemassaolosta, kun taas korrelaatiokertoimet muodostavat vain tilastollisia suhteita. Esimerkiksi tietyn kaupungin tulipaloja tarkasteltaessa voidaan löytää erittäin korkea korrelaatio palon aiheuttamien vahinkojen ja sammuttamiseen osallistuneiden palomiesten lukumäärän välillä, ja tämä korrelaatio on positiivinen. Tämä ei kuitenkaan johda siihen johtopäätökseen, että "palomiesten määrän lisääminen johtaisi aiheutettujen vahinkojen lisääntymiseen", ja vielä vähemmän onnistutaan minimoida tulipalojen aiheuttamia vahinkoja poistamalla palokunnat [ 5] . Kahden suuren korrelaatio voi viitata yhteisen syyn olemassaoloon, vaikka itse ilmiöt eivät ole suoraan vuorovaikutuksessa. Esimerkiksi jäätyminen lisää sekä kaatumisten aiheuttamia vammoja että ajoneuvojen onnettomuuksia. Tässä tapauksessa kaksi määrää (jalankulkijoiden putoamisesta ja ajoneuvo-onnettomuuksista johtuvat vammat) korreloi, vaikka ne eivät ole kausaalisessa yhteydessä toisiinsa, vaan niillä on vain kolmannen osapuolen yhteinen syy - musta jää .
Samaan aikaan korrelaation puuttuminen kahden suuren välillä ei tarkoita, etteikö niiden välillä olisi yhteyttä. Esimerkiksi riippuvuudella voi olla monimutkainen epälineaarinen luonne, jota korrelaatio ei paljasta.
Jotkut korrelaatiokertoimien tyypit voivat olla positiivisia tai negatiivisia. Ensimmäisessä tapauksessa oletetaan, että voimme määrittää vain yhteyden olemassaolon tai puuttumisen ja toisessa myös sen suunnan. Jos oletetaan, että muuttujien arvoille annetaan tiukka järjestyssuhde , niin negatiivinen korrelaatio on korrelaatio, jossa yhden muuttujan kasvu liittyy toisen pienenemiseen. Tässä tapauksessa korrelaatiokerroin on negatiivinen. Positiivinen korrelaatio tällaisissa olosuhteissa on sellainen, jossa yhden muuttujan kasvu liittyy toisen muuttujan kasvuun. On myös mahdollista, että tilastollista yhteyttä ei ole olemassa - esimerkiksi riippumattomien satunnaismuuttujien osalta .
Korrelaatiokertoimen laskentamenetelmä riippuu asteikkotyypistä , johon muuttujat viittaavat. Joten muuttujien mittaamiseksi intervalli- ja kvantitatiivisilla asteikoilla on käytettävä Pearson-korrelaatiokerrointa (tuotemomenttien korrelaatio ) . Jos vähintään toisella kahdesta muuttujasta on järjestysasteikko tai se ei ole normaalijakautumassa , on käytettävä Spearmanin tai (tau) Kendallin rankkorrelaatiota. Jos toinen kahdesta muuttujasta on kaksijakoinen , käytetään pisteen kaksisarjakorrelaatiota, ja jos molemmat muuttujat ovat kaksijakoisia , käytetään neljän kentän korrelaatiota. Kahden ei-dikotomisen muuttujan välisen korrelaatiokertoimen laskeminen on järkevää vain, kun niiden välinen suhde on lineaarinen (yksisuuntainen).
Kahden satunnaismuuttujan yhteisjakauman tärkeä ominaisuus on kovarianssi (tai korrelaatiomomentti ). Kovarianssi on toisen asteen liitoksen keskusmomentti [6] . Kovarianssi määritellään satunnaismuuttujien poikkeamien tulon matemaattiseksi odotukseksi [7] :
,missä on matemaattinen odotus (englanninkielisessä kirjallisuudessa merkintä odotusarvosta hyväksytään ).
Kovarianssiominaisuudet :
Koska ja ovat riippumattomia satunnaismuuttujia, niiden poikkeamat ja ovat myös riippumattomia. Käyttämällä sitä tosiasiaa, että riippumattomien satunnaismuuttujien tulon matemaattinen odotus on yhtä suuri kuin tekijöiden matemaattisten odotusten tulo ja poikkeaman matemaattinen odotus on nolla, saamme
Otetaan käyttöön satunnaismuuttuja (missä on keskihajonta ) ja etsitään sen varianssi . Laskelmien tekemisen jälkeen saamme:
Mikä tahansa varianssi ei ole negatiivinen, joten
Täältä
Ottamalla käyttöön satunnaismuuttuja , samalla tavalla
Yhdistämällä saadut epäyhtälöt saadaan
Tai
Niin,
Kovarianssin puutteen poistamiseksi otettiin käyttöön lineaarinen korrelaatiokerroin (tai Pearsonin korrelaatiokerroin ), jonka kehittivät Karl Pearson , Francis Edgeworth ja Raphael Weldon 1800-luvun 90-luvulla. Korrelaatiokerroin lasketaan kaavalla [10] [8] :
jossa , on näytteiden keskiarvo.
Korrelaatiokerroin vaihtelee miinus yhdestä plus yhteen [11] .
TodisteJakamalla kaksinkertaisen epäyhtälön molemmat osat saamme
Lineaarinen korrelaatiokerroin liittyy regressiokertoimeen seuraavan riippuvuuden muodossa: missä on regressiokerroin, on vastaavan tekijäattribuutin keskihajonta [12] . Regressiokertoimen suhde keskihajontaan Y ei riipu Y:n yksiköistä. Tietojoukon lineaarisella muunnolla ja lineaarinen korrelaatiokerroin on yhtä suuri kuin .
Sitä käytetään kvantitatiivisten tai laadullisten indikaattoreiden välisen suhteen tunnistamiseen, jos ne voidaan asettaa paremmuusjärjestykseen. X-indikaattorin arvot asetetaan nousevassa järjestyksessä ja niille on määritetty arvoja. Y-indikaattorin arvot asetetaan paremmuusjärjestykseen ja Kendallin korrelaatiokerroin lasketaan :
,
missä .
on havaintojen kokonaismäärä nykyisten havaintojen jälkeen, joilla on suuri Y-arvo.
on havaintojen kokonaismäärä, jotka seuraavat nykyisiä havaintoja alemmilla Y-arvoilla. (saalaisia arvoja ei oteta huomioon!)
Jos tutkitut tiedot toistetaan (niillä on samat arvot), laskelmissa käytetään korjattua Kendallin korrelaatiokerrointa:
on X- ja Y-sarjojen toisiinsa liittyvien sijoitusten lukumäärä.
Spearmanin rankkorrelaatiokerroinKahden satunnaismuuttujan (piirteen) riippuvuusaste voidaan luonnehtia saatujen tulosten analyysin perusteella . Jokaiselle indikaattorille on annettu arvo. Arvot ovat luonnollisessa järjestyksessä . Sijoitus kirjoitetaan ja vastaa sen parin arvoa, jonka sijoitus on . Saatujen rankkojen ja niiden erojen perusteella lasketaan Spearman - korrelaatiokerroin :
Kertoimen arvo vaihtelee välillä −1 (rivijonot ovat täysin vastakkaisia) +1:een (rivijonot ovat täysin samat). Arvo nolla osoittaa, että ominaisuudet ovat riippumattomia.
Fechner-merkkikorrelaatiokerroinIndikaattorien arvojen poikkeamien merkkien yhteensattumien ja epäsuhtautumisten määrä niiden keskiarvosta lasketaan.
C on niiden parien lukumäärä, joilla arvojen poikkeamien merkit keskiarvoista ovat samat.
H on niiden parien lukumäärä, joiden arvojen poikkeamien merkit keskiarvoista eivät täsmää.
Multiple korrelaatiokerroin Moniarvoinen korrelaatiokerroin (yhdenmukaisuus)
on paremmuusjärjestykseen asetettujen ryhmien lukumäärä.
on muuttujien lukumäärä.
on y -yksen -tekijän arvo .
Merkitys:
, silloin hypoteesi yhteyden puuttumisesta hylätään.
Jos kyseessä ovat toisiinsa liittyvät arvot:
Tarkastellaan satunnaismuuttujia X ja Y, joiden keskiarvo on nolla ja varianssit ovat vastaavasti ja . Lasketaan satunnaismuuttujan varianssi :
Olettaen, että korrelaatiokerroin
silloin edellinen lauseke kirjoitetaan uudelleen muotoon
Koska voit aina valita luvut a ja b siten, että (esim. jos , niin otamme mielivaltaiset a ja ), niin näiden a ja b varianssi on , ja siksi lähes varmasti. Mutta tämä tarkoittaa lineaarista suhdetta X:n ja Y:n välillä. Todistus on ilmeisesti yleistetty X:n ja Y:n tapaukselle nollasta poikkeavilla keskiarvoilla, vain yllä olevissa laskelmissa X on tarpeen korvata X:llä ja Y:llä .
Korrelaatioanalyysi on tilastollinen tietojenkäsittelymenetelmä, joka mittaa kahden tai useamman muuttujan välisen suhteen vahvuutta. Korrelaatioanalyysi liittyy läheisesti regressioanalyysiin ( usein löytyy myös termi " korrelaatioregressioanalyysi ", joka on yleisempi tilastollinen käsite ), se määrittää tarpeen sisällyttää useita tekijöitä moniregressioyhtälöön ja arvioi myös tuloksena oleva regressioyhtälö vaatimustenmukaisuuden tunnistetuille suhteille (käyttäen determinaatiokerrointa ) [1] [2] .
Tämä tilastotietojen käsittelymenetelmä on erittäin suosittu taloustieteissä , astrofysiikassa ja yhteiskuntatieteissä (erityisesti psykologiassa ja sosiologiassa ), vaikka korrelaatiokertoimien laajuus on laaja: teollisuustuotteiden laadunvalvonta , metallurgia , maatalouskemia , hydrobiologia , biometriikka ja muut . Eri sovellettavilla toimialoilla hyväksytään erilaiset välirajat liitoksen tiiviyden ja merkityksen arvioinnissa.
Menetelmän suosio johtuu kahdesta seikasta: korrelaatiokertoimet on suhteellisen helppo laskea, niiden soveltaminen ei vaadi erityistä matemaattista koulutusta. Yhdessä tulkinnan helppouden kanssa kertoimen helppokäyttöisyys on johtanut sen laajaan käyttöön tilastollisen data-analyysin alalla.
![]() | |
---|---|
Bibliografisissa luetteloissa |
|