Mahalanobiksen etäisyys

Mahalanobiksen etäisyys on satunnaismuuttujien vektorien välisen etäisyyden mitta , joka yleistää euklidisen etäisyyden käsitteen.

Intialainen tilastotieteilijä Mahalanobis ehdotti vuonna 1936 [1] . Mahalanobiksen etäisyyttä käyttämällä voidaan määrittää tuntemattoman ja tunnetun näytteen samankaltaisuus . Se eroaa euklidisesta etäisyydestä siinä, että se ottaa huomioon muuttujien väliset korrelaatiot ja on mittakaavainvariantti.

Määritelmä

Muodollisesti Mahalanobiksen etäisyys moniulotteisesta vektorista joukkoon, jossa on keskiarvo ja kovarianssimatriisi, määritellään seuraavasti [2] :

Mahalanobiksen etäisyys voidaan myös määritellä kahden satunnaisvektorin välisen eron mittana ja yhdestä todennäköisyysjakaumasta kovarianssimatriisin avulla  :

Jos kovarianssimatriisi on identiteettimatriisi, niin Mahalanobiksen etäisyys tulee yhtä suureksi kuin euklidinen etäisyys. Jos kovarianssimatriisi on diagonaalinen (mutta ei välttämättä yksikkö), tuloksena olevaa etäisyyden mittaa kutsutaan normalisoiduksi euklidiseksi etäisyydeksi :

Tässä on standardipoikkeama näytteestä .

Intuitiivinen selitys

Harkitse ongelmaa sen todennäköisyyden määrittämisessä, että jokin piste N-ulotteisessa euklidisessa avaruudessa kuuluu joukkoon, jonka antaa joukko pisteitä, jotka ehdottomasti kuuluvat tähän joukkoon. Etsi joukon massakeskipiste. Intuitiivisesti mitä lähempänä tietty piste on massakeskusta, sitä todennäköisemmin se kuuluu joukkoon.

Kannattaa kuitenkin myös pohtia alueen kokoa, jolle joukon pisteet ovat hajallaan, jotta voidaan ymmärtää, kuinka merkittävä etäisyys tietyn pisteen ja massakeskipisteen välillä on. Yksinkertaisin tapa on laskea asetuspisteiden standardipoikkeama massakeskipisteestä. Jos annetun pisteen ja massakeskipisteen välinen etäisyys on pienempi kuin standardipoikkeama, voidaan päätellä, että pisteen todennäköisyys joukkoon kuuluu on suuri. Mitä kauempana piste on, sitä todennäköisemmin se ei ole joukossa.

Tämä intuitiivinen lähestymistapa voidaan määritellä matemaattisesti tietyn pisteen ja joukon välisen etäisyyden avulla kaavan avulla . Korvaamalla tämän arvon normaalijakaumaan , voit selvittää todennäköisyyden, että piste kuuluu joukkoon.

Tämän lähestymistavan haittana on se, että joukon pisteet ovat pallomaisesti jakautuneet massakeskipisteen ympärille (eli tasaisesti kaikissa ulottuvuuksissa). Jos jakauma ei selvästikään ole pallomainen (esimerkiksi ellipsoidi), niin jäsentodennäköisyydessä olisi luonnollista ottaa huomioon paitsi etäisyys massakeskipisteeseen, myös suunta siihen. Ellipsoidin lyhyen akselin suunnassa pisteen tulee olla lähempänä massakeskusta kuuluakseen joukkoon, kun taas pitkän akselin suunnassa se voi olla kauempana.

Tämän kirjoittamiseksi matemaattisesti ellipsoidi, joka parhaiten edustaa joukon todennäköisyysjakaumaa, voidaan antaa joukon kovarianssimatriisilla. Mahalanobis-etäisyys on yksinkertaisesti annetun pisteen ja massakeskipisteen välinen etäisyys jaettuna ellipsoidin leveydellä annetun pisteen suunnassa.

Sovellukset

Mahalanobiksen etäisyys muotoiltiin vuonna 1927 tehdyn kallon samankaltaisuuden tunnistamisen aikana mittausten perusteella [3] .

Mahalanobis - etäisyyttä käytetään laajasti klusterianalyysi - ja luokittelumenetelmissä . Se liittyy läheisesti Hotellingin T - neliöjakaumaan , jota käytetään monimuuttujassa tilastollisessa testauksessa, ja Fisherin lineaariseen erotteluanalyysiin, jota käytetään valvotussa koneoppimisessa [4] .  

Jotta voit käyttää Mahalanobiksen etäisyyttä ongelmassa sen määrittämiseksi, kuuluuko tietty piste johonkin N luokasta, sinun on löydettävä kaikkien luokkien kovarianssimatriisit. Tyypillisesti tämä tehdään kunkin luokan tunnettujen näytteiden perusteella. Sitten on tarpeen laskea Mahalanobiksen etäisyys annetusta pisteestä jokaiseen luokkaan ja valita luokka, jolle tämä etäisyys on minimaalinen. Probabilistisella tulkinnalla tämä voidaan osoittaa vastaavan luokan valintaa maksimitodennäköisyyden menetelmällä .

Myös Mahalanobiksen etäisyyttä käytetään poikkeamien etsimiseen esimerkiksi lineaarisen regression muodostamisongelmassa. Pisteellä, jolla on suurin Mahalanobis-etäisyys muuhun annettujen pisteiden joukkoon, katsotaan olevan suurin merkitys, koska sillä on suurin vaikutus kaarevuuteen ja regressioyhtälön kertoimiin. Lisäksi Mahalanobis-etäisyyttä käytetään monimuuttujien poikkeamien määrittämisessä ja aktiivisten muotomallien kanssa työskentelyssä .

Muistiinpanot

  1. Mahalanobis, Prasanta Chandra. Yleistetystä etäisyydestä tilastoissa  (neopr.)  // Proceedings of the National Institute of Sciences of India. - 1936. - V. 2 , nro 1 . - S. 49-55 . Arkistoitu alkuperäisestä 29. toukokuuta 2013.
  2. De Maesschalck, R.; D. Jouan-Rimbaud, D. L. Massart (2000) Mahalanobiksen etäisyys. Kemometria ja älykkäät laboratoriojärjestelmät 50:1–18
  3. Mahalanobis, PC (1927). Rasiseoksen analyysi Bengalissa. J. Proc. Aasialainen Soc. Bengalista. 23:301-333.
  4. McLachlan, Geoffry J (1992) Discriminant Analysis and Statistical Pattern Recognition. Wiley Interscience. ISBN 0471691151 s. 12