Lähentymismittojen matriisi

Konvergenssimittojen matriisi  on matriisi , joka sisältää objektien samankaltaisuusmitat elementteinä. Matriisi heijastaa objektien parittaista samankaltaisuutta. Samankaltaisuus on järjestysasteikolla mitattu indikaattori, ja siksi on mahdollista määritellä vain muotoisia suhteita: " suurempi kuin", "pienempi kuin" tai "saa".

Absoluuttisten konvergenssimittojen matriisi

Datamatriisin perusteella on helppo laskea absoluuttisten konvergenssimittojen matriisi, joka esimerkiksi äärellisille ja kuvaaville joukoille vastaa koon risteysmatriisia . Todennäköisyyksien osalta tämän matriisin analogia kutsutaan yhteistodennäköisyyksien matriisiksi , ja informaatiotulkinnassa se on informaatiofunktioiden matriisi . Matriisi on symmetrinen diagonaalin suhteen [1] :


Tämän tyyppinen matriisi on tutkimuksen pääasiallinen "asiakirja" (ensisijaisen datamatriisin jälkeen), koska leikkausmatriisi sisältää tietoa kunkin kohteen piirteiden määrästä (diagonaalissa) ja kullekin yhteisten piirteiden lukumäärästä. verrattujen objektien pari (vastaavan sarakkeen ja rivin leikkauspisteessä). Tämän matriisin etuna on, että tämän matriisin tietojen mukaan on mahdollista laskea muun tyyppisiä matriiseja (inkluusio-, samankaltaisuus-, transitiivinen sulkemismatriisi jne.), eli toteuttaa toistettavuusperiaate. . Leikkausmatriisin elementit määritetään kaavalla (tunnetaan prosentuaalisen samankaltaisuuden mittana):

,

missä  ovat ensisijaisen datamatriisin elementit. Jos matriisin alkiot normalisoidaan, saadaan konvergenssimittareiden suhteellinen matriisi, joka on erittäin helppo laskea (verrattuna muihin konvergenssimatriiseihin).

Suhteellisten epäsymmetristen konvergenssimittojen matriisi

Tämä matriisi ei ole symmetrinen diagonaalin suhteen. Se tunnetaan yleisesti inkluusiomatriisina Se voidaan saada kahdella tavalla: määrittää kaksi epäsymmetristä samankaltaisuusmittausta kullekin kohdeparille tai saada matriisi absoluuttisten konvergenssimittojen matriisista. Toisessa vaihtoehdossa on tarpeen jakaa leikkausmatriisin jokaisen rivin elementit tätä riviä vastaavalla diagonaalielementillä:


Epäselvyyden ratkaisemiseksi on tarpeen osoittaa yhden objektin sisällyttämissuunta toiseen. Yleensä osoitetaan nuolella ja sisällyttäminen määritetään vasemmalta oikealle. Tästä matriisista voidaan saada suunnattuja inkluusio-samankaltaisuuskaavioita tietyllä läheisyyskynnyksellä. Tässä matriisissa näkyvät selvästi objektien väliset suhteet, joissa ominaisuuksien määrä vaihtelee suuresti (erikokoiset objektit). Erityisesti tulee huomioida, että epäsymmetriset mittaukset ovat yleensä informatiivisempia ja erityisesti erikokoisille kohteille piirteiden lukumäärän suhteen, kuin symmetriset mittaukset, koska jälkimmäiset ovat itse asiassa keskimääräisiä indikaattoreita ja siksi menettävät osan tiedoista. objekteista, ja epäsymmetriset suuret (inkluusiot ) arvioivat riittävästi ei-transitiivisia suhteita, jotka ovat luonnossa yleisempiä. Esimerkiksi ensimmäinen kohde saattaa sisältyä 100 % toiseen kohteeseen ja toinen luettelo vain 10 %. Samanaikaisesti symmetrinen mitta ei pysty heijastamaan näitä suhteita riittävästi, koska esimerkiksi 10 yhteistä piirrettä on merkitsevä yhdelle 10 ominaispiirteelle, mutta ei niin merkitsevä suurelle objektille, jossa on 100 ominaisuutta. Sorensenin samankaltaisuuden mitta tässä tapauksessa on noin 20%.

Suhteellisten symmetristen konvergenssimittojen matriisi

Tunnetaan yleisemmin samankaltaisuusmatriisina [2] . Tämä matriisi on symmetrinen diagonaaliin nähden. Se voidaan saada myös kahdella tavalla: määrittää symmetrinen samankaltaisuusmitta kullekin kohdeparille tai laskea se epäsymmetristen konvergenssimittojen matriisista. Toinen tapa on symmetrisoida inkluusiomatriisi laskemalla kahden epäsymmetrisen suuren keskiarvo, ja se edellyttää mittausten johdonmukaisuutta samassa ekvivalenssiluokassa. Yleisesti ottaen matriisi näyttää tältä:


Diagonaalisesti ne ovat 1, koska kohteen samankaltaisuus itsensä kanssa on suurin. Se on informatiivisin kohteille, jotka ovat olennaisesti samankokoisia, eli objekteille, joiden piirteiden määrä ei eroa merkittävästi. Graafisesti samankaltaisuussuhteet ilmaistaan ​​yleensä graafisen klusterointialgoritmien avulla . Käsitteellisesti matriisi on kaksoisetäisyysmatriisin kanssa ja vastaavasti etäisyysmatriisissa on nollia diagonaalia pitkin.

Muistiinpanot

  1. Semkin B. I., Kulikova L. S. Menetelmät hyönteislajien luettelon matemaattiseen analyysiin luonnollisissa ja kulttuurisissa biokenoosissa. Vladivostok: TIG DVNTs AN SSSR, 1981. 73 s.
  2. Duran B., Odell P. Klusterianalyysi. — M.: Tilastot, 1977. — 128 s.