Samankaltaisuuskerroin (myös samankaltaisuusmitta, samankaltaisuusindeksi) on verrattujen objektien samankaltaisuuden dimensioimaton indikaattori. Tunnetaan myös nimellä assosiaatiomitta, samankaltaisuusmitta jne.
Sitä käytetään biologiassa biologisten kohteiden samankaltaisuuden asteen kvantifiointiin (paikat, alueet, yksittäiset fytosenoosit , zoocenoosit jne.). Käytetään myös maantieteessä, sosiologiassa, hahmontunnistuksessa , hakukoneissa , vertailevassa lingvistiikassa, bioinformatiikassa , kemoinformatiikassa , merkkijonojen vertailussa jne.
Laajemmassa merkityksessä he puhuvat läheisyysmittauksista, joihin kuuluvat: monimuotoisuusmitat, keskittymismitat (homogeenisuus), inkluusiomitat , samankaltaisuusmitat, eromitat (mukaan lukien etäisyydet), tapahtumien yhteensopivuusmitat, tapahtumien yhteensopimattomuus, keskinäisen riippuvuuden mittarit, keskinäisen riippumattomuuden mittarit. Läheisyysmittojen teoria on lapsenkengissään, ja siksi on olemassa monia erilaisia ajatuksia läheisyyssuhteiden formalisoinnista.
Useimmat kertoimet ovat normalisoituja ja vaihtelevat 0:sta (ei samankaltaisuutta) 1:een (täydellinen samankaltaisuus). Samankaltaisuus ja ero täydentävät toisiaan (matemaattisesti tämä voidaan ilmaista seuraavasti: Samankaltaisuus = 1 − Ero).
Samankaltaisuuskertoimet voidaan jakaa ehdollisesti kolmeen ryhmään riippuen siitä, kuinka monta kohdetta otetaan huomioon:
Biologisten kohteiden tutkimuksessa käytetään laajasti sekä yksittäisten piirteiden vaihtelua että satunnaismuuttujien jakautumistiheyttä koskevia mittareita. Yksinkertaisimmassa tapauksessa inventaarion (tutkitun biosysteemin sisällä) monimuotoisuus voidaan arvioida lajirikkaudella tai lajien lukumäärällä.
Yleisimmin käytetyt diversiteettimitat [1] ( variaatiokerroin , parametrisen Renyi-perheen indeksit , mukaan lukien Shannon-indeksi ; Hill-perheen indeksit; Margalefin, Gleasonin jne.). Harvemmin käytetään niitä täydentäviä keskittymismittauksia (esim. Kolmogorov -mittaperhe, Rosenbergin dissonanssimitta ).
Näitä kertoimia käytetään eniten biologiassa ja maantiedossa [2] . Ensimmäisen samankaltaisuuskertoimen ehdotti P. Jaccard vuonna 1901 [ 3 ] : ja 2. sivustot . Myöhemmin ehdotettiin erilaisia samankaltaisuuskertoimia (mitat, indeksit) eri tieteenaloilla. Eniten käytetty (nimitykset ovat samat):
Vaihtoehtoinen merkintä kontingenssitaulukolle tunnetaan R. R. Sokalilta ( Sokal ) ja P. Sneathilta ( Sneath ) [10] [11] :
Lajin esiintyminen ensimmäisessä paikassa | Näkyvyyden puute 1. sivustolla | |
Lajin esiintyminen 2. paikassa | a | b |
Näkyvyyden puute 2. sivustolla | c | d |
missä a on molemmilla paikoilla löydettyjen lajien lukumäärä; b on ensimmäiseltä näytteenottopaikalta löydettyjen lajien lukumäärä, mutta ottamatta huomioon yleisten lajien esiintymistä; c on toiselta näytteenottopaikalta löydettyjen lajien lukumäärä, mutta ottamatta huomioon yleisten lajien esiintymistä.
Tämä taulukko aiheuttaa paljon hämmennystä. Se sekoitetaan usein samankaltaiseen tilastolliseen ristitaulukkoon ; Sokal-Sneath-taulukon merkintätapa sekoitetaan klassiseen merkintätapaan (katso edellä); lähes aina jättää huomiotta se tosiasia, että taulukko ottaa huomioon vain todennäköisyydet.
Objektien ja niiden välisten suhteiden matemaattisen formalisoinnin prosessissa syntyi universaali joukkoteoreettinen merkintä samankaltaisuuskertoimille. Ensimmäistä kertaa tällainen levy esiintyy A. S. Konstantinovin [12] , M. Levandovskyn ja D. Winterin [13] teoksissa . Joten Jaccardin samankaltaisuuskerroin voidaan kirjoittaa seuraavasti:
Yksinkertaisin samankaltaisuuskerroin on absoluuttisen samankaltaisuuden mitta, joka on olennaisesti kahden vertailtavan kohteen yhteisten piirteiden lukumäärä: [14] . Kun tätä mittaa normalisoidaan, samankaltaisuusmitan arvot ovat välillä 0 ja 1 ja kerroin tunnetaan "prosenttisen samankaltaisuuden mittana" käytettäessä suhteellisia mittayksiköitä (prosentteina) ja leikkausmittana välilaskelmissa. suhteellisista samankaltaisuusmitoista (esimerkiksi se tunnetaan ulkomailla Renkosen mittana [15] ).
Vuonna 1973 B. I. Semkin ehdotti yleiskaavaa, joka perustuu Kolmogorovin keskiarvokaavaan , joka yhdistää useimmat tunnetuista samankaltaisuuskertoimista jatkuvaksi mittajatkoksi [16] [17] :
missä ; ; ; ; ; . Esimerkiksi yllä olevien kertoimien arvot ovat seuraavat: [1,-1] (Jaccard-kerroin); [0,-1] (Sorensen-kerroin); [0,1] (Kulchinsky-kerroin); [0,0] (Ochiai-kerroin); [0, ] (Shimkevich-Simpson-kerroin); [0, ] (Brown-Blanque-kerroin). Yleistävä kaava mahdollistaa ekvivalenttien ja ei-ekvivalenttien kertoimien luokkien määrittämisen [18] sekä estää uusien kaksoiskertoimien muodostumisen.
Erityinen samankaltaisuuskertoimien tyyppi ovat inkluusiomitat . Nämä ovat epäsymmetrisiä mittareita ( ja ), jotka osoittavat yhden objektin samankaltaisuuden (sisällytyksen) asteen suhteessa toiseen. Tutumpia (symmetrisiä) läheisyyskertoimia voidaan saada laskemalla kahden toisiaan täydentävän epäsymmetrisen inkluusiomitan keskiarvo, eli jokainen symmetrinen samankaltaisuusmitta vastaa kahta erityistä epäsymmetristä samankaltaisuusmittausta. Esimerkiksi Sørensen-suureen tämä on ja ), ja Jaccard-suureen tämä on ja . Yleensä kaksi epäsymmetristä inkluusiomittausta pystyvät paremmin arvioimaan objektien samankaltaisuuden kuin yksi keskiarvotettu symmetrinen samankaltaisuusmitta.
Kysymys esineiden vertaamisesta painoindikaattoreiden mukaan on kiistanalainen ja moniselitteinen. Ekologiassa nämä ovat indikaattoreita, jotka ottavat huomioon runsauden . Tällaisten tyyppien johdonmukaisimmat formalisaatiokaaviot ovat B. I. Semkinin deskriptiivisiin joukkoihin perustuva järjestelmä ja A. Chaon kaavio runsauspohjaisilla indekseillä (abundance-based indexe) [19] . Myös ulkomaisessa kirjallisuudessa on vakiintunut esiintyvyyteen (incidence-based index) perustuvien indeksien esittäminen eli indeksit Boolen datalle ominaisuuden olemassaolo/puute (presence / poissaolo) -tyyppisestä ominaisuudesta. Itse asiassa molempia voidaan kuvata kuvailevien joukkojen erikoistapauksiksi.
Satunnaisten tapahtumien (esimerkiksi tapahtuman ) ja informaatioindikaattoreiden vertailu on edelleen kiistanalainen. B. I. Semkinin läheisyyssuhteiden formalisointisuunnitelmassa ehdotetaan, että erotetaan useita analyyttisiä tulkintoja erilaisille läheisyyssuhteille: moninkertainen , kuvaava , todennäköisyys , informaatio . Muodollisesti samankaltaisuusmittauksiin kuuluminen määräytyy aksioomijärjestelmän avulla (tässä E on mielivaltainen joukko):
Aksioomajärjestelmiä samankaltaisuusmittauksille ehdottivat: A. Renyi [20] , Yu. A. Voronin [21] [22] , A. Tversky [23] , A. A. Vikentiev, G. S. Lbov [24] , G. V. Raushenbakh [25] , B. I. Semkin [26] [27] ja muut.
Yleensä joukko läheisyysmittauksia esitetään "objekti-objekti" -tyyppisten matriisien muodossa. Näitä ovat esimerkiksi samankaltaisuusmatriisit , etäisyysmatriisit (laajassa merkityksessä erot), yhteistodennäköisyyksien matriisit, informaatiofunktioiden matriisit. Suurin osa niistä voidaan rakentaa: absoluuttisten tai suhteellisten mittareiden perusteella, ja ne voivat puolestaan olla symmetrisiä tai epäsymmetrisiä (jälkimmäisiä kutsutaan usein inkluusiomittariksi).
Tällaisia kertoimia käytetään kohteiden sarjan vertaamiseen. Näitä ovat: Alekhinin keskimääräinen samankaltaisuus, Kochin bioottinen dispersioindeksi, Shennikovin sirontakerroin, Whittakerin beeta-diversiteettimitta , Mirkin- Rosenbergin homotonisuuden mitta ja sen heterotonisuuden kaksoismitta sekä Semkinin indeksi . Kuvaussarjan samankaltaisuuskerroin. Ulkomaisessa kirjallisuudessa tämän tyyppisiä mittareita löytyy nimillä: moniulotteiset kertoimet, n -ulotteiset kertoimet, usean paikan samankaltaisuusmitta, moniulotteinen kerroin, moniulotteinen yhteisömitta [28] [29] [30] . Tunnetuimman kertoimen ehdotti L. Koch [31] :
,jossa , eli kunkin objektin ominaisuuksien lukumäärän summa; , eli ominaisuuksien kokonaismäärä; — n joukon (objektin) joukko.
Läheisyysmitat lasketaan pääsääntöisesti ohjelman klusterianalyysimoduulissa . Yleisimmin käytetty on Statistica , mutta vastaavassa moduulissa ei esitetä samankaltaisuusmittoja ollenkaan, vain etäisyyksiä. SPSS (PASW Statistics) ehdottaa useiden samankaltaisuusmittojen laskemista (Ohai, Jacquard, Sokal-Sneath, Kulchinsky, symmetriset noppamitat). On olemassa valtava määrä pieniä ohjelmia läheisyysmittausten laskemiseen ja sitä seuraavaan riippuvuuksien graafiseen esitykseen [32] [33] . Samankaltaisuusmittauksia esitetään erittäin harvoin ja pääasiassa biologien erikoisohjelmissa [34] : Graphs, NTSYS, BIODIV, PAST, ja sielläkin niitä on erittäin vähän (yleensä vain Jaccard-mitta ja joskus Sørensen-mitta). Lisäksi voidaan mainita TurboVEG ja IBIS [35] , jotka perustuvat käsittelymoduuleilla varustettuun tietokantaan , ja IBIS-ohjelma toteuttaa eniten tällä hetkellä biologian, maantieteen ja muilla aloilla käytettyjä läheisyysmittauksia.