Samankaltaisuuskerroin

Samankaltaisuuskerroin (myös samankaltaisuusmitta, samankaltaisuusindeksi) on verrattujen objektien samankaltaisuuden dimensioimaton indikaattori. Tunnetaan myös nimellä assosiaatiomitta, samankaltaisuusmitta jne.

Sitä käytetään biologiassa biologisten kohteiden samankaltaisuuden asteen kvantifiointiin (paikat, alueet, yksittäiset fytosenoosit , zoocenoosit jne.). Käytetään myös maantieteessä, sosiologiassa, hahmontunnistuksessa , hakukoneissa , vertailevassa lingvistiikassa, bioinformatiikassa , kemoinformatiikassa , merkkijonojen vertailussa jne.

Laajemmassa merkityksessä he puhuvat läheisyysmittauksista, joihin kuuluvat: monimuotoisuusmitat, keskittymismitat (homogeenisuus), inkluusiomitat , samankaltaisuusmitat, eromitat (mukaan lukien etäisyydet), tapahtumien yhteensopivuusmitat, tapahtumien yhteensopimattomuus, keskinäisen riippuvuuden mittarit, keskinäisen riippumattomuuden mittarit. Läheisyysmittojen teoria on lapsenkengissään, ja siksi on olemassa monia erilaisia ajatuksia läheisyyssuhteiden formalisoinnista.

Useimmat kertoimet ovat normalisoituja ja vaihtelevat 0:sta (ei samankaltaisuutta) 1:een (täydellinen samankaltaisuus). Samankaltaisuus ja ero täydentävät toisiaan (matemaattisesti tämä voidaan ilmaista seuraavasti: Samankaltaisuus = 1 − Ero).

Samankaltaisuuskertoimet voidaan jakaa ehdollisesti kolmeen ryhmään riippuen siitä, kuinka monta kohdetta otetaan huomioon:

unary - yksi kohde otetaan huomioon. Tähän ryhmään kuuluvat monimuotoisuustoimenpiteet ja keskittymistoimenpiteet.
binääri - kaksi objektia otetaan huomioon. Tämä on tunnetuin kertoimien ryhmä.
n -ary (monipaikkainen) — n kohdetta otetaan huomioon. Tämä ryhmä on vähiten tunnettu.

Unaariset kertoimet

Biologisten kohteiden tutkimuksessa käytetään laajasti sekä yksittäisten piirteiden vaihtelua että satunnaismuuttujien jakautumistiheyttä koskevia mittareita. Yksinkertaisimmassa tapauksessa inventaarion (tutkitun biosysteemin sisällä) monimuotoisuus voidaan arvioida lajirikkaudella tai lajien lukumäärällä.

Yleisimmin käytetyt diversiteettimitat [1] ( variaatiokerroin , parametrisen Renyi-perheen indeksit , mukaan lukien Shannon-indeksi ; Hill-perheen indeksit; Margalefin, Gleasonin jne.). Harvemmin käytetään niitä täydentäviä keskittymismittauksia (esim. Kolmogorov -mittaperhe, Rosenbergin dissonanssimitta ).

Binaarikertoimet

Näitä kertoimia käytetään eniten biologiassa ja maantiedossa [2] . Ensimmäisen samankaltaisuuskertoimen ehdotti P. Jaccard vuonna 1901 [ 3 ] : ja 2. sivustot . Myöhemmin ehdotettiin erilaisia samankaltaisuuskertoimia (mitat, indeksit) eri tieteenaloilla. Eniten käytetty (nimitykset ovat samat): $K_{J}={\frac {c}{a+bc}}$

Sörensenin kerroin [ 4 ] : ; $K_S = \frac{2c}{a+b}$
Kulczinsky- kerroin [5] : ; $K_K =\frac{c}{2}\left ( \frac{1}{a}+\frac{1}{b} \right )$
kerroin Ochiai (Ochiai) [6] : ; $K_O =\frac{c}{\sqrt{ab))$
Shimkevich-Simpson-kerroin (Szymkiewicz [7] , Simpson ) [8] : ; $K_S =\frac{c}{min(a,b)}$
kerroin Brown-Blanquet ( Braun-Blanquet ) [9] : ; $K_B =\frac{c}{max(a,b)}$

Vaihtoehtoinen merkintä kontingenssitaulukolle tunnetaan R. R. Sokalilta ( Sokal ) ja P. Sneathilta ( Sneath ) [10] [11] : $2 kertaa 2$

	Lajin esiintyminen ensimmäisessä paikassa	Näkyvyyden puute 1. sivustolla
Lajin esiintyminen 2. paikassa	a	b
Näkyvyyden puute 2. sivustolla	c	d

missä a on molemmilla paikoilla löydettyjen lajien lukumäärä; b on ensimmäiseltä näytteenottopaikalta löydettyjen lajien lukumäärä, mutta ottamatta huomioon yleisten lajien esiintymistä; c on toiselta näytteenottopaikalta löydettyjen lajien lukumäärä, mutta ottamatta huomioon yleisten lajien esiintymistä.

Tämä taulukko aiheuttaa paljon hämmennystä. Se sekoitetaan usein samankaltaiseen tilastolliseen ristitaulukkoon ; Sokal-Sneath-taulukon merkintätapa sekoitetaan klassiseen merkintätapaan (katso edellä); lähes aina jättää huomiotta se tosiasia, että taulukko ottaa huomioon vain todennäköisyydet. Objektien ja niiden välisten suhteiden matemaattisen formalisoinnin prosessissa syntyi universaali joukkoteoreettinen merkintä samankaltaisuuskertoimille. Ensimmäistä kertaa tällainen levy esiintyy A. S. Konstantinovin [12] , M. Levandovskyn ja D. Winterin [13] teoksissa . Joten Jaccardin samankaltaisuuskerroin voidaan kirjoittaa seuraavasti: $2 kertaa 2$

K_J = \frac{n(A \cap B)}{n(A) + n(B) - n(A \cap B)}

tai .

K_J = \frac{n(A \cap B)}{n(A \cup B)}

Yksinkertaisin samankaltaisuuskerroin on absoluuttisen samankaltaisuuden mitta, joka on olennaisesti kahden vertailtavan kohteen yhteisten piirteiden lukumäärä: [14] . Kun tätä mittaa normalisoidaan, samankaltaisuusmitan arvot ovat välillä 0 ja 1 ja kerroin tunnetaan "prosenttisen samankaltaisuuden mittana" käytettäessä suhteellisia mittayksiköitä (prosentteina) ja leikkausmittana välilaskelmissa. suhteellisista samankaltaisuusmitoista (esimerkiksi se tunnetaan ulkomailla Renkosen mittana [15] ). $n(A\cap B)$

Vuonna 1973 B. I. Semkin ehdotti yleiskaavaa, joka perustuu Kolmogorovin keskiarvokaavaan , joka yhdistää useimmat tunnetuista samankaltaisuuskertoimista jatkuvaksi mittajatkoksi [16] [17] :

K_{\tau,\eta} (A,B) = \vasen ( \frac{K_\tau^\eta (A;B) + K_\tau^\eta (B;A)}{2} \oikea ) ^\frac{1}{\eta}

missä ; ; ; ; ; . Esimerkiksi yllä olevien kertoimien arvot ovat seuraavat: [1,-1] (Jaccard-kerroin); [0,-1] (Sorensen-kerroin); [0,1] (Kulchinsky-kerroin); [0,0] (Ochiai-kerroin); [0, ] (Shimkevich-Simpson-kerroin); [0, ] (Brown-Blanque-kerroin). Yleistävä kaava mahdollistaa ekvivalenttien ja ei-ekvivalenttien kertoimien luokkien määrittämisen [18] sekä estää uusien kaksoiskertoimien muodostumisen. $K_\tau, (A;B) = \frac{K_0 (A;B)}{1 + \tau - \tau K_0 (A;B)}$ $K_\tau, (B;A) = \frac{K_0 (B;A)}{1 + \tau - \tau K_0 (B;A)}$ $K_0 (A;B) = \frac{konv(A,B)}{S(B)}$ $K_0 (B;A) = \frac{konv(A,B)}{S(A)}$ $-1 < \tau < \mathcal {1}$ $- \mathcal {1}< \eta < + \mathcal {1}$ $[ \tau , \eta ]$ $+ \mathcal {1}$ $- \mathcal {1}$

Erityinen samankaltaisuuskertoimien tyyppi ovat inkluusiomitat . Nämä ovat epäsymmetrisiä mittareita ( ja ), jotka osoittavat yhden objektin samankaltaisuuden (sisällytyksen) asteen suhteessa toiseen. Tutumpia (symmetrisiä) läheisyyskertoimia voidaan saada laskemalla kahden toisiaan täydentävän epäsymmetrisen inkluusiomitan keskiarvo, eli jokainen symmetrinen samankaltaisuusmitta vastaa kahta erityistä epäsymmetristä samankaltaisuusmittausta. Esimerkiksi Sørensen-suureen tämä on ja ), ja Jaccard-suureen tämä on ja . Yleensä kaksi epäsymmetristä inkluusiomittausta pystyvät paremmin arvioimaan objektien samankaltaisuuden kuin yksi keskiarvotettu symmetrinen samankaltaisuusmitta. $K_\tau^\eta (A;B)$ $K_\tau^\eta (B;A)$ $K(A;B) = \frac{n(A \cap B)}{n(A)}$ $K(B;A) = \frac{n(A \cap B)}{n(B)}$ $K(A;B) = \frac{n(A \cap B)}{2n(A) - n(A \cap B)}$ $K(B;A) = \frac{n(A \cap B)}{2n(B) - n(A \cap B)}$

Kysymys esineiden vertaamisesta painoindikaattoreiden mukaan on kiistanalainen ja moniselitteinen. Ekologiassa nämä ovat indikaattoreita, jotka ottavat huomioon runsauden . Tällaisten tyyppien johdonmukaisimmat formalisaatiokaaviot ovat B. I. Semkinin deskriptiivisiin joukkoihin perustuva järjestelmä ja A. Chaon kaavio runsauspohjaisilla indekseillä (abundance-based indexe) [19] . Myös ulkomaisessa kirjallisuudessa on vakiintunut esiintyvyyteen (incidence-based index) perustuvien indeksien esittäminen eli indeksit Boolen datalle ominaisuuden olemassaolo/puute (presence / poissaolo) -tyyppisestä ominaisuudesta. Itse asiassa molempia voidaan kuvata kuvailevien joukkojen erikoistapauksiksi.

Satunnaisten tapahtumien (esimerkiksi tapahtuman ) ja informaatioindikaattoreiden vertailu on edelleen kiistanalainen. B. I. Semkinin läheisyyssuhteiden formalisointisuunnitelmassa ehdotetaan, että erotetaan useita analyyttisiä tulkintoja erilaisille läheisyyssuhteille: moninkertainen , kuvaava , todennäköisyys , informaatio . Muodollisesti samankaltaisuusmittauksiin kuuluminen määräytyy aksioomijärjestelmän avulla (tässä E on mielivaltainen joukko):

$K (A, B) \geqslant 0; \forall A, B \mathcal {2} E$ (ei-negatiivisuus);
$K(A, B) = K(B, A); \forall A, B \mathcal {2} E$ (symmetria);
$K (A, B) \geqslant K (A, A); \forall A, B \mathcal {2} E$ ("kokonaisuus on suurempi kuin osa");
$K(A, B) \leqslant K(A, A) + K(B, B); \forall A, B \mathcal {2} E$ (subditiivisuus).

Aksioomajärjestelmiä samankaltaisuusmittauksille ehdottivat: A. Renyi [20] , Yu. A. Voronin [21] [22] , A. Tversky [23] , A. A. Vikentiev, G. S. Lbov [24] , G. V. Raushenbakh [25] , B. I. Semkin [26] [27] ja muut.

Yleensä joukko läheisyysmittauksia esitetään "objekti-objekti" -tyyppisten matriisien muodossa. Näitä ovat esimerkiksi samankaltaisuusmatriisit , etäisyysmatriisit (laajassa merkityksessä erot), yhteistodennäköisyyksien matriisit, informaatiofunktioiden matriisit. Suurin osa niistä voidaan rakentaa: absoluuttisten tai suhteellisten mittareiden perusteella, ja ne voivat puolestaan olla symmetrisiä tai epäsymmetrisiä (jälkimmäisiä kutsutaan usein inkluusiomittariksi).

Monipaikkakertoimet

Tällaisia kertoimia käytetään kohteiden sarjan vertaamiseen. Näitä ovat: Alekhinin keskimääräinen samankaltaisuus, Kochin bioottinen dispersioindeksi, Shennikovin sirontakerroin, Whittakerin beeta-diversiteettimitta , Mirkin- Rosenbergin homotonisuuden mitta ja sen heterotonisuuden kaksoismitta sekä Semkinin indeksi . Kuvaussarjan samankaltaisuuskerroin. Ulkomaisessa kirjallisuudessa tämän tyyppisiä mittareita löytyy nimillä: moniulotteiset kertoimet, n -ulotteiset kertoimet, usean paikan samankaltaisuusmitta, moniulotteinen kerroin, moniulotteinen yhteisömitta [28] [29] [30] . Tunnetuimman kertoimen ehdotti L. Koch [31] :

K (X_1,..., X_n ) = \frac{T - S}{(n - 1) S}

jossa , eli kunkin objektin ominaisuuksien lukumäärän summa; , eli ominaisuuksien kokonaismäärä; — n joukon (objektin) joukko. $T = \summa^{n}_{i=1} {n (X_i)}$ $S = n (X_1 \kuppi ... \kuppi X_n)$ $X_1 , ..., X_n$

Mittausohjelmisto

Läheisyysmitat lasketaan pääsääntöisesti ohjelman klusterianalyysimoduulissa . Yleisimmin käytetty on Statistica , mutta vastaavassa moduulissa ei esitetä samankaltaisuusmittoja ollenkaan, vain etäisyyksiä. SPSS (PASW Statistics) ehdottaa useiden samankaltaisuusmittojen laskemista (Ohai, Jacquard, Sokal-Sneath, Kulchinsky, symmetriset noppamitat). On olemassa valtava määrä pieniä ohjelmia läheisyysmittausten laskemiseen ja sitä seuraavaan riippuvuuksien graafiseen esitykseen [32] [33] . Samankaltaisuusmittauksia esitetään erittäin harvoin ja pääasiassa biologien erikoisohjelmissa [34] : Graphs, NTSYS, BIODIV, PAST, ja sielläkin niitä on erittäin vähän (yleensä vain Jaccard-mitta ja joskus Sørensen-mitta). Lisäksi voidaan mainita TurboVEG ja IBIS [35] , jotka perustuvat käsittelymoduuleilla varustettuun tietokantaan , ja IBIS-ohjelma toteuttaa eniten tällä hetkellä biologian, maantieteen ja muilla aloilla käytettyjä läheisyysmittauksia.

Katso myös

Muistiinpanot

↑ Magurran A.E. Biologisen monimuotoisuuden mittaaminen. - Oxford, UK.: Blackwell Publishing, 2004. - 256 s.
↑ Pesenko Yu. A. Kvantitatiivisen analyysin periaatteet ja menetelmät faunistisessa tutkimuksessa Arkistokopio päivätty 20. joulukuuta 2014 Wayback Machinessa . - M.: Nauka, 1982. - 287 s.
↑ Jaccard P. Distribution de la flore alpine dans le Bassin des Dranses et dans quelques regions voisines // Bull. soc. Vaudoise sci. Natur. 1901. V. 37. Bd. 140. S. 241-272.
↑ Sörensen T. Menetelmä samanamplitudisten ryhmien muodostamiseksi kasvisosiologiassa lajisisällön samankaltaisuuden perusteella // Kongelige Danske Videnskabernes Selskab. Biol. krifteri. Bd V. nro 4. 1948. S. 1-34.
↑ Kulczinsky S. Zespoly roslin w Pienach // Bull. harjoittelija. akad. polon. sci. Lett. Cl. sci. matematiikka. luonto. Ser. B. 1927. S. 2. P. 57-203.
↑ Ochiai A. Zoogeografiset tutkimukset soleoidikaloista löysivät Japanin ja sen lähialueet. (linkki ei saatavilla) II // Bull. Jap. soc. sci. kalastaa. 1957. V. 22. Nro 9. S. 526-530. (Tiivistelmä englanniksi. Artikkelin pääteksti japaniksi.)
↑ Szymkiewicz D. Une Contribution Statistique a la géographie floristique // Acta Soc. Bot. Polon. 1934. T. 34. Nro 3. S. 249-265.
↑ Simpson GG Holarktiset nisäkäsfaunat ja mantereiden välinen suhde Cenozoic-kaudella // Bull. geol. sci. Amerikka. 1947. V. 58. P. 613-688.
↑ Braun-Blanquet J. Pflanzensoziologie Grundzüge der Vegetationsskunde. - Berliini: Verlaq von Julius springer, 1928. - 330 s.
↑ Sokal RR , Sneath PHA Numeerisen taksonomian periaatteet Arkistoitu 5. maaliskuuta 2016 Wayback Machinessa . - San Francisco: Lontoo: Freeman, 1963. - 359 s.
↑ Sneath PHA, Sokal RR Numeerinen taksonomia: Numeerisen luokituksen periaatteet ja käytännöt Arkistoitu 5. maaliskuuta 2016 Wayback Machinessa . - San-Francisco: Freeman, 1973. - 573 s.
↑ Konstantinov A.S. Joukkoteorian käyttö biogeografisessa ja ekologisessa analyysissä // Usp. moderni biol. 1969. T. 67. nro. 1. C 99-108.
↑ Levandowsky M., Winter D. Sarjojen välinen etäisyys Arkistoitu 5. maaliskuuta 2016 Wayback Machinessa // Nature. 1971. V.234. nro 5323. S. 34-35.
↑ Kovalevskaya V. B., Pogozhev I. B. , Pogozheva (Kusurgasheva) A. P. Kvantitatiiviset menetelmät monumenttien läheisyysasteen arvioimiseksi massamateriaalin prosenttiosuudella // Neuvostoliiton arkeologia. 1970. Nro 3. S. 26-39.
↑ Renkonen O. Statististisch-ökologische Untersuchungen über die terrestrische Käferwelt finischen Bruchmoore // Acta zool. soc. zool.-bot. fenn. Vanamo. 1938. V. 6. fasc. 1. S. 1-231.
↑ Semkin B. I. Kuvailevat joukot ja niiden sovellukset // Study of Systems. T. 1. Monimutkaisten järjestelmien analyysi. Vladivostok: DVNT:t AN SSSR, 1973, s. 83-94.
↑ Semkin B. I. Graafiteoreettiset menetelmät vertailevassa kukkakaupassa Arkistokopio 5.3.2016 Wayback Machinella // Kirjassa: Vertailevan kukkakaupan teoreettisia ja metodologisia ongelmia: Vertailevan kukkakaupan 2. työpajan materiaalit. - Neringa: 1983. - S. 149-163.
↑ Semkin B. I., Dvoychenkov V. I. Samankaltaisuuden ja eron mittareiden vastaavuudesta Arkistokopio päivätty 5. maaliskuuta 2016 Wayback Machinessa // Systems Research. T. 1. Monimutkaisten järjestelmien analyysi. Vladivostok: DVNTs AN SSSR, 1973, s. 95-104.
↑ Chao A, Chazdon RL, Colwell RK, Shen TJ. Runsauspohjaiset samankaltaisuusindeksit ja niiden arvio, kun näytteissä on näkymättömiä lajeja. Arkistoitu 4. syyskuuta 2012 Wayback Machinessa // Biometriikka. 2006. Nro 62. P.361-371.
↑ Rényi A. Riippuvuuden mittareista (linkki ei ole käytettävissä) // Acta Math. Acad. Scien. ripustettu. 1959.V.10. Nro 3-4. s. 441-451.
↑ Voronin Yu. A. Samankaltaisuuden ja yhteystoimenpiteiden käyttöönotto geologisten ja geofysikaalisten ongelmien ratkaisemiseksi // Dokl. Neuvostoliiton tiedeakatemia. 1971. V. 139. Nro 5. S. 64-70.
↑ Voronin Yu. A. Samankaltaisuusteorian alkua. - Novosibirsk: Tiede. Sib. Osasto, 1991. - 128 s.
↑ Tversky A. Samankaltaisuuden piirteet // Psykologinen katsaus. 1977. V.84. Nro 4. P. 327-352.
↑ Vikentiev A. A., Lbov G. S. Boolen lauseiden algebran mittaamisesta ja asiantuntijalausuntojen informatiivisuudesta // Dokl. AN. Informatiikka. 1998. V. 361. Nro 2. S. 174-176.
↑ Raushenbakh G.V. Läheisyyden ja samankaltaisuuden mittarit // Sosiologisen tutkimuksen ei-numeerisen tiedon analyysi. M.: Nauka, 1985. S. 169-203.
↑ Semkin B. I., Gorshkov M. V. Kahden muuttujan symmetristen funktioiden aksioomajärjestelmä ja biologisen monimuotoisuuden komponenttien samankaltaisuuden, eron, yhteensopivuuden ja riippuvuuden suhdetta mittaavat mitat Arkistokopio 16. joulukuuta 2018 Wayback Machinessa // Vestnik TSEU . 2008. Nro 4. S. 31-46.
↑ Semkin B. I., Gorshkov M. V. Biologisen monimuotoisuuden komponenttien samankaltaisuuden, eron, yhteensopivuuden ja riippuvuuden mittareiden aksiomaattinen käyttöönotto moniulotteisessa tapauksessa // Bulletin of KrasGAU . 2009. Nro 12. S. 18-24.
↑ Chao A., Hwang WH , Chen YC , Kuo CY Arvioimalla yhteisten lajien määrää kahdessa yhteisössä Sinica. 2000. nro 10. s. 227-246.
↑ Baselga A., Jiménez-Valverde A., Niccolini G. Rikkaudesta riippumaton usean sivuston samankaltaisuusmittari Arkistoitu 5. maaliskuuta 2016 Wayback Machinessa // Biol. Lett. 2007. nro 3. s. 642-645.
↑ Diserud OH, Ødegaard F. Usean kohteen samankaltaisuusmitta (linkki ei ole käytettävissä) // Biol. Lett. 2007. Nro 3. S. 20-22.
↑ Koch LF Biotaalihajoavuuden indeksi // Ekologia. 1957. V. 38. Nro 1. S. 145-148.
↑ http://www.biometrica.tomsk.ru/list/other.htm Arkistoitu 16. tammikuuta 2012 Wayback Machine Internet Statistical Resourcesissa
↑ http://evolution.genetics.washington.edu Arkistoitu 18. huhtikuuta 2022 Wayback Machine Programs for Phylogenetic Calculation -sovelluksessa Washingtonin yliopiston Internet-portaalissa
↑ Novakovsky A. B. Katsaus geobotaanisten tietojen analysointiin käytettyihin ohjelmistotyökaluihin // Vegetation of Russia. 2006. Nro 9. S. 86-95.
↑ Zverev A. A. Kasvillisuuden tietotekniikat kattavat tutkimuksen. - Tomsk: TML-Press, 2007. -304 s.