Hierarkkinen klusterointi (myös graafiklusterointialgoritmit ja hierarkkinen klusterianalyysi ) on joukko tietojen järjestysalgoritmeja, joiden tarkoituksena on luoda sisäkkäisten klustereiden hierarkia ( puu ). Hierarkkisia klusterointimenetelmiä on kaksi luokkaa:
Hierarkkiset klusterointialgoritmit olettavat, että analysoidulle objektijoukolle on ominaista tietty liitettävyys. Ominaisuuksien lukumäärän mukaan erotetaan joskus monoteettiset ja polyteettiset luokitusmenetelmät. Kuten useimmat visuaaliset tavat esittää riippuvuuksia, kaaviot menettävät nopeasti näkyvyyden klustereiden määrän kasvaessa. Graafeiden rakentamiseen on olemassa useita erikoisohjelmia .
Dendrogrammi ymmärretään yleensä puuksi , joka on rakennettu läheisyysmittausten matriisista. Dendrogrammin avulla voit kuvata tietyn joukon objektien välistä suhdetta [1] . Dendrogrammin luominen vaatii samankaltaisuus- (tai ero ) matriisin , joka määrittää samankaltaisuuden tason klusteriparien välillä. Agglomeratiivisia menetelmiä käytetään yleisemmin.
Samankaltaisuusmatriisin rakentamiseksi on tarpeen asettaa kahden klusterin välinen etäisyysmitta. Yleisimmin käytetyt menetelmät etäisyyden määrittämiseen ( englanninkieliset lajittelustrategiat ) [2] :
Kolmelle ensimmäiselle menetelmälle on olemassa yleinen kaava, jota A. N. Kolmogorov ehdotti samankaltaisuusmittauksille [5] :
jossa on kahden objektin (klustereiden) ryhmä ja ; — objekti (klusteri), jonka kanssa määritellyn ryhmän samankaltaisuutta etsitään; on klusterin elementtien lukumäärä ; on klusterin elementtien lukumäärä . Etäisyyksiä varten on samanlainen Lance-Williams-kaava [6] .
Käytetään laajasti geobotaniikassa ja kukkakaupassa . Niitä kutsutaan usein korrelaatiopleiadeiksi [7] [8] [9] [10] .
Erikoistapaus on menetelmä, joka tunnetaan nimellä optimaalisten puiden (dendriittien) konstruointimenetelmä , jonka ehdotti Lvivin koulukunnan matemaatikko Hugo Steinhaus [11] , myöhemmin menetelmän kehittivät Wroclawin taksonomisen koulukunnan matemaatikot [12] . Dendriitit eivät myöskään saa muodostaa syklejä. Voit käyttää osittain suunnattuja kaavioiden kaaria käyttämällä lisäinkluusiomittoja (epäsymmetrinen samankaltaisuusmitta).
Erotusmatriisin "diagonalisointi" ja klusterien graafinen esittäminen eromatriisin päädiagonaalia pitkin (Czekanowskin diagrammi) ehdotti ensimmäisen kerran Jan Czekanowski vuonna 1909 [13] . Tässä on kuvaus menetelmästä:
Tämän menetelmän ydin on siinä, että saatujen samankaltaisuusarvojen koko amplitudi jaetaan useisiin luokkiin, ja sitten samankaltaisuusarvojen matriisissa nämä arvot korvataan varjostuksella, joka on erilainen jokaisessa luokassa, ja yleensä tummempaa varjostusta käytetään korkeampiin samankaltaisuusluokkiin. Sitten muuttamalla kuvausten järjestystä taulukossa he varmistavat, että seuraavaksi tulee lisää samankaltaisia kuvauksia [14]
Annetaan hypoteettinen esimerkki yllä olevan kaavion saamisesta. Menetelmän perustana on transitiivisen sulkumatriisin rakentaminen [15] .
Transitiivisen sulkumatriisin rakentamiseksi otetaan yksinkertainen samankaltaisuusmatriisi ja kerrotaan se itsellään:
,missä on -: nnen rivin ja - :nnen sarakkeen leikkauskohdassa oleva elementti uudessa (toisessa) matriisissa, joka on saatu ensimmäisen iteraation jälkeen; on samankaltaisuusmatriisin rivien (sarakkeiden) kokonaismäärä. Tätä menettelyä on jatkettava, kunnes matriisista tulee idempotentti (eli itsensä samankaltainen): , jossa n on iteraatioiden lukumäärä.
Seuraavaksi muunnamme matriisin siten, että lähellä olevat numeeriset arvot ovat lähellä. Jos jokaiselle numeeriselle arvolle on määritetty väri tai värisävy (kuten meidän tapauksessamme), saamme klassisen Czekanowski-kaavion. Perinteisesti tummempi väri vastaa suurempaa samankaltaisuutta ja vaaleampi väri vastaa pienempiä. Tässä se on samanlainen kuin etäisyysmatriisin lämpökartta .
Koneoppiminen ja tiedon louhinta | |
---|---|
Tehtävät | |
Opettajan kanssa oppimista | |
ryhmäanalyysi | |
Mittasuhteiden vähentäminen | |
Rakenteellinen ennustaminen | |
Anomalian havaitseminen | |
Piirrä todennäköisyysmallit | |
Neuroverkot | |
Vahvistusoppiminen |
|
Teoria | |
Lehdet ja konferenssit |
|