Lähin naapuri -algoritmi ( k-NN) on metrinen algoritmi automaattista objektien luokittelua tai regressiota varten .
Käytettäessä luokittelumenetelmää kohde osoitetaan luokkaan, joka on yleisin tämän elementin naapureista, joiden luokat ovat jo tiedossa. Jos käytetään regressiomenetelmää , objektille määritetään sitä lähinnä olevien kohteiden keskiarvo, joiden arvot ovat jo tiedossa.
Algoritmia voidaan soveltaa näytteisiin, joissa on suuri määrä attribuutteja (moniulotteisia). Tätä varten sinun on määritettävä etäisyysfunktio ennen hakemista ; Klassinen versio tällaisesta funktiosta on euklidinen metriikka [1] [2] .
Eri attribuutilla voi olla eri alueet otoksessa esitettyjä arvoja (esimerkiksi attribuutti A on edustettuna alueella 0,1 - 0,5 ja attribuutti B on esitetty alueella 1000 - 5000), sitten etäisyysarvot voi olla erittäin riippuvainen attribuuteista, joilla on suurempi alue. Siksi tiedot yleensä normalisoidaan. Klusterianalyysissä datan normalisointiin on kaksi päätapaa: minimax-normalisointi ja Z-normalisointi.
Miniminormalisointi tehdään seuraavasti:
,tässä tapauksessa kaikki arvot ovat välillä 0 - 1; diskreetit binaariarvot määritellään 0:ksi ja 1:ksi.
Z-normalisointi:
missä on keskihajonta ; tässä tapauksessa suurin osa arvoista osuu alueelle .
Jotkut merkittävät attribuutit voivat olla tärkeämpiä kuin toiset, joten jokaiselle attribuutille voidaan määrittää tietty paino (esimerkiksi laskettu testinäytteen ja varianssivirheen optimoinnin avulla). Siten jokaiselle attribuutille annetaan paino , jotta attribuutin arvo osuu alueelle (normalisoiduille arvoille minimax-menetelmällä). Jos attribuutille on esimerkiksi määritetty painoarvo 2,7, sen normalisoitu painotettu arvo on alueella
Painotetulla menetelmällä ei huomioida vain tiettyjen alueelle kuuluneiden luokkien lukumäärää, vaan myös niiden etäisyyttä uudesta arvosta.
Jokaiselle luokalle määritetään läheisyyspisteet:
,missä on etäisyys uudesta arvosta kohteeseen .
Kummalla luokalla on korkeampi läheisyysarvo, se luokka määrätään uudelle objektille.
Menetelmän avulla voit laskea luokitellun kohteen yhden attribuutin arvon alueelle joutuneiden kohteiden etäisyyksien perusteella ja vastaavien objektien saman attribuutin arvojen perusteella:
,missä on alueelle pudonnut objekti, on annetun kohteen attribuutin arvo , on uusi objekti ja on uuden objektin -: s attribuutti.
Koneoppiminen ja tiedon louhinta | |
---|---|
Tehtävät | |
Opettajan kanssa oppimista | |
ryhmäanalyysi | |
Mittasuhteiden vähentäminen | |
Rakenteellinen ennustaminen | |
Anomalian havaitseminen | |
Piirrä todennäköisyysmallit | |
Neuroverkot | |
Vahvistusoppiminen |
|
Teoria | |
Lehdet ja konferenssit |
|