Paikallinen päästötaso

Paikallinen poikkeava taso on poikkeamien havaitsemisen algoritmi, jota Markus M. Breunig, Hans-Peter Kriegel, Raymond T. Ng ja Jörg Sander ehdottivat vuonna 2000 poikkeavien datapisteiden löytämiseksi mittaamalla tietyn pisteen paikallinen poikkeama sen naapureiden perusteella. [1] .

Paikallinen outlier-taso jakaa käsitteet DBSCANin ja OPTICSin kanssa , kuten käsitteet "perusetäisyys" ja "saavutettava etäisyys" [ 2] , joita käytetään paikallisen tiheyden arvioinnissa [3] .

Perusidea

Paikallinen outlier-taso perustuu paikallistiheyden käsitteeseen, jossa paikallisuuden antavat lähimmät naapurit, joiden etäisyyksiä käytetään tiheyden arvioinnissa. Vertaamalla kohteen paikallista tiheyttä sen naapureiden paikalliseen tiheyteen, on mahdollista tunnistaa alueita, joilla on samanlainen tiheys, ja pisteitä, joiden tiheys on huomattavasti pienempi kuin sen naapureiden. Näitä kohtia pidetään poikkeavina .

Paikallinen tiheys arvioidaan tyypillisellä etäisyydellä, joka pisteeseen voidaan "päästää" viereisistä pisteistä. Algoritmissa käytetty "saavutettavan etäisyyden" määritelmä on lisätoimenpide, jolla saadaan luotettavampia tuloksia klustereissa.

Muodollinen kuvaus

Olkoon etäisyys esineestä k -nneksi lähimpään naapuriin. Huomaa, että k lähimmän naapurin joukko sisältää kaikki objektit tällä etäisyydellä ja "solmun" tapauksessa voi sisältää enemmän kuin k kohdetta. Merkitään k lähimpien naapurien joukkoa .

Tätä etäisyyttä käytetään saavutettavan etäisyyden määrittämiseen ( eng.  reachability-distance ):

Toisin sanoen kohteen tavoitettavissa oleva etäisyys on kahden kohteen todellinen etäisyys. Ominaisuudet, jotka kuuluvat pisteen k lähimpään naapuriin (pisteen "ydinpisteet" , katso DBSCAN ), katsotaan olevan samalla etäisyydellä vakaampien tulosten saamiseksi. Huomaa, että tämä etäisyys ei ole etäisyys matemaattisessa mielessä, koska se ei ole symmetrinen. (Yleinen virhe on soveltaa aina, joten tämä antaa hieman erilaisen menetelmän, jota kutsutaan yksinkertaistetuksi paikalliseksi outlier-menetelmäksi [4] )

Objektin paikallinen saavutettavuustiheys määritellään seuraavasti

,

joka on kohteen keskimääräisen saavutettavuusetäisyyden käänteisluku sen naapureista. Huomaa, että tämä ei ole naapureiden keskimääräinen saavutettavuusetäisyys pisteestä (jonka määritelmän mukaan pitäisi olla ), vaan etäisyys, jolla A voidaan "tavoita" naapureistaan . Kaksoispisteillä tästä arvosta voi tulla ääretön.

Paikallisia saavutettavuustiheyksiä verrataan sitten naapureiden paikallisiin saavutettavuustiheyksiin

joka on naapureiden keskimääräinen paikallinen saavutettavuustiheys jaettuna itse kohteen paikallisella saavutettavuustiheydellä. Arvo, joka on suunnilleen yhtä suuri kuin , tarkoittaa, että kohde on verrattavissa naapureihinsa (ja silloin se ei ole poikkeava). Arvo pienempi kuin tarkoittaa tiheää aluetta (joka voi olla sisäosa), kun taas arvot, jotka ovat huomattavasti suuremmat kuin , osoittavat poikkeavia arvoja.

Edut

Lähestymistavan paikallisuudesta johtuen paikallinen poikkeava tason algoritmi pystyy havaitsemaan tietojoukosta poikkeavia, jotka eivät välttämättä ole poikkeavia tietojoukon muilla alueilla. Esimerkiksi piste, joka on "pienellä" etäisyydellä mistä tahansa tiheästä klusterista, on poikkeava, kun taas harvassa klusterissa olevalla pisteellä voi olla samanlaiset etäisyydet naapureihinsa.

Algoritmin geometrinen intuitio koskee vain pieniulotteisia vektoriavaruuksia, mutta algoritmia voidaan soveltaa missä tahansa kontekstissa, jossa voidaan määritellä erilaisuusfunktio. On kokeellisesti osoitettu, että algoritmi toimii hyvin useissa tilanteissa, usein kilpailijoita paremmin, esimerkiksi tunkeutumisen havaitsemisjärjestelmissä [5] ja käsitellyissä luokitustiedoissa [6] .

Paikallisten outlier-tason menetelmien perhe voidaan helposti yleistää ja sitten soveltaa useisiin muihin ongelmiin, kuten poikkeamien havaitsemiseen maantieteellisissä tiedoissa, videovirroissa tai luottoverkoissa [4] .

Haitat ja laajennukset

Tuloksena olevia arvoja on vaikea tulkita. Arvo 1 tai jopa pienempi kuin yksi tarkoittaa, että piste on puhtaasti sisäinen, mutta ei ole selvää sääntöä siitä, että piste on poikkeava. Yhdessä tietojoukossa arvo 1,1 voi jo tarkoittaa poikkeavaa arvoa, toisessa aineistossa ja parametroinnissa (joissa on voimakkaita paikallisia vaihteluita) arvo 2 voi silti tarkoittaa sisäistä. Nämä erot voivat esiintyä saman tietojoukon sisällä menetelmän sijainnin vuoksi. On olemassa menetelmälaajennuksia, jotka yrittävät parantaa algoritmia:

Muistiinpanot

  1. Breunig, Kriegel, Ng, Sander, 2000 , s. 93–104.
  2. Kirjallisuudessa "saavutettavan etäisyyden" sijasta löytyy myös nimi "reach".
  3. Breunig, Kriegel, Ng, Sander, 1999 , s. 262.
  4. 1 2 3 Schubert, Zimek, Kriegel, 2012 .
  5. Lazarevic, Ozgur, Ertoz, Srivastava, Kumar, 2003 , s. 25–36.
  6. Campos, Zimek, Sander, Campello et al., 2016 .
  7. Lazarevic ja Kumar 2005 , s. 157-166.
  8. Zimek, Campello, Sander, 2014 , s. yksitoista.
  9. Kriegel, Kröger, Schubert, Zimek, 2009 , s. 1649-1652
  10. Kriegel, Kröger, Schubert, Zimek, 2011 , s. 13–24.
  11. Schubert, Wojdanowski, Zimek, Kriegel, 2012 , s. 1047–1058.

Kirjallisuus