Bragmanin ero

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 20. marraskuuta 2021 tarkistetusta versiosta . tarkastukset vaativat 2 muokkausta .

Bragman- divergentti tai Bragman-etäisyys onkahden pisteen välisen etäisyyden mitta , joka määritellään tiukasti kuperalla funktiolla . Ne muodostavat tärkeän eroavaisuuksien luokan . Jos pisteet tulkitaan todennäköisyysjakaumaksi , joko parametrisen mallin arvoiksi tai havaittujen arvojen joukoksi, niin tuloksena oleva etäisyys on tilastollinen etäisyys . Kaikkein alkeellisin Bragman-divergentti on neliöity Euklidinen etäisyys .

Bragman-divergentit ovat samanlaisia ​​kuin metriikka , mutta ne eivät täytä kolmion epäyhtälöä tai symmetriaa (yleisessä tapauksessa), mutta ne täyttävät yleistetyn Pythagoraan lauseen . Tietogeometriassa vastaava tilastollinen monisto tulkitaan litteäksi monistoksi [ (tai duaaliksi). Tämä mahdollistaa useiden optimointitekniikoiden yleistämisen Bragman-divergentiksi, joka vastaa geometrisesti pienimmän neliösumman menetelmän yleistystä .

Bragman-ero on nimetty Lev Meerovich Bragmanin mukaan, joka ehdotti konseptia vuonna 1967.

Määritelmä

Olkoon jatkuvasti differentioituva tiukasti kupera funktio , joka on määritelty suljetussa kuperassa joukossa .

Pistefunktioon F liittyvä Bragman-etäisyys on ero funktion F arvon pisteessä p ja funktion F ensimmäisen kertaluvun Taylor-laajennuksen arvon välillä pisteessä q , laskettuna pisteessä p :

Ominaisuudet

Tässä ja ovat p:tä ja q:ta vastaavat kaksoispisteet.

Esimerkkejä

muodostuu negatiivisesta entropiafunktiosta yleistetty konveksilla funktiolla

Projektiivisen kaksinaisuuden yleistäminen

Laskennallisen geometrian keskeinen työkalu on idea projektiivisestä kaksinaisuudesta , joka kartoittaa pisteet hypertasoon ja päinvastoin säilyttäen silti esiintymis- ja ylä-/alasuhteet. Projektiivista kaksinaisuutta on monenlaista - tavallinen muoto kartoittaa pisteen hypertasoon . Tämä kartoitus voidaan ymmärtää (jos tunnistamme hypertason normaalin kanssa) kuperaksi konjugaattikuvaukseksi, joka vie pisteen p kaksoispisteeseen , jossa F määrittelee d - ulotteisen paraboloidin .

Jos nyt korvaamme paraboloidin millä tahansa konveksilla funktiolla, saadaan toinen kaksoiskartoitus, joka säilyttää standardin projektiivisen kaksinaisuuden esiintymisen ja ylä-/ala-ominaisuudet. Tästä seuraa, että laskennallisen geometrian luonnolliset kaksoiskäsitteet, kuten Voronoi-kaavio ja Delaunayn kolmiot, säilyttävät arvonsa avaruudessa, jonka etäisyys määrittää mielivaltaisen Bragman-divergenssin. "Normaalin" geometrian algoritmit ulottuvat luonnollisesti näihin tiloihin [4] .

Yleistykset Bragmanin erosta

Bragman-poikkeamat voidaan tulkita rajoittaviksi tapauksiksi Jensenin vino-eroja [5] (katso Nielsenin ja Bolzin artikkeli [6] ). Jensenin erot voidaan yleistää käyttämällä vertailevaa konveksiteettia, ja näiden vinojen Jensen-poikkeamien rajatapausten yleistäminen johtaa yleistettyihin Bragman-divergensseihin (ks. Nielsenin ja Nockin artikkeli [7] ). Bragmanin [8] sointuhajotus saadaan ottamalla tangentin sijaan sointu.

Bragmanin ero muihin objekteihin

Bragman-divergentti voidaan määritellä matriiseille, funktioille ja mitoille (jakaumille). Matriisien Bragman-divergentti sisältää Steinin häviöfunktion [9] ja Neumannin entropian . Bragman-divergensseja funktioille ovat kokonaisneliövirhe, suhteellinen entropia ja neliöbias (katso Frigik et al . [3] alla määritelmät ja ominaisuudet). Samoin Bragman-divergentti määritellään joukoille myös alimodulaarisen joukkofunktion [ avulla, joka tunnetaan konveksin funktion diskreettianalogina . Submodulaarinen Bragman-divergentti sisältää joukon erillisiä mittareita, kuten Hamming-etäisyys , tarkkuus ja palautus , keskinäinen informaatio ja joitain muita etäisyysmittoja joukoissa (katso Ayer ja Bilmes [10] submodulaarisen Bragman-divergenssin yksityiskohtia ja ominaisuuksia varten).

Luettelo yleisistä Bragman-matriisin eroista löytyy Nockin, Magdalowin, Brycen, Nielsenin artikkelin taulukosta 15.1 [11] .

Sovellukset

Koneoppimisessa Bragman-divergenttiä käytetään muunnetun logistisen virhefunktion laskemiseen, joka toimii paremmin kuin softmax meluisassa datassa [12] .

Muistiinpanot

  1. Bauschke, Borwein, 2001 .
  2. Banerjee, Merugu, Dhillon, Ghosh, 2005 .
  3. 1 2 Frigyik, Srivastava, Gupta, 2008 .
  4. Boissonnat, Nielsen, Nock, 2010 .
  5. ↑ Nimi Jensen-Shannon Divergence on juurtunut venäjänkieliseen kirjallisuuteen , vaikka Jensen on tanskalainen ja se pitäisi lukea tanskaksi, ei englanniksi. Wikipediassa on artikkeli Jensenistä .
  6. Nielsen, Boltz, 2011 .
  7. Nielsen, Nock, 2017 .
  8. Nielsen, Frank & Nock, Richard (2018), The Bregman chord divergence, arΧiv : 1810.09113 [cs.LG]. 
  9. Termi Steinin menetys, katso https://www.jstor.org/stable/2241373?seq=1 Arkistoitu 17. marraskuuta 2020 Wayback Machinessa
  10. Iyer, Bilmes, 2012 .
  11. Nock, Magdalou, Briys, Nielsen, 2012 , s. 373-402.
  12. Amid, Warmuth, Anil, Koren, 2019 , s. 14987-14996.

Kirjallisuus