Etäisyys ( divergence , divergence ) Kullback-Leibler ( englanniksi Kullback-Leibler divergence ), RKL , informaatioero , erottava informaatio , tiedon vahvistus , suhteellinen entropia ( englanniksi suhteellinen entropia ) [1] - ei-negatiivinen funktionaalinen , joka on epäsymmetrinen mitta etäisyys toisistaan kahden alkeistapahtumien yhteisessä avaruudessa määritellyn todennäköisyysjakauman [2] ystävä . Käytetään usein informaatioteoriassa jamatemaattiset tilastot .
Jakauman Kullback-Leibler-hajoaminen suhteessa (tai suhteellisesti sanottuna "etäisyyteen kohteeseen ") on merkitty . Funktionaalin ensimmäinen argumentti (jakauma ) tulkitaan yleensä tosi tai a priori oletettu jakaumaan , toinen (jakauma ) oletukseksi (varmennettavaksi). Jakauma toimii usein jakauman approksimaationa . Funktionaalin arvo voidaan ymmärtää huomiotta jätetyn jakaumainformaation määränä, jos sitä käytettiin approksimoimaan . Tämä etäisyyden mitta informaatioteoriassa tulkitaan myös tiedon menetyksen määräksi, kun todellinen jakauma korvataan jakaumalla .
Yleisessä tapauksessa, jos jokin mitta , jolle on olemassa funktioita , on ehdottoman jatkuva suhteessa ja , niin Kullback-Leibler-hajoaminen jakauman suhteen määritetään seuraavasti:
.Tämän kaavan logaritmin kantalla ei ole merkittävää roolia. Sen valinta mahdollistaa tietyn tyyppisen funktion kiinnittämisen vastaavien funktionaalisten funktioiden perheestä ja se vastaa Kullback-Leibler-eron mittayksikön valintaa (samanlainen kuin entropian laskennassa ), joten on mahdollista käyttää logaritmia minkä tahansa funktion kanssa. kanta suurempi kuin yksi. Toisin sanoen funktionaali määritellään positiiviseen vakiotekijään asti. Yleisimmät ovat luonnollinen logaritmi (mukavuussyistä) sekä binäärilogaritmi - bittien poikkeaman mittaamiseen (käytetään yleensä informaatioteoriassa ). Kullback-Leibler-divergentti on dimensioton suure , riippumatta alkuperäisten satunnaismuuttujien ulottuvuudesta .
Vaikka Kullback-Leibler-etäisyyttä (RKL) pidetään usein tapana mitata todennäköisyysjakaumien välistä etäisyyttä, tämä funktio ei ole metriikka jakaumien avaruudessa, koska se ei täytä kolmio-epäyhtälöä eikä täytä jakauman aksioomaa. symmetria: . Kuitenkin sen äärettömän pieni muoto, erityisesti sen Hessian , antaa metrisen tensorin , joka tunnetaan nimellä Fisher-tietometriikka .
Kullback-Leibler-etäisyys on erikoistapaus yleisemmästä poikkeavuusluokasta, jota kutsutaan f -eroista , sekä Bregman-erojen luokan erikoistapaus . RKL on ainoa todennäköisyyksien ero, joka kuuluu molempiin luokkiin.
RKL:n esittelivät alun perin Solomon Kullback ja Richard Leibler vuonna 1951 kahden jakauman suuntaisena erona. Tätä käsitellään Kullbackin tekstissä Information Theory and Statistics. [yksi]
Kullback-Leibler-etäisyys tulkitaan joskus myös informaatiovahvistukseksi, joka saavutetaan käytettäessä :n sijasta . Joskus RKL:n suhteelliselle entropialle (merkitty ) tai ristientropialle käytetään hämmentäviä nimiä .
Merkintöjen lukemisessa on erilaisia käytäntöjä . Usein kutsutaan yksinkertaisesti eroksi tai etäisyydeksi ja välillä , mutta tämä ei kerro suhteen perustavanlaatuista epäsymmetriaa. Joskus he sanovat "poikkeama (suhteessa) " tai suhteellisesti sanottuna "etäisyys kohteeseen " (yleensä suhteellisen entropian tai tiedonsaannin yhteydessä). Tässä tapauksessa jakauma tulkitaan tosi.
Diskreeteille todennäköisyysjakaumille ja useille perustapahtumille jakauman Kullback -Leibler-hajoaminen suhteessa jakaumaan (tai "etäisyys kohteeseen ") määritellään [3] seuraavasti:
.Toisin sanoen se on todennäköisyyksien ja logaritmisen eron keskiarvo , jossa keskiarvo on otettu jakaumasta . RKL määritellään vain jos , kaikille ( absoluuttinen jatkuvuus ). Aina kun , -th termin panos tulkitaan nollaksi, koska .
-ulotteisille ehdottoman jatkuville jakaumille ja Kullback -Leibler-etäisyys saadaan lausekkeella [4]
,missä ja ovat jakauman tiheysfunktiot ja , vastaavasti, määritetty välissä .
Yleisemmin sanottuna, jos ja ovat todennäköisyysmittauksia joukossa ja ovat ehdottoman jatkuvia suhteessa , niin RKL alkaen - määritellään seuraavasti:
,missä on Radon-Nikodym-johdannainen suhteessa , ja edellyttäen, että oikealla oleva lauseke on olemassa. Vastaavasti tämä voidaan kirjoittaa näin
.On huomattava, että Radon-Nikodim-johdannaisen käyttö toimii muodollisena keinona näiden ilmaisujen kirjoittamiseen, mutta ei paljasta niiden merkityksellistä merkitystä.
Kullback-Leibler-hajautusfunktio on dimensioton, mutta sen arvoilla voi olla eri yksiköitä. Eli jos logaritmit näissä kaavoissa otetaan kannassa 2, niin divergentti (se on myös tietoa, informaatioteorian näkökulmasta) mitataan bitteinä ; jos perustuu e :ään (luonnollisella pohjalla), niin ero (informaatio) mitataan nats . Useimmat RKL:n sisältävät kaavat säilyttävät merkityksensä logaritmin kantasta riippumatta.
Arthur Hobson osoitti, että Kullback-Leibler-etäisyys on ainoa todennäköisyysjakaumien välisen eron mitta, joka tyydyttää joitain toivottuja ominaisuuksia, jotka ovat kanonisia laajennuksia niille, jotka esiintyvät yleisesti käytetyissä entropian karakterisoinnissa . [5] Siksi keskinäinen informaatio on ainoa keskinäisen riippuvuuden mitta, joka on tiettyjen liittyvien ehtojen alainen, koska se voidaan määritellä RCL:n avulla .
Kullback-Leibler-etäisyydelle on myös Bayesin luonnehdinta. [6]
Informaatioteoriassa Kraft-McMillan-lause sanoo, että mitä tahansa suoraan dekoodattavaa koodausmenetelmää viestin koodaamiseksi yksittäisen arvon tunnistamiseksi , voidaan nähdä edustavan implisiittistä todennäköisyysjakaumaa , jossa on koodin pituus bitteinä. Siksi RCL voidaan tulkita lähetettäväksi odotetuksi ylimääräiseksi sanoman pituudeksi nollamerkistä, jos käytetään koodia, joka on optimaalinen tietylle (virheelliselle) Q:n jakaumalle, verrattuna P:n todelliseen jakaumaan perustuvaan koodiin. .
, missä on P:n ja Q:n ristientropia, on P : n entropia .
Huomaa myös, että suurten poikkeamien teoriassa RKL: n ja " nopeusfunktion" välillä on yhteys . [7] [8]
,
missä ja . Huolimatta siitä, että muutos oli jatkuvaa, tämä ei ole tarpeen tässä tapauksessa. Tämä osoittaa myös, että RKL määrittelee arvon , joka on yhdenmukainen dimension kanssa , koska jos x on dimensiomuuttuja, niin myös P(x):llä ja Q(x):llä on ulottuvuus, koska se on dimensioton suure. Logaritmin alla oleva lauseke pysyy kuitenkin dimensioimattomana, kuten sen kuuluukin. Siksi Kullback-Leibler-etäisyyttä voidaan pitää tietyssä mielessä perustavanlaatuisempana suureena kuin eräät muut informaatioteorian ominaisuudet [9] (kuten itseinformaatio tai Shannon-entropia ), joka voi muuttua määrittelemättömäksi tai negatiiviseksi ei-epäsuoralle. diskreetit todennäköisyydet.
Oletetaan, että meillä on kaksi monimuuttujaa normaalijakaumaa , joissa on keskiarvo ja (käännettävä) kovarianssimatriisi . Jos kahdella jakaumalla on sama ulottuvuus k, niin jakaumien välinen RCL on seuraava [10] :
Viimeisen termin logaritmi on otettava kantaan e, koska kaikki paitsi viimeinen termi ovat luonnollisia logaritmeja lausekkeista, jotka ovat joko mitä tahansa tiheysfunktion tekijöitä tai muuten esiintyvät luonnossa. Siksi yhtälö antaa tuloksen mitattuna nats . Jakamalla tämä lauseke kokonaan log e 2:lla, saadaan jakauma bitteinä.
RCL:ää voitaisiin kutsua " metriikaksi " todennäköisyysjakaumien avaruudessa, mutta tämä olisi väärin, koska se ei ole symmetrinen eikä täytä kolmio-epäyhtälöä . Silti alustavana metriikkana se luo topologian todennäköisyysjakaumien avaruuteen . Tarkemmin sanottuna, jos on jakaumien sarja sellainen, että , niin sanomme, että . Pinskerin epäyhtälöstä seuraa, että — , jossa jälkimmäistä tarvitaan variaatioiden konvergenssiin .
Alfred Renyin (1970, 1961) mukaan . [11] [12]
Kullback-Leibler-etäisyys liittyy kuitenkin suoraan metriikkaan, nimittäin Fisherin tietometriikkaan . Oletetaan, että meillä on todennäköisyysjakaumat P ja Q, jotka molemmat on parametroitu samalla (mahdollisesti monimuuttujalla) parametrilla . Harkitse nyt kahta läheistä arvoa ja siten, että parametri eroaa vain pienen luvun parametrista . Laajentuessamme Taylor-sarjassa ensimmäiseen järjestykseen asti meillä on (käyttäen Einsteinin sopimusta )
,
jossa on pieni muutos j:nnessä suunnassa ja on vastaava muutosnopeus todennäköisyysjakaumassa. Koska RCL:llä on absoluuttinen minimi, joka on yhtä suuri kuin 0 kohdassa P=Q, eli RCL:llä on toinen kertaluokka pienuuden parametrien suhteen . Muodollisesti, kuten minkä tahansa minimin kohdalla, divergenssin ensimmäinen derivaatta katoaa
ja Taylor-laajennus alkaa toisesta pienuudesta
,
jossa Hessenin täytyy olla ei-negatiivinen. Jos sen sallitaan vaihdella (ja jätetään pois aliindeksi 0), Hessian määrittelee (mahdollisesti rappeutuneen) Riemannin metriikan parametriavaruudessa , jota kutsutaan Fisherin tietometriikaksi.
Monet muut informaatioteorian suureet voidaan tulkita soveltavan Kullback-Leibler-etäisyyttä yksittäisiin tapauksiin.
Ominaisuusarvo on Kronecker-symbolin todennäköisyysjakauman RCL , joka edustaa varmuutta siitä, että - eli ylimääräisten bittien lukumäärää, jotka on lähetettävä, jotta voidaan määrittää , onko vastaanottimen käytettävissä vain todennäköisyysjakauma , ei sitä tosiasiaa, että .
on RCL kahden marginaalitodennäköisyysjakauman tulosta yhteisestä todennäköisyysjakaumasta – eli odotetulla ylimääräisten bittien määrällä, jotka on lähetettävä määrittämään, ja jos ne koodataan käyttämällä vain marginaalijakaumaa yhteisjakauman sijaan. Vastaavasti, jos yhteistodennäköisyys tunnetaan, se on odotettu määrä ylimääräisiä bittejä, jotka pitäisi lähettää keskimäärin, jotta voidaan määrittää, onko arvo jo tiedossa vastaanottimelle.
on bittien määrä, joka on lähetettävä tunnistaakseen yhtä todennäköisistä tuloksista, tämä on pienempi kuin todellisen jakauman tasainen jakautuma RCL - eli pienempi kuin odotettu tallennettujen bittien määrä, joka on lähetettävä, jos arvo on koodattu tasaiseen jakaumaan eikä todelliseen jakaumaan .
on bittien määrä, joka on lähetettävä tunnistamaan yhtä todennäköisistä tuloksista, tämä on pienempi kuin todellisen yhteisjakauman jakaumien tulon RCL - eli pienempi kuin odotettu tallennettujen bittien määrä, joka on lähetettävä, jos arvo on koodattu tasaisen jakauman mukaan, ei ehdollisen datajakauman ja .
Kahden todennäköisyysjakauman välinen ristientropia mittaa keskimääräistä bittien määrää, joka tarvitaan tapahtuman tunnistamiseen mahdollisten tapahtumien joukosta, jos käytetään tiettyyn todennäköisyysjakaumaan perustuvaa koodausjärjestelmää "todellisen" jakauman sijaan . Kahden jakauman ja saman todennäköisyysavaruuden poikkientropia määritellään seuraavasti:
Bayesilaisessa tilastossa Kullback -Leibler-etäisyyttä voidaan käyttää tiedon vahvistuksen mittana, kun siirrytään apriorista todennäköisyysjakaumaan. Jos jokin uusi tosiasia löydetään , sitä voidaan käyttää (a priori) todennäköisyysjakauman muuntamiseen uudeksi (posterioriseksi) todennäköisyysjakaumaksi käyttämällä Bayesin lausetta :
Tällä jakaumalla on uusi entropia
joka voi olla pienempi tai suurempi kuin alkuperäinen entropia . Uuden todennäköisyysjakauman osalta voidaan kuitenkin arvioida, että alkuperäisen koodin käyttäminen uuden koodin sijaan lisäisi odotetun bittimäärän viestin pituuteen. Tämä on siis se määrä hyödyllistä tietoa tai tiedon voittoa koskien , joka saatiin toteamalla, että .
Jos myöhemmin saapuu toinen tieto, , x:n todennäköisyysjakaumaa voidaan päivittää edelleen, jotta saadaan uusi paras arvaus , . Jos tarkastelemme uudelleen käytettävää informaatiohyötyä , eikä , käy ilmi, että se voi olla enemmän tai vähemmän kuin aiemmin luultiin: , voi olla tai , kuin , ja siksi informaation kokonaishyöty ei täytä kolmion epäyhtälöä:
, voi olla suurempi kuin, pienempi tai yhtä suuri kuin
Voidaan vain sanoa, että keskimäärin, kun otetaan keskiarvo käyttäen , molemmat osapuolet antavat keskiarvon.
Yleinen tavoite kokeellisessa Bayes-mallissa on maksimoida odotettu RCL pre- ja posterior-jakaumien välillä. [13] Kun posteriori approksimoidaan Gaussin jakaumaan, mallia, joka maksimoi odotetun RCL:n, kutsutaan Bayesin d-optimaaliksi .
Kullback-Leibler-etäisyys voidaan tulkita myös odotetuksi erottavaksi informaatioksi yli : keskimääräinen tieto näytettä kohti erolle hypoteesin hyväksi, hypoteesia vastaan, kun hypoteesi on totta [14] . Toinen Irving John Goodin antama nimi tälle suurelle on kustakin näytteestä odotettu ylimääräinen todistusmassa .
Odotettu todistuspaino ylityksestä ei ole sama kuin esimerkiksi hypoteesin todennäköisyysjakauman p(H) odotettu informaatiohyöty .
Kumpaa tahansa näistä kahdesta suureesta voidaan käyttää hyödyllisyysfunktiona Bayesin kokeellisessa muodossa optimaalisen seuraavan kysymyksen valitsemiseksi tutkittavaksi, mutta yleensä ne johtavat pikemminkin erilaisiin kokeellisiin strategioihin.
Tiedon vahvistuksen entropia-asteikolla on hyvin vähän eroa lähes varmuuden ja täyden varmuuden välillä – lähes varmuuden koodaus ei todennäköisesti vaadi enempää bittejä kuin täyden varmuuden koodaus. Toisaalta todisteiden paino on implisiittinen logit - asteikolla, ja ero näiden kahden välillä on valtava, lähes ääretön. Tämä saattaa heijastaa eroa sen välillä, että ollaan melkein varmoja (todennäköisyystasolla), esimerkiksi siitä, että Riemannin hypoteesi on totta, ja sen välillä, että on täysin varma, että se on totta, koska on olemassa matemaattinen todiste. Kaksi erilaista epävarmuusasteikkoa ovat hyödyllisiä sen mukaan, kuinka hyvin kumpikin heijastaa ongelmassa tarkasteltavan ongelman erityisolosuhteita.
Ajatus RKL:stä syrjivänä tiedona sai Kullbackin ehdottamaan vähimmäissyrjintätiedon periaatetta (MDI ) : uudet tosiasiat huomioon ottaen on valittava uusi jakelu niistä, joita on vaikea erottaa alkuperäisestä jakelusta ; koska uusi data tuottaa mahdollisimman vähän tietoa .
Esimerkiksi, jos meillä on aikaisempi jakauma yli ja , ja sitten tutkia todellista jakaumaa ja . RCL uuden yhteisjakelun ja , , ja vanhan aikaisemman jakelun välillä olisi:
eli päivitetyn jakauman aikaisemman jakauman RKL:n summa plus edellisen ehdollisen jakauman RKL:n odotusarvo (käytetty todennäköisyysjakauma ) uudesta jakaumasta . (Huomaa, että usein myöhempää odotettua arvoa kutsutaan ehdolliseksi RKL:ksi (tai ehdolliseksi suhteelliseksi entropiaksi) ja se merkitään [15] . Tämä minimoi jos kokonaissisällön yli . Ja huomaamme, että tämä tulos yhdistää Bayesin lauseen, jos uusi jakauma on todellakin funktio, joka edustaa luotettavasti , jolla on yksi tietty arvo.
Minimum Distinguishing Information voidaan nähdä Laplacen välinpitämättömyyden periaatteen (tunnetaan myös nimellä riittämättömän syyn periaate) ja Jaynesin maksimientropiaperiaatteen jatkeena . Erityisesti se on luonnollinen laajennus maksimientropiaperiaatteelle diskreetistä jatkuvaan jakaumaan, jolle Shannonin entropia ei ole kovin kätevää (katso differentiaalientropia ), mutta RCL on edelleen yhtä tärkeä.
Teknisessä kirjallisuudessa MDI:tä kutsutaan joskus minimiristientropiaperiaatteeksi . RCL : n minimointi suhteessa kohtaan vastaa ristientropian ja minimointia , joten mikä on sopivaa, jos yrittää valita tarkka likimääräinen arvo .
Olkoon, että jonkin satunnaismuuttujan jakaumasta otoksen perusteella on palautettava sen jakauman tiheys parametriperheen muodossa , jossa on funktion argumentti, on tuntematon parametri. Parametriestimaatti voidaan löytää ratkaisuna Kullback-Leibler-etäisyyden minimoimiseen tiheyden ja empiirisen jakautumistiheyden välillä, jota pidetään "tosi",
,missä on Dirac-funktio :
.On helppo nähdä, että tämän ongelman ratkaisu johtaa parametrin maksimitodennäköisyysarvioon . Jos satunnaismuuttujan todellinen jakautumistiheys ei kuulu perheeseen , löydettyä parametriestimaattia kutsutaan kvasi-todennäköisyydeksi ja se tarjoaa parhaan likiarvon näytteen edustamasta todellisesta jakaumasta kullback-Leibler-etäisyydellä mitattuna tiheydeltään. .