Tiedon entropia on tietyn järjestelmän epävarmuuden mitta ( tilastofysiikassa tai informaatioteoriassa ), erityisesti ensisijaisen aakkoston minkä tahansa merkin esiintymisen arvaamattomuudesta . Jälkimmäisessä tapauksessa informaatiohäviön puuttuessa entropia on numeerisesti yhtä suuri kuin informaation määrä lähetetyn viestin symbolia kohti.
Esimerkiksi venäjänkielisen lauseen muodostavassa kirjainsarjassa eri kirjaimet esiintyvät eri taajuuksilla , joten joidenkin kirjainten esiintymisen epävarmuus on pienempi kuin toisten. Jos otamme huomioon, että jotkut kirjainyhdistelmät (tässä tapauksessa ne puhuvat -: nnen kertaluvun entropiasta, katso alla ) ovat erittäin harvinaisia, niin epävarmuus pienenee entisestään.
Tiedon binäärinen entropia lasketaan Hartley-kaavalla , jos informaatiota ei menetetä :
,
missä on aakkosten teho, on viestin kunkin symbolin tiedon määrä. Satunnaismuuttujalle , joka ottaa riippumattomia satunnaisarvoja todennäköisyyksien kanssa ( ), Hartleyn kaava muuttuu Shannonin kaavaksi:
Tätä määrää kutsutaan myös keskimääräiseksi viestientropiaksi . Suureksi kutsutaan osittaista entropiaa , joka luonnehtii vain -e-tilaa.
Siten järjestelmän entropia on tilan (tapahtuman) kaikkien suhteellisten esiintymistiheysten vastakkaisen etumerkin omaava summa luvulla , kerrottuna niiden binäärilogaritmeilla [1] . Tämä diskreettien satunnaistapahtumien määritelmä voidaan muodollisesti laajentaa todennäköisyystiheysjakauman antamiin jatkuviin jakaumiin , mutta tuloksena olevalla funktionaalisella funktiolla on kuitenkin hieman erilaiset ominaisuudet (katso differentiaalinen entropia ).
Yleensä logaritmin kanta entropian määritelmässä voi olla mikä tahansa suurempi kuin 1 (koska vain yhdestä merkistä koostuva aakkoset eivät voi välittää tietoa); logaritmin kantakohdan valinta määrää entropian yksikön. Binäärilukujärjestelmään perustuvissa tietojärjestelmissä tiedon entropian (itse asiassa informaation) mittayksikkö on hieman . Matemaattisten tilastojen ongelmissa voi olla kätevämpää käyttää luonnollista logaritmia , jolloin tiedon entropian yksikkö on nat .
Claude Shannon ehdotti, että tiedon voitto on yhtä suuri kuin menetetty epävarmuus, ja asetti vaatimukset sen mittaamiselle:
Siksi entropiafunktion on täytettävä ehdot
Shannon osoitti [2] , että ainoa funktio, joka täyttää nämä vaatimukset, on
missä on positiivinen vakio (ja sitä tarvitaan todella vain entropiayksikön valitsemiseen; tämän vakion muuttaminen vastaa logaritmin kantakohdan vaihtamista).
Shannon päätti, että tietolähteeseen sovellettu entropian mittaus ( ) voi määrittää vähimmäiskaistanleveysvaatimukset, jotka vaaditaan tiedon luotettavaan siirtoon koodattujen binäärilukujen muodossa. Shannonin kaavan johtamiseksi on tarpeen laskea kuvan sisältämän "informaation määrän" matemaattinen odotus tietolähteestä. Shannonin entropiamitta ilmaisee satunnaismuuttujan toteutumisen epävarmuutta. Siten entropia on ero viestin sisältämän tiedon ja sen informaation osan välillä, joka on tarkasti tiedossa (tai erittäin ennustettavissa) viestissä. Esimerkki tästä on kielen redundanssi - kirjainten, peräkkäisten kirjainten parien, kolmosten jne. ulkonäössä on selvät tilastolliset kuviot (katso Markovin ketjut ).
Shannonin entropian määritelmä liittyy termodynaamisen entropian käsitteeseen . Boltzmann ja Gibbs tekivät paljon työtä tilastollisen termodynamiikan parissa, mikä vaikutti sanan "entropia" hyväksymiseen informaatioteoriassa. Termodynaamisen ja informaatioentropian välillä on yhteys. Esimerkiksi Maxwellin demoni vastustaa myös tiedon termodynaamista entropiaa, ja minkä tahansa informaatiomäärän saaminen on yhtä kuin menetetty entropia.
On myös mahdollista määrittää satunnaismuuttujan entropia ottamalla ensin käyttöön käsite sellaisen satunnaismuuttujan jakaumasta, jolla on äärellinen määrä arvoja: [3]
ja omat tiedot :
Sitten entropia määritellään seuraavasti:
Tiedon määrän ja entropian mittayksikkö riippuu logaritmin kannasta: bit , nat , trit tai hartley .
Entropia on tietolähteen todennäköisyysmallin yhteydessä määritetty suure . Esimerkiksi kolikon heitolla on entropia:
Lähteessä, joka generoi merkkijonon, joka koostuu vain kirjaimista "A", entropia on nolla: , ja mahdollisten tilojen lukumäärä on: mahdollinen tila (arvo) ("A") eikä se riipu merkkijonon kannasta. logaritmi. Tämä on myös tieto, joka on myös otettava huomioon. Esimerkki muistilaitteista, jotka käyttävät bittejä, joiden entropia on nolla, mutta joiden informaatiomäärä on yhtä suuri kuin yksi mahdollinen tila eli ei nolla, ovat ROM :iin tallennetut databitit , joissa jokaisella bitillä on vain yksi mahdollinen valtio .
Joten esimerkiksi empiirisesti voidaan todeta, että englanninkielisen tekstin entropia on 1,5 bittiä per merkki, mikä vaihtelee eri teksteillä. Tietolähteen entropiaaste tarkoittaa keskimääräistä bittien lukumäärää dataelementtiä kohden, joka tarvitaan niiden (datan) salaukseen ilman tiedon menetystä, optimaalisella koodauksella.
Aakkosten todennäköisyysjakauma voi olla kaukana yhtenäisestä . Jos alkuperäinen aakkosto sisältää merkkejä, sitä voidaan verrata "optimoituun aakkoseen", jonka todennäköisyysjakauma on tasainen. Alkuperäisen ja optimoidun aakkoston entropian suhde on alkuperäisen aakkoston tehokkuus , joka voidaan ilmaista prosentteina. Alkuperäisen symbolisen aakkoston tehokkuutta voidaan myös määritellä sen -ary-entropiaksi.
Entropia rajoittaa suurinta mahdollista häviötöntä (tai lähes häviötöntä) pakkausta, joka voidaan toteuttaa käyttämällä teoreettisesti tyypillistä joukkoa tai käytännössä Huffman -koodausta , Lempel-Ziv-Welch- koodausta tai aritmeettista koodausta .
Yleensä lähteen b - ary entropia (jossa b on 2, 3, …), jolla on alkuaakkosto ja diskreetti todennäköisyysjakauma, jossa on todennäköisyys ( ) saadaan seuraavasti:
Erityisesti, kun , saamme tavallisen binäärientropian, mitattuna bitteinä . Kohdalla , saamme triteinä mitatun entropian (yhdessä tritissä on tietolähde, jossa on kolme yhtäläistä todennäköistä tilaa). Kun saamme tietoa mitattuna nats .
Jos aakkosten kirjainjärjestys ei ole itsenäinen (esim. ranskaksi kirjainta "q" seuraa melkein aina "u" ja sanan "peredovik" jälkeen Neuvostoliiton sanomalehdissä sana "tuotanto" tai "työvoimaa" seurattiin yleensä), tällaisten symbolien sekvenssin kantaman tiedon määrä (ja siten entropia) on pienempi. Ehdollista entropiaa käytetään selvittämään tällaisia tosiasioita.
Ensimmäisen kertaluvun ehdollinen entropia (samanlainen kuin ensimmäisen kertaluvun Markovin malli ) on aakkosten entropia, jossa tunnetaan todennäköisyydet kirjainten esiintymiselle toisensa jälkeen (eli kahden kirjaimen yhdistelmien todennäköisyydet) :
missä on tila, joka riippuu edellisestä merkistä, ja on todennäköisyys , joka on annettu edellinen merkki.
Esimerkiksi venäjän kielelle ilman kirjainta "e" [4] .
Yksityisten ja yleisten ehdollisten entropioiden kannalta informaatiohäviöt kuvataan täydellisesti tiedonsiirron aikana kohinaisessa kanavassa. Tätä varten käytetään niin kutsuttuja kanavamatriiseja . Lähdepuolen häviön kuvaamiseksi (eli lähetetty signaali tunnetaan) harkitse ehdollista todennäköisyyttä vastaanottaa symboli , jos symboli on lähetetty . Tässä tapauksessa kanavamatriisilla on seuraava muoto:
… | … | |||||
---|---|---|---|---|---|---|
… | … | |||||
… | … | |||||
… | … | … | … | … | … | … |
… | … | |||||
… | … | … | … | … | … | … |
… | … |
Diagonaalia pitkin sijaitsevat todennäköisyydet kuvaavat oikean vastaanoton todennäköisyyttä, ja minkä tahansa rivin kaikkien elementtien summa antaa 1. Häviöt lähetettyä signaalia kohti on kuvattu osittaisen ehdollisen entropian avulla:
Kaikkien signaalien lähetyshäviön laskemiseen käytetään ehdollista kokonaisentropiaa:
tarkoittaa entropiaa lähteen puolelta, entropiaa vastaanottajan puolelta katsotaan samalla tavalla: sen sijaan se ilmoitetaan kaikkialla (yhteenveto merkkijonon alkioista saat , ja diagonaalin elementit tarkoittavat todennäköisyyttä, että täsmälleen merkki lähetettiin, eli oikean lähetyksen todennäköisyys).
Keskinäinen entropia tai liittoentropia on suunniteltu laskemaan toisiinsa yhdistettyjen järjestelmien entropia (tilastollisesti riippuvaisten viestien yhteisen esiintymisen entropia) ja sitä merkitään , missä kuvaa lähettimen ja - vastaanottimen.
Lähetettyjen ja vastaanotettujen signaalien suhdetta kuvaavat yhteiset tapahtumatodennäköisyydet , ja tarvitaan vain yksi matriisi kuvaamaan täydellisesti kanavan ominaisuuksia:
… | … | ||||
… | … | ||||
… | … | … | … | … | … |
… | … | ||||
… | … | … | … | … | … |
… | … |
Yleisemmässä tapauksessa, kun ei ole kuvattu kanavaa, vaan vuorovaikutuksessa olevia järjestelmiä kokonaisuutena, matriisin ei tarvitse olla neliö. Numerolla varustetun sarakkeen kaikkien alkioiden summa antaa , numeron sisältävän rivin summa on ja matriisin kaikkien elementtien summa on . Tapahtumien yhteinen todennäköisyys ja lasketaan tulona alku- ja ehdollinen todennäköisyys:
Ehdolliset todennäköisyydet tuotetaan Bayesin kaavalla . Siten on kaikki tiedot lähteen ja vastaanottimen entropioiden laskemiseksi:
Keskinäinen entropia lasketaan kaikkien matriisitodennäköisyyksien peräkkäisten rivien (tai sarakkeen) summalla kerrottuna niiden logaritmilla:
Mittayksikkö on bitti / kaksi merkkiä, tämä johtuu siitä, että keskinäinen entropia kuvaa epävarmuutta merkkiparille: lähetetty ja vastaanotettu. Yksinkertaisilla muunnoksilla saamme myös
Keskinäisellä entropialla on tiedon täydellisyyden ominaisuus - siitä voidaan saada kaikki harkitut suureet.
Vuonna 1948 tutkiessaan rationaalisen tiedonsiirron ongelmaa meluisan viestintäkanavan kautta Claude Shannon ehdotti vallankumouksellista todennäköisyyspohjaista lähestymistapaa viestinnän ymmärtämiseen ja loi ensimmäisen todella matemaattisen entropiateorian . Hänen sensaatiomaiset ideansa toimivat nopeasti perustana kahden pääalueen kehittämiselle: tietoteorialle , joka käyttää todennäköisyys- ja ergodisten teorian käsitettä tieto- ja viestintäjärjestelmien tilastollisten ominaisuuksien tutkimiseen, sekä koodausteoria , joka käyttää pääasiassa algebrallisia ja geometrisia työkaluja. kehittää tehokkaita koodeja.
Entropian käsitteen satunnaisuuden mittana esitteli Shannon artikkelissaan " A Mathematical Theory of Communication " , joka julkaistiin kahdessa osassa Bell System Technical Journal -lehdessä vuonna 1948.
![]() | ||||
---|---|---|---|---|
|