Semanttinen informaatio on tiedon semanttinen puoli, joka heijastaa viestin muodon ja sen semanttisen sisällön välistä suhdetta.
Claude Shannonin teoksista lähtien on yleisesti hyväksytty [1] , että tiedon käsite koostuu kolmesta aspektista: syntaktisesta , semanttisesta ja pragmaattisesta . Syntaktinen liittyy tiedon tallennuksen ja välittämisen teknisiin ongelmiin, semanttinen viestien totuuden merkitykseen ja merkitykseen, pragmaattinen käsittelee kysymyksiä tiedon vaikutuksesta ihmisten käyttäytymiseen. Semanttisen tiedon teoria tutkii ihmistiedon alaa ja on olennainen osa tekoälyn kehitystä [2] .
Semiotiikan ilmaantuminen 1800-luvulla loi edellytykset semanttisen tiedon käsitteen syntymiselle [3] . Se muotoutui lopulta Claude Shannonin vuonna 1948 luoman matemaattisen viestintäteorian ilmestymisen jälkeen [4] . Shannonin teoria, jota nykyään pidetään syntaktisen tiedon teoriana, jättää kokonaan huomiotta viestin merkityksen. Silloin havaittiin tarve luoda semanttisen tiedon teoria.
Vuonna 1952 Yehoshua Bar-Hillel ja Rudolf Carnap ehdottivat semanttisen tiedon teoriaa, joka perustuu loogisten todennäköisyyksien käsitteeseen [5] . Kirjoittajat tulkitsevat semanttisen tiedon synonyyminä semanttiselle sisällölle, joka on sekä tosi että väärä ilmaisu. Tarkastellaan kahta pääasiallista lauseen semanttisen tiedon määrän mittaa . Ensimmäinen määritellään näin:
,missä on lauseen absoluuttinen looginen todennäköisyys . Toinen mitta on ensimmäisen epälineaarinen funktio:
.Se on mielenkiintoinen siinä mielessä, että kahdelle loogisesti riippumattomalle lauseelle ja meillä on epäyhtälö: , missä " " on loogisen konnektiivin "AND" merkki, kun taas:
, (*)mikä sopii paremmin tiedon määrän mittaamiseen.
Lauseiden loogisten todennäköisyyksien arvojen määrittämiseksi Bar-Hillel ja Carnap rakentavat muodollisen kielen ja käyttävät sitä kuvauksen tekemiseen kaikista mahdollisista maailmankaikkeuden tiloista (niin sanottu " mahdollisten maailmojen joukko "). Otetaan esimerkki yksinkertaisesta kielestä, jossa on yksi vakio (millä tarkoitamme tyttö Alicea) ja kaksi predikaattia : ja , jotka merkitsevät ominaisuuksia "kaunis" ja "älykäs". Sitten ilmaus tarkoittaa lausetta "Liisa on kaunis" ja ilmaus tarkoittaa "Alice on älykäs". Nyt käytämme loogista konnektiivia "EI", jota merkitsemme symbolilla: " ". Sitten ilmaus tarkoittaa lausetta "Liisa ei ole kaunis" ja ilmaus - "Liisa ei ole älykäs." Voimme nyt laatia kaikki mahdolliset kuvaukset maailmankaikkeuden tiloista vaatimattomalle kielellemme. Niitä tulee yhteensä neljä.
Kuten voidaan nähdä, jokainen maailmankaikkeuden maailma koostuu loogisesti itsenäisistä atomilauseista (ja niiden negaatioista), joita kutsutaan peruslauseiksi. Yleensä muodolliset kielet käyttävät paljon vakioita ja paljon predikaatteja, eivätkä välttämättä yksittäisiä . Joten maailmojen määrä voi olla hyvin suuri.
Jos ennakkoehtoja ei anneta, niin kaikkien maailmojen loogiset todennäköisyydet ovat samat. Tässä tapauksessa lauseen absoluuttisen loogisen todennäköisyyden suuruus on yhtä suuri kuin niiden maailmojen lukumäärän suhde, joissa se on totta, universumin maailmojen kokonaismäärään. Bar-Hillelin ja Carnapin teoriassa analyyttisten lausekkeiden loogiset todennäköisyydet ovat samat ja yhtä suuret kuin yksi (koska ne ovat totta kaikissa maailmoissa), ja ristiriidan looginen todennäköisyys on nolla. Synteettisten lausekkeiden loogisten todennäköisyyksien arvot ovat välillä nollasta yhteen.
Mitä enemmän maailmoja on universumissa, sitä suurempi on epävarmuus (mikä maailma on tosi). Viestin vastaanottamisen jälkeen epävarmuus vähenee, koska ne maailmat, joissa se on väärä, voidaan jättää huomiotta. Semanttinen informaatio lauseessa ymmärretään joukoksi poissuljettuja maailmoja (se on merkitty symbolilla ). Tästä määritelmästä kirjoittajat kirjoittavat, että se on yhdenmukainen antiikin filosofisen periaatteen " omnis determinatio est negatio " (" jokainen määritelmä on poikkeus ") kanssa. Nyt mittaa varten voimme kirjoittaa:
,missä on joukon kardinaliteetti , on universumin kaikkien maailmojen joukon kardinaliteetti .
Semanttisen tiedon määrä viestissä , joka koskee vastaanottajan tietoa , määritellään seuraavasti:
,missä on lauseen totuuden suhteellinen (ehdollinen) looginen todennäköisyys sillä ehdolla, että lauseke on tosi .
On huomionarvoista, että puhtaasti ulkoisesti Bar-Hillelin ja Carnapin teorian kaavat ovat samanlaisia kuin Shannonin teoriassa. Sekä siellä että täällä meillä on logaritmit ja todennäköisyydet . Vain Shannonissa kaikki todennäköisyydet ovat tilastollisia (eli empiirisiä ), eivätkä loogisia.
Jos lausekkeen looginen todennäköisyys on pienempi kuin lausekkeen looginen todennäköisyys, viesti kuljettaa uutta tietoa vastaanottajalle, mikä rikastaa hänen tietämystään. Jos se tarkoittaa , niin se on ekvivalentti ja viesti ei kuljeta tietoa vastaanottajalle (koska siinä ei ole mitään uutta hänelle). Jos lauseke on ristiriita, niin . Semanttisen tiedon määrä ristiriidassa Bar-Hillelin ja Carnapin mukaan on yhtä suuri kuin ääretön . Luciano Floridi kritisoi myöhemmin tätä paradoksaalista tulosta.
Vaikka Bar-Hillelin ja Carnapin teoria nauttii edelleen tutkijoiden huomiosta, se aiheutti uusien ideoiden tulvan. Alexander Kharkevich ehdotti tiedon arvon mittaamista muuttamalla todennäköisyyttä saavuttaa tietty tavoite, joka tapahtuu tämän viestin vaikutuksesta [6] . Julius Schrader uskoi, että minkä tahansa luonteisen viestin semanttisen tiedon määrää voidaan arvioida vastaanottajan tietojärjestelmän muutoksen asteena viestin havainnoinnin seurauksena [7] . Ajatuksen tiedon ja entropian välisen suhteen semanttisesta näkökulmasta ehdotti ensimmäisen kerran vuonna 1966 Neuvostoliiton filosofi ja loogikko Jevgeni Kazimirovich Voishvillo teoksessaan " Yrittää semanttista tulkintaa tilastollisista tiedon ja entropian käsitteistä ".
Luciano Floridi hyökkää vuoden 2004 työssään Bar Hillelin ja Carnapin teoriaa vastaan ensimmäiseltä riviltä: " Kolmiolla on neljä puolta": klassisen semanttisen tiedon teorian mukaan tämä ristiriita sisältää enemmän semanttista sisältöä kuin ehdollisesti tosi väite " Maapallolla on vain yksi kuu " " [8] . Floridi kutsui tätä " Bar-Hillel-Carnap paradoksiksi ". Hän näkee ratkaisun tähän paradoksiin siinä, että viestien semanttisen informaation määrän ei tulisi riippua pelkästään niiden sisältämästä semanttisesta sisällöstä, vaan myös näiden viestien totuusarvosta. Floridi esitteli ehdollisesti väärän lauseen ( contingently false lause ) käsitteen, joka on konjunktio sen kahdesta osasta, joista toinen on tosi ja toinen on epätosi. Esimerkki tällaisesta lauseesta on lausunto: "Kuu pyörii Maan ympäri ja sen sisällä on ontto." Tällainen lause kantaa samanaikaisesti tietoa (niille, jotka eivät tiedä, että Kuu pyörii Maan ympäri) ja disinformaatiota (tavallisessa elämässä tätä kohtaa usein - disinformaatiota on helpompi edistää, jos sitä täydennetään jollain tiedolla).
Klassisen logiikan näkökulmasta ehdollisesti väärä lause on yksinkertaisesti väärä ja sisältää vain disinformaatiota. Yllä oleva esimerkki osoittaa kuitenkin, että näin ei todellisuudessa ole. Bar-Hillelin ja Carnapin alkuperäinen teoria ei ratkaise tätä antinomiaa . Siksi Floridi hylkäsi sen ("heikkona" teoriana) ja loi oman - "vahvan". Hän hylkäsi loogisten todennäköisyyksien käytön ja totesi, että semanttisen tiedon teoria ei saisi olla samanlainen kuin Shannonin [9] . Hänen omassa tulkinnassaan viestin semanttisen tiedon määrä määräytyy sen mukaan, missä määrin tämä viesti vastaa tilannetta (eli sitä, mitä tietyssä paikassa ja tiettynä aikana tapahtuu). Epäjohdonmukaisuus syntyy joko viestin sisällön puutteesta tai sen epätarkkuudesta. Floridi ei käytä teoriassaan suoraan disinformaation käsitettä, vaan esittelee ehdollisesti väärien lauseiden epätarkkuuden asteen käsitteen. Ehdollisesti väärän lauseen epätarkkuuden aste on yhtä suuri kuin:
,missä on väärien atomilausekkeiden lukumäärä ; on atomilauseiden kokonaismäärä . Atomien väitteiden totuuden määrittäminen edellyttää a priori kaikkitietävyyden periaatteen hyväksymistä. Tosi lauseen sisällöttömyyden aste lasketaan kaavalla:
,missä on niiden universumin maailmojen lukumäärä, joissa se on totta; on maailmojen kokonaismäärä universumissa (huomaa, että tämän määritelmän mukaan arvo on täsmälleen sama kuin loogisen todennäköisyyden arvo ). Lisäksi Floridi esittelee käsitteen informatiivisuusasteen funktiosta:
.Semanttisen tiedon määrä viestissä on yhtä suuri kuin tietty informatiivisuusasteen funktion integraali :
.Kaikista klassisen teorian ja Floridian teorian eroista huolimatta niillä on jotain yhteistä. Jos on tosi lause, niin arvo on yhtä suuri kuin loogisen todennäköisyyden arvo . Mitta on samanlainen kuin suure , mutta toisin kuin jälkimmäinen, se on epälineaarinen funktio . Valitettavasti Floridin teoriassa ei ole mitään sellaista mittaa , jolla olisi merkittävä ominaisuus (*) loogisesti itsenäisille lauseille.
Floridin esiin nostama ongelma voidaan ratkaista loogisiin todennäköisyyksiin perustuvan teorian puitteissa. On huomattava, että tämän vuosisadan alkuun mennessä jotkut tiedemiehet muodostivat skeptisen asenteen Carnapin induktiivista logiikkaa kohtaan [10] . Nykyaikaiset matemaatikot ovat kuitenkin kyenneet muuttamaan tilannetta modifioimalla tätä teoriaa [11] [12] [13] . Tämän ansiosta kiinnostus loogisiin todennäköisyyksiin heräsi jälleen.
Julkaisussa [14] ehdotetaan klassisen semanttisen tiedon teorian muuntamista sisällyttämällä siihen käsite disinformaatio, jota kuljettaa väärä viesti. Uudessa teoriassa, kuten Floridin teoriassa, tarkastellaan monia erilaisia tilanteita (avaruus-aikapisteitä). Sama kielen lause voi olla tosi yhdessä tilanteessa ja epätosi toisessa. Koska viestien vastaanottaja ei voi olla immuuni virheiltä niiden totuuden arvioinnissa, semanttisen tiedon määrää arvioidaan erikseen vastaanottajan ja kaikkitietävän asiantuntijan näkökulmasta.
Jokaisessa erityistilanteessa oikea viesti sisältää vain tietoa ja täysin väärä vain disinformaatiota. Ehdollisesti väärää lausetta pidetään konjunktiona : , missä on viestin oikea osa, on viestin väärä osa. Sitä vaaditaan ja se on loogisesti riippumaton (tämä on välttämätöntä erityisesti, jotta ristiriita ei osoittautuisi ehdollisesti vääräksi lauseeksi). Sitten asiantuntijan näkökulmasta ehdollisesti väärän lauseen normalisoimattomat mittarit tiedon määrästä ja väärän tiedon määrästä määritellään seuraavasti:
, .Indeksi " ", joka merkitsee kaavoissa symboleja " " ja " ", osoittaa, että tiedon ja disinformaation määriä on tarkasteltu asiantuntijan näkökulmasta. Normalisoidut mittaukset semanttisen tiedon ja disinformaation määrästä ehdollisesti väärässä lauseessa asiantuntijan näkökulmasta:
, .Asiantuntijan näkökulmasta kiista sisältää nollatietoa ja äärettömän määrän disinformaatiota. Tämä ratkaisee Bar-Hillel-Carnap-paradoksin. Loputon disinformaation määrä selittyy sillä, että jos ristiriita yhtäkkiä tuntuisi jollekulle totuudelta, niin maailma muuttuisi hänelle tuntemattomaksi. Kaksi sanaa ei voi kuvailla sitä. Oletetaan, että tiedon vastaanottajalla on ehdollisesti väärä tieto , joka vastaa konjunktiota: , missä on hänen tiedon oikea osa, on harha. Sitten asiantuntijan näkökulmasta, saatuaan ehdollisesti väärän viestin , vastaanottajalla on todella semanttista tietoa ja disinformaatiota seuraavina määrinä:
, .Jos vastaanottaja kokee oikean lauseen ja konjunktio ei ole ristiriita, niin hänen näkökulmastaan hän sai seuraavan määrän tietoa:
.Pääte " " osoittaa vastaanottajan luokituksen. Ilmeisesti vain asiantuntija voi määrittää tarkan tiedon (ja väärän tiedon) määrän saapuvassa viestissä, ja vastaanottaja pystyy vain enemmän tai vähemmän tarkkoihin arvioihin.
Matemaatikko David Wolpert on antanut muodollisen kuvauksen semanttisesta tiedosta, joka soveltuu kaikenlaisiin fyysisiin järjestelmiin (eläviin ja elottomiin) teoksessaan "Semantic information, agentuuri ja epätasapainoinen tilastollinen fysiikka": syntaktinen informaatio, joka fyysisellä järjestelmällä on. ympäristöstä, ja mikä on kausaalisesti välttämätöntä, jotta järjestelmä voi ylläpitää omaa olemassaoloaan alhaisen entropian tilassa.
Satunnainen välttämättömyys määritellään kontrafaktuaalisilla interventioilla, jotka satunnaistavat järjestelmän ja ympäristön välisiä korrelaatioita. Fyysisen järjestelmän autonomiaasteen kriteeri on käytettävissä olevan semanttisen tiedon määrä.