Aihemallinnus on tapa rakentaa malli tekstidokumenttien kokoelmasta, joka määrittää, mihin aiheisiin kukin asiakirja kuuluu [1] .
Tekstidokumenttien kokoelman aihemalli ( englanniksi topic model ) määrittää, mihin aiheisiin kukin dokumentti kuuluu ja mitkä sanat (termit) muodostavat kunkin aiheen [2] .
Siirtyminen termitilasta löydettyjen aiheiden tilaan auttaa ratkaisemaan termien synonyymia ja polysemiaa sekä ratkaisemaan tehokkaammin sellaisia ongelmia kuin dokumenttikokoelmien ja uutisvirtojen temaattinen haku , luokittelu , yhteenveto ja huomautus.
Aihemallinnus, eräänlainen tilastollinen malli dokumenttien kokoelmasta löydettyjen piilotettujen aiheiden löytämiseksi, on löytänyt tiensä esimerkiksi koneoppimiseen ja luonnollisen kielen käsittelyyn . Tutkijat käyttävät erilaisia aihemalleja analysoidakseen tekstejä, dokumenttien tekstiarkistoja, analysoidakseen aiheiden muutoksia dokumenttisarjoissa . Kun ymmärrät intuitiivisesti, että asiakirja viittaa tiettyyn aiheeseen, yhdelle aiheelle omistetuissa asiakirjoissa voit löytää joitain sanoja useammin kuin toisia. Esimerkiksi: "koira" ja "luu" esiintyvät useammin koiria koskevissa asiakirjoissa, "kissat" ja "maito" esiintyvät kissanpentuja koskevissa asiakirjoissa, prepositiot "ja" ja "in" esiintyvät molemmissa aiheissa. Yleensä dokumentissa käsitellään useita aiheita eri mittasuhteissa, joten dokumentissa, jossa 10 % aiheesta on kissoja ja 90 % koiria, voidaan olettaa olevan 9 kertaa enemmän sanoja koirista. Aihemallinnus heijastaa tätä intuitiota matemaattisessa rakenteessa, joka mahdollistaa asiakirjakokoelman tutkimuksen ja kunkin asiakirjan sanojen esiintymistiheysominaisuuksien tutkimuksen perusteella päätellä, että jokainen asiakirja on tietty tasapaino aiheita.
Nykyaikaisissa sovelluksissa yleisimmin käytettyjä lähestymistapoja ovat Bayesin verkkoihin perustuvat lähestymistavat - todennäköisyysmallit suunnatuille graafille . Todennäköisyyspohjaiset aihemallit ovat suhteellisen nuori itseoppimisen teorian tutkimusalue . Yksi ensimmäisistä ehdotetuista todennäköisyyspohjaisesta piilevasta semanttisesta analyysistä (PLSA), joka perustuu suurimman todennäköisyyden periaatteeseen , vaihtoehtona klassisille klusterointimenetelmille , jotka perustuvat etäisyysfunktioiden laskemiseen. PLSA:n jälkeen ehdotettiin piilevää Dirichlet-allokaatiomenetelmää ja sen lukuisia yleistyksiä [3] .
Todennäköisyyspohjaiset aihemallit suorittavat "pehmeän" klusteroinnin, jolloin asiakirja tai termi liittyy useaan aiheeseen kerralla eri todennäköisyyksillä. Todennäköisyyspohjaiset aihemallit kuvaavat kutakin aihetta diskreetillä jakaumalla termien joukolle, jokaista asiakirjaa diskreetillä jakaumalla aihejoukolle. Oletetaan, että dokumenttikokoelma on satunnaisesti ja riippumattomasti tällaisten jakaumien sekoituksesta valittu termisarja, ja tehtävänä on palauttaa seoksen komponentit näytteestä [4] .
Vaikka aihemallinnusta on perinteisesti kuvattu ja sovellettu luonnollisen kielen käsittelyssä, se on löytänyt tiensä myös muille aloille, kuten bioinformatiikkaan .
Ensimmäinen kuvaus aiheen mallintamisesta ilmestyi Ragawanin, Papadimitrioun, Tomakin ja Vempolan julkaisussa 1998 [5] . Thomas Hofmann vuonna 1999 [6] ehdotti todennäköisyyspohjaista latenttia semanttista indeksointia (PLSI). Yksi yleisimmistä ajankohtaisista malleista on latentti Dirichlet-sijoittelu (LDA). Tämä malli on todennäköisyyspohjaisen semanttisen indeksoinnin yleistys, ja sen kehittivät David Blei , Andrew Ng ja Michael Jordan ( englanniksi Michael I. Jordan ) [vuonna 2002 . Muut aihemallit ovat yleensä LDA:n laajennuksia, esimerkiksi pachinko-sijoittelu parantaa LDA:ta ottamalla käyttöön lisäkorrelaatiokertoimia jokaiselle aiheen muodostavalle sanalle.
Templeton tarkasteli humanististen tieteiden aihemallinnustyötä ryhmiteltynä synkronisten ja diakroonisten lähestymistapojen alle [8] . Synkroniset lähestymistavat korostavat aiheita jossain vaiheessa, esimerkiksi Jockers käytti aihemallia tutkiakseen, mistä bloggaajat kirjoittivat Digital Humanities Day -päivänä vuonna 2010 [9] .
Diakrooniset lähestymistavat, mukaan lukien Blockin ja Newmanin määritelmä aiheiden ajallisesta dynamiikasta Pennsylvania Gazettessa 1728-1800 [10] . Griffiths ja Stavers käyttivät aihemallinnusta PNAS -lehtien arvosteluissa määrittäen aiheen suosion muutoksen vuodesta 1991 vuoteen 2001 [11] . Blevin loi teemamallin Martha Balladsin päiväkirjaan [12] . Mimno käytti aihemallinnusta analysoidakseen 24 klassista ja arkeologista aikakauslehteä 150 vuoden aikana määrittääkseen muutoksia aiheiden suosiossa ja kuinka paljon lehdet olivat muuttuneet tuona aikana [13] .
David Blayn "Introduction to Topic Modeling" käsittelee suosituinta Latent Dirichlet Allocation -algoritmia [14] . Käytännössä tutkijat käyttävät yhtä maksimaalisen todennäköisyyden menetelmän heuristiikasta, singulaaristen arvon hajottelumenetelmiä (SVD), momenttien menetelmää , ei-negatiiviseen faktorointimatriisiin (NMF) perustuvaa algoritmia, todennäköisyyspohjaisia aihemalleja, todennäköisyyspohjaista piilevää semanttista analyysiä. , piilevä Dirichlet-sijoitus. Vorontsov K.V.:n työssä tarkastellaan pääaihemallinnusalgoritmien muunnelmia: robustit aihemallit, aiheen luokittelumallit, dynaamiset aihemallit, hierarkkiset aihemallit, monikieliset aihemallit, tekstimallit sanajonona, multimodaaliset aihemallit [2 ] .
Todennäköisyyspohjaiset aihemallit perustuvat seuraaviin oletuksiin [15] [16] [17] [18] :
Aihemallin rakentaminen tarkoittaa matriisien etsimistä ja keräämistä Monimutkaisemmissa todennäköisyyspohjaisissa aihemalleissa osa näistä oletuksista on korvattu realistisemmilla.
Thomas Hofmann ehdotti todennäköisyyspohjaista latenttia semanttista analyysiä (PLSA) vuonna 1999. Todennäköisyysmalli asiakirja-sanaparin esiintymiselle voidaan kirjoittaa kolmella vastaavalla tavalla:
missä on aihejoukko;
— tuntematon a priori aiheiden jakautuminen koko kokoelmassa; on a priori -jakauma asiakirjajoukolle, empiirinen arvio , jossa on kaikkien asiakirjojen kokonaispituus; on a priori -jakauma sanajoukolle, empiirinen estimaatti , jossa on sanan esiintymien lukumäärä kaikissa asiakirjoissa;Halutut ehdolliset jakaumat ilmaistaan Bayesin kaavan avulla:
Aihemallin parametrien tunnistamiseksi dokumenttien kokoelmasta käytetään maksimitodennäköisyyden periaatetta , mikä johtaa toiminnallisuuden maksimoimisen ongelmaan [19]
normalisointirajoitusten alla
missä on sanan esiintymien lukumäärä asiakirjassa . Tämän optimointiongelman ratkaisemiseksi käytetään yleensä EM-algoritmia .
PLSA:n tärkeimmät haitat:
Latent Dirichlet Allocation (LDA) ehdotti David Bley vuonna 2003.
Tämä menetelmä eliminoi PLSA:n tärkeimmät haitat.
LDA-menetelmä perustuu samaan todennäköisyysmalliin
lisäoletuksilla:
Gibbs-näytteenottoa , variaatio Bayesin päättelyä tai odotusprosessointimenetelmää käytetään LDA-mallin parametrien tunnistamiseen dokumenttien kokoelmasta .(Odotuksen leviäminen).
luonnollisen kielen käsittely | |
---|---|
Yleiset määritelmät | |
Tekstianalyysi |
|
Viittaus |
|
Konekäännös |
|
Tunnistaminen ja tiedonkeruu | |
Temaattinen malli | |
Vertaisarviointi |
|
Luonnollisen kielen käyttöliittymä |