Todennäköisyyspohjainen piilevä semanttinen analyysi
Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 26. kesäkuuta 2016 tarkistetusta
versiosta . tarkastukset vaativat
7 muokkausta .
Todennäköisyyslatentti semanttinen analyysi (PLSA) , joka tunnetaan myös nimellä todennäköisyyslatentti semanttinen indeksointi ( PLSI , erityisesti tiedonhaun alalla), on tilastollinen menetelmä kahden tyyppisen datan korrelaatioiden analysoimiseksi . Tämä menetelmä on latentin semanttisen analyysin jatkokehitys . VLSA:ta sovelletaan muun muassa tiedonhakuun , luonnollisen kielen käsittelyyn , koneoppimiseen ja niihin liittyvillä aloilla. Tämän menetelmän julkaisi ensimmäisen kerran vuonna 1999 Thomas Hofmann [1] .
Verrattuna tavanomaiseen latenttiin semanttiseen analyysiin , joka perustuu lineaariseen algebraan ja on tapa vähentää matriisin dimensiota (yleensä diagonaalimatriisin singulaariarvon hajotusta käyttäen ), todennäköisyyspohjainen piilevä semanttinen analyysi perustuu sekahajotusmenetelmään, joka puolestaan alkaa. piilotetun luokan mallista. Tämä lähestymistapa on perustavanlaatuisempi, koska sillä on vankka perusta tilastojen alalla.
pLSA:n muunnelmat
- Hierarkkiset laajennukset:
- Epäsymmetrinen: MASHA ("Multinomial ASymmetric Hierarchical Analysis", "polynomial asymmetric hierarchical analysis") [2]
- Symmetrinen: HPLSA ("Hierarchical Probabilistic Latent Semantic Analysis", "Hierarchical probabilistic latent Semantic Analysis"), [3]
- Generatiiviset mallit: Suunniteltu korjaamaan yleisesti kritisoitu pLSA:n puute, nimittäin se, että se on virheellinen generatiivinen malli uusille asiakirjoille.
- Korkeamman asteen data: Vaikka pLSA:ta käsitellään harvoin tieteellisessä kirjallisuudessa, se on luonnollisesti sovellettavissa korkeamman asteen dataan (kolmitasoinen ja korkeampi), mikä tarkoittaa, että se voi mallintaa kolmen tai useamman muuttujan yhdistettyä käyttäytymistä. Yllä annetussa symmetrisessä formulaatiossa tämä tehdään yksinkertaisesti lisäämällä ehdollinen todennäköisyysjakauma näille lisämuuttujille. Tämä on ei-negatiivisen tensoritekijäkorjauksen todennäköisyysanalogi.
Muistiinpanot
- ↑ Thomas Hofmann, Probabilistic Latent Semantic Indexing Arkistoitu 14. joulukuuta 2010. , Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), 1999
- ↑ Aleksei Vinokourov ja Mark Girolami, Todennäköisyyspohjainen kehys asiakirjakokoelmien hierarkkiselle organisoinnille ja luokittelulle , in Information Processing and Management , 2002
- ↑
Eric Gaussier, Cyril Goutte, Kris Popat ja Francine Chen,
hierarkkinen malli asiakirjojen klusteroimiseksi ja luokittelemiseksi arkistoitu 13. maaliskuuta 2006 Wayback Machinessa , artikkelissa "Advances in Information Retrieval - Proceedings of the 24th BCS-IRSGIR Research Colloquium " (ECIR-02)", 2002
Katso myös