Todennäköisyyspohjainen piilevä semanttinen analyysi

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 26. kesäkuuta 2016 tarkistetusta versiosta . tarkastukset vaativat 7 muokkausta .

Todennäköisyyslatentti semanttinen analyysi (PLSA) , joka tunnetaan myös nimellä todennäköisyyslatentti semanttinen indeksointi ( PLSI , erityisesti tiedonhaun alalla), on tilastollinen menetelmä kahden tyyppisen datan korrelaatioiden analysoimiseksi . Tämä menetelmä on latentin semanttisen analyysin jatkokehitys . VLSA:ta sovelletaan muun muassa tiedonhakuun , luonnollisen kielen käsittelyyn , koneoppimiseen ja niihin liittyvillä aloilla. Tämän menetelmän julkaisi ensimmäisen kerran vuonna 1999 Thomas Hofmann [1] .

Verrattuna tavanomaiseen latenttiin semanttiseen analyysiin , joka perustuu lineaariseen algebraan ja on tapa vähentää matriisin dimensiota (yleensä diagonaalimatriisin singulaariarvon hajotusta käyttäen ), todennäköisyyspohjainen piilevä semanttinen analyysi perustuu sekahajotusmenetelmään, joka puolestaan ​​​​alkaa. piilotetun luokan mallista. Tämä lähestymistapa on perustavanlaatuisempi, koska sillä on vankka perusta tilastojen alalla.

pLSA:n muunnelmat

Muistiinpanot

  1. Thomas Hofmann, Probabilistic Latent Semantic Indexing Arkistoitu 14. joulukuuta 2010. , Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), 1999
  2. Aleksei Vinokourov ja Mark Girolami, Todennäköisyyspohjainen kehys asiakirjakokoelmien hierarkkiselle organisoinnille ja luokittelulle , in Information Processing and Management , 2002
  3. Eric Gaussier, Cyril Goutte, Kris Popat ja Francine Chen, hierarkkinen malli asiakirjojen klusteroimiseksi ja luokittelemiseksi arkistoitu 13. maaliskuuta 2006 Wayback Machinessa , artikkelissa "Advances in Information Retrieval - Proceedings of the 24th BCS-IRSGIR Research Colloquium " (ECIR-02)", 2002

Katso myös