Automaattinen merkityn korpuksen vastaanotto

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 9. elokuuta 2019 tarkistetusta versiosta . tarkastukset vaativat 4 muokkausta .

Jos ohjaamattomat oppimismenetelmät perustuvat selittämättömään (ei merkittyyn) korpukseen yksiselitteisyysongelmassa , niin ohjattu oppiminen on pohjimmiltaan riippuvainen leimatusta testikorpuksesta. Riittävän tiedon hankkimisen ongelma on yksi tärkeimmistä esteistä erittäin tehokkaiden oppimisalgoritmien toteutuksessa.. Jos algoritmia ei kuitenkaan toteuteta niin suurilla resurssitapahtumilla kuin Senseval, vaan pienemmällä, niin silloin ei ole mahdollista saada korkealaatuista annotoitua korpusta vaadittavien valtavien työvoimakustannusten vuoksi. suorittaaksesi tämän prosessin manuaalisesti. Siksi tutkijat, jotka tarvitsivat tällaisia ​​korpuja, joutuivat hankkimaan leimattu korpus automaattisesti.

Tie on löytää automaattisesti sellaiset kontekstit, joissa haluttu polysemanttinen sana saa 100 %:n todennäköisyydellä tarvitsemamme arvon. Ja sellaisia ​​menetelmiä on keksitty; on useita tapoja, jotka poikkeavat toisistaan ​​pohjimmiltaan.

Olemassa olevat ratkaisut

Yksi ratkaisuista on Rada Michelsian [1] kehittämä algoritmi , joka perustuu kontekstien hankkimiseen hakukoneilta (kuten Google tai Yandex) sanastossa olevan tiedon avulla. Korpuksen koko hankintaprosessi koostuu kolmesta vaiheesta: esikäsittely, haku ja jälkikäsittely.

  1. Esikäsittely. Jokaiselle sanalle w ja sen arvolle #i otetaan sen yksiarvoiset synonyymit sekä sanat, jotka on saatu kiilteen käsittelyn jälkeen (sanakirjan tulkinta, kieliopilliset selitykset, esimerkit sanan käytöstä eri yhteyksissä jne.)
  2. Hae. Sitten hakuvaiheessa muodostetaan hakukyselyitä, jotka auttavat löytämään juuri ne kontekstit, joissa annettu sana on läsnä tarvitsemassamme merkityksessä.
  3. Jälkikäsittelyä. Tämän jälkeen vastaanotetut kontekstit käsitellään, huonot suodatetaan jne.

Menetelmän tehokkuus mahdollistaa suuren määrän konteksteja, joista noin 91 % on oikeita, mikä on melko korkea tulos, joka riittää koneoppimiseen. Tällä menetelmällä on myös seuraajia ja edeltäjiä (esim. Leacock- ja Chodorow-algoritmi), mutta kaikkia niitä ei ole verrattu siihen tehokkuuden suhteen.

Toinen menetelmä, jonka Jarowski [2] keksi ja jota usein kutsutaan bootstrappingiksi, ehdottaa pienestä määrästä manuaalisesti määritellyistä esimerkeistä (ns. siemenesimerkeistä) alkaen luokkien automaattista ja iteratiivista laajentamista jakamalla loput kontekstit pelkässä tekstissä. luokkiin, jolloin saadaan koulutusnäyte. Samaan aikaan sellaiset asiat kuin "yksi aisti kollokaatiota kohti" ja "yksi aisti diskurssia kohti" otetaan aksioomina. Tämä menetelmä on kuitenkin myös vähemmän tarkka kuin Mihalcea-menetelmä, koska tässä tapauksessa ei saada yksiselitteisiä konteksteja .

Lisäksi on kolme muuta menetelmää [3] , joita ei käytännössä voida soveltaa venäjän kieleen:

Tulos

Tulokset

Esimerkkien automaattinen hankkiminen luokittelijakoulutukseen (ohjattu oppiminen) on osoittautunut parhaaksi Internet - kaivosmenetelmäksi leksikaalisen yksiselitteisyyden selvittämiseen . Tässä muutamia rohkaisevia tuloksia:

Ongelmia

On kuitenkin myös tiettyjä ongelmia ja vaikeuksia, jotka liittyvät suoraan tällaisen tapauksen saamiseen:

Alueen tulevaisuus

Edellä mainittujen tekniikoiden lisäksi korpuksen hankkimiseksi verkosta on myös tehty joitain muita kokeita Internetin avulla:

Internetin avaamia ja tarjoamia mahdollisuuksia ei kuitenkaan ole vielä täysin tutkittu. Esimerkiksi tietopohjaisista yksiselitteistämisjärjestelmistä saadun leksikaalisen tiedon käyttämisestä tiedetään vähän; eikä myöskään ole selvää, kuinka saada rinnakkaiskorpuja Internetistä , vaikka tehokkaita algoritmeja tällaisten korpusten käsittelyyn on jo olemassa. Siksi meidän pitäisi odottaa lähitulevaisuudessa monia mielenkiintoisempia tuloksia tällä alueella.

Muistiinpanot

  1. Rada Mihalcea, Dan Moldovan. Automaattinen menetelmä sense-merkittyjen korpusten luomiseen.
  2. Yarowsky, D. "Supervised Word Sense Disambiguation, joka kilpailee valvottujen menetelmien kanssa". Laskennallisen lingvistiikan liiton 33. vuosikokouksen esitys. Cambridge, M.A., s. 189-196, 1995.
  3. Word Sense Disambiguation: Algorithms and Applications, toimittaneet Eneko Agirre ja Philip Edmonds (2006), Springer.
  4. Mihalcea, Rada. 2002. Bootstrapping large sense tagged corpora. Proceedings of Language Resources and Evaluation Conference (LREC), Las Palmas, Espanja.
  5. 1 2 3 Santamaria, Celina, Julio Gonzalo ja Felisa Verdejo. 2003. Web-hakemistojen automaattinen yhdistäminen sanan aisteihin. Computational Linguistics, 29(3): 485-502.
  6. Agirre, Eneko & David Martinez. 2004. Valvomaton WSD, joka perustuu automaattisesti haettuihin esimerkkeihin: Biasin merkitys. Luonnonkielen käsittelyn empiirisiä menetelmiä käsittelevän konferenssin (EMNLP) julkaisut, Barcelona, ​​Espanja, 25-33.
  7. Mihalcea, Rada. 2002a. Sanatuntemuksen yksiselitteisyys kuvion oppimisen ja automaattisen ominaisuuksien valinnan avulla. Natural Language Engineering, 8(4): 348-358.
  8. 1 2 Agirre, Eneko & David Martinez. 2000. Automaattisen sanan merkityksen yksiselitteisyyden tutkiminen päätösluetteloiden ja Webin avulla. Semantic Annotation and Intelligent Annotation -työpajan julkaisut, Luxemburg, 11-19.
  9. 1 2 3 Agirre, Eneko & David Martinez. 2004. Valvomaton WSD, joka perustuu automaattisesti haettuihin esimerkkeihin: Biasin tärkeys. Luonnonkielen käsittelyn empiirisiä menetelmiä käsittelevän konferenssin (EMNLP) julkaisut, Barcelona, ​​Espanja, 25-33.
  10. 1 2 Mihalcea, Rada. 2002b. Bootstrapping large sense tagged corpora. Proceedings of Language Resources and Evaluation Conference (LREC), Las Palmas, Espanja.
  11. Mihalcea, Rada & Dan Moldovan. 1999. Automaattinen menetelmä sense tagged corporien luomiseen. Proceedings of the American Association for Artificial Intelligence (AAAI), Orlando, USA, 461-466.
  12. Chklovski, Tim & Rada Mihalcea. 2002. Aistimerkintäkorpuksen rakentaminen Open Mind Word Expertin avulla. Proceedings of ACL SIGLEX Workshop on Word Sense Disambiguation: Recent Success and Future Directions, Philadelphia, USA, 116-122.
  13. Agirre, Eneko, Olatz Ansa, Eduard H. Hovy & David Martínez. 2000. Erittäin suurten ontologioiden rikastaminen WWW:n avulla. Ontologian oppimistyöpajan julkaisut, Euroopan tekoälykonferenssi (ECAI), Berliini, Saksa.
  14. Denis Turdakov, Pavel Velikhov. Linkkianalyysiin perustuvien Wikipedia-käsitteiden semanttinen suhteellisuusmetriikka ja sen soveltaminen Word Sense -täsmennykseen // SYRCoDIS.- 2008.
  15. Denis Turdakov. Wikipedia-termien leksikaalisen polysemian eliminoiminen piilotetun Markovin mallin perusteella // XI kokovenäläinen tieteellinen konferenssi "Digital Libraries: Advanced Methods and Technologies, Digital Collections" - 2009. head (venäläinen) Arkistokopio 5.7.2010 Waybackissa Kone