Automaattinen merkityn korpuksen vastaanotto
Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 9. elokuuta 2019 tarkistetusta
versiosta . tarkastukset vaativat
4 muokkausta .
Jos ohjaamattomat oppimismenetelmät perustuvat selittämättömään (ei merkittyyn) korpukseen yksiselitteisyysongelmassa , niin ohjattu oppiminen on pohjimmiltaan riippuvainen leimatusta testikorpuksesta. Riittävän tiedon hankkimisen ongelma on yksi tärkeimmistä esteistä erittäin tehokkaiden oppimisalgoritmien toteutuksessa.. Jos algoritmia ei kuitenkaan toteuteta niin suurilla resurssitapahtumilla kuin Senseval, vaan pienemmällä, niin silloin ei ole mahdollista saada korkealaatuista annotoitua korpusta vaadittavien valtavien työvoimakustannusten vuoksi. suorittaaksesi tämän prosessin manuaalisesti. Siksi tutkijat, jotka tarvitsivat tällaisia korpuja, joutuivat hankkimaan leimattu korpus automaattisesti.
Tie on löytää automaattisesti sellaiset kontekstit, joissa haluttu polysemanttinen sana saa 100 %:n todennäköisyydellä tarvitsemamme arvon. Ja sellaisia menetelmiä on keksitty; on useita tapoja, jotka poikkeavat toisistaan pohjimmiltaan.
Olemassa olevat ratkaisut
Yksi ratkaisuista on Rada Michelsian [1] kehittämä algoritmi , joka perustuu kontekstien hankkimiseen hakukoneilta (kuten Google tai Yandex) sanastossa olevan tiedon avulla. Korpuksen koko hankintaprosessi koostuu kolmesta vaiheesta: esikäsittely, haku ja jälkikäsittely.
- Esikäsittely. Jokaiselle sanalle w ja sen arvolle #i otetaan sen yksiarvoiset synonyymit sekä sanat, jotka on saatu kiilteen käsittelyn jälkeen (sanakirjan tulkinta, kieliopilliset selitykset, esimerkit sanan käytöstä eri yhteyksissä jne.)
- Hae. Sitten hakuvaiheessa muodostetaan hakukyselyitä, jotka auttavat löytämään juuri ne kontekstit, joissa annettu sana on läsnä tarvitsemassamme merkityksessä.
- Jälkikäsittelyä. Tämän jälkeen vastaanotetut kontekstit käsitellään, huonot suodatetaan jne.
Menetelmän tehokkuus mahdollistaa suuren määrän konteksteja, joista noin 91 % on oikeita, mikä on melko korkea tulos, joka riittää koneoppimiseen. Tällä menetelmällä on myös seuraajia ja edeltäjiä (esim. Leacock- ja Chodorow-algoritmi), mutta kaikkia niitä ei ole verrattu siihen tehokkuuden suhteen.
Toinen menetelmä, jonka Jarowski [2] keksi ja jota usein kutsutaan bootstrappingiksi, ehdottaa pienestä määrästä manuaalisesti määritellyistä esimerkeistä (ns. siemenesimerkeistä) alkaen luokkien automaattista ja iteratiivista laajentamista jakamalla loput kontekstit pelkässä tekstissä. luokkiin, jolloin saadaan koulutusnäyte. Samaan aikaan sellaiset asiat kuin "yksi aisti kollokaatiota kohti" ja "yksi aisti diskurssia kohti" otetaan aksioomina. Tämä menetelmä on kuitenkin myös vähemmän tarkka kuin Mihalcea-menetelmä, koska tässä tapauksessa ei saada yksiselitteisiä konteksteja .
Lisäksi on kolme muuta menetelmää [3] , joita ei käytännössä voida soveltaa venäjän kieleen:
- Web-sivuhakemistot (kuten Open Directory Project );
- tasatut kaksikieliset tekstit (tällaisten materiaalien nopeasta kasvusta huolimatta niiden määrä ei kuitenkaan ole tarpeeksi suuri venäjän kielelle);
- wiki - tyylinen yhteistyötyö (Open Mind Word Expert -projekti): periaatteena on, että helpot epäselvyyden ratkaisutapaukset ratkaistaan koneella, vaikeat näytetään vapaaehtoisille Internetissä; tämä menetelmä ei valitettavasti osoittanut riittävän korkeita tuloksia vapaaehtoisten ammattitaidottomuuden vuoksi (62,8% yksimielisyys ihmisten välillä verrattuna 85,5% Sensevaliin).
Tulos
Tulokset
Esimerkkien automaattinen hankkiminen luokittelijakoulutukseen (ohjattu oppiminen) on osoittautunut parhaaksi Internet - kaivosmenetelmäksi leksikaalisen yksiselitteisyyden selvittämiseen . Tässä muutamia rohkaisevia tuloksia:
- Joissakin kokeissa Internetistä peräisin olevan tiedon laatu oli lähes yhtä suuri kuin ihmisen tekemän korpuksen laatu: yhdistelmä yksiselitteisten synonyymien avulla saamista ja käynnistystä SemCorin esimerkeistä [4] ja ODP :stä [5] saatuja esimerkkejä. . Ensimmäisessä SemCorin esimerkit ovat kuitenkin välttämättömiä ja olemassa vain englannin kielelle, ja testaus tehtiin liian harvoilla substantiivien kanssa, ja toisessa kokeen kattavuus on liian pieni eikä tiedetä kuinka paljon tuloksena olevan korpuksen laatu heikkenee, kun sitä lisätään.
- Lisäksi on osoitettu [6] , että melkein mikä tahansa ohjattu oppimistekniikka, joka on koulutettu automaattisesti haetuille korpuille Internetistä, ylittää kaikki Senseval -2 :een liittyvät ohjaamattomat oppimistekniikat.
- Internetistä saaduista esimerkeistä on ollut suurta hyötyä Senseval-2:n parhaille englanninkielisille all-word-algoritmeille [7] .
Ongelmia
On kuitenkin myös tiettyjä ongelmia ja vaikeuksia, jotka liittyvät suoraan tällaisen tapauksen saamiseen:
- Vastaanotettujen esimerkkien hyvä laatu (eli esimerkkien oikea kuuluminen arvoluokkiin) ei välttämättä takaa luokittelijan suurta tarkkuutta [8] .
- Objektiivisimmat kokeet saatujen esimerkkien laadun arvioimiseksi osoittivat [9] , että näillä esimerkeillä harjoittelu lisää merkittävästi moniselitteisyyden tarkkuuden tasoa, mutta tulokset ovat kuitenkin kaukana ihanteellisista: ne eivät ole huonompia kuin manuaalisesti saadut. , ne eivät edes ylitä laatua, joka on saatu yleisimmällä aistilla perusviivalla.
- Tulokset eivät aina ole toistettavissa: samat tai samankaltaiset menetelmät voivat johtaa erilaisiin tuloksiin eri kokeissa. Vertailun vuoksi voidaan verrata kokeita: Mihalcea (2002 [10] ) Agirren ja Martínezin kanssa (2004 [9] ) tai Agirre ja Martínez (2000 [8] ) Mihalcean ja Moldovanin kanssa (1999 [11] ). Internetin avulla saadut tulokset osoittivat, että data on erittäin herkkä pienillekin koulutusalgoritmin muutoksille, jopa korpuksen vastaanottopäivämäärälle (hakukoneen tulokset muuttuvat jatkuvasti), sekä huomaamattomille heuristisille ongelmille (esim. suodattimissa joidenkin vastaanotettujen esimerkkien hylkäämiseksi).
- Tuloksiin vaikuttaa voimakkaasti sellainen ilmiö kuin "vino" (eli sanan joidenkin merkitysten esimerkkien esiintymistiheyden suhde muihin [9] ). Joten ei ole täysin selvää, onko tämä ongelma vain Internetistä peräisin olevan tiedon kanssa vai onko se ongelma ohjattuun oppimiseen, vai onko se ongelma menetelmien arvioinnissa (itse asiassa suhteellisen pieni määrä Senseval-dataa on melko mahdollista ei se edustava asia verrattuna koko Internetiin korpusena).
- Joka tapauksessa Internetistä tulevat tiedot ovat vääristyneitä, koska hakukoneille tehtävät kyselyt rajoittavat suoraan vastaanotettujen kontekstien määrää. On olemassa lähestymistapoja tämän vaikutuksen lieventämiseksi, kuten: useiden siementen tai kyselyjen käyttäminen jokaiselle sanan merkitykselle [10] tai arvojen määrittäminen sopiville luokille verkkosivustojen hakemistoista [5] ; Tämä ongelma ei ole kuitenkaan vielä täysin ratkennut.
- Minkä tahansa vastaanotetun kontekstikokoelman kohdalla sen käyttölupaongelma ei ole aina selvä (oikeudellinen osa on epäselvä).
Alueen tulevaisuus
Edellä mainittujen tekniikoiden lisäksi korpuksen hankkimiseksi verkosta on myös tehty joitain muita kokeita Internetin avulla:
Internetin avaamia ja tarjoamia mahdollisuuksia ei kuitenkaan ole vielä täysin tutkittu. Esimerkiksi tietopohjaisista yksiselitteistämisjärjestelmistä saadun leksikaalisen tiedon käyttämisestä tiedetään vähän; eikä myöskään ole selvää, kuinka saada rinnakkaiskorpuja Internetistä , vaikka tehokkaita algoritmeja tällaisten korpusten käsittelyyn on jo olemassa. Siksi meidän pitäisi odottaa lähitulevaisuudessa monia mielenkiintoisempia tuloksia tällä alueella.
Muistiinpanot
- ↑ Rada Mihalcea, Dan Moldovan. Automaattinen menetelmä sense-merkittyjen korpusten luomiseen.
- ↑ Yarowsky, D. "Supervised Word Sense Disambiguation, joka kilpailee valvottujen menetelmien kanssa". Laskennallisen lingvistiikan liiton 33. vuosikokouksen esitys. Cambridge, M.A., s. 189-196, 1995.
- ↑ Word Sense Disambiguation: Algorithms and Applications, toimittaneet Eneko Agirre ja Philip Edmonds (2006), Springer.
- ↑ Mihalcea, Rada. 2002. Bootstrapping large sense tagged corpora. Proceedings of Language Resources and Evaluation Conference (LREC), Las Palmas, Espanja.
- ↑ 1 2 3 Santamaria, Celina, Julio Gonzalo ja Felisa Verdejo. 2003. Web-hakemistojen automaattinen yhdistäminen sanan aisteihin. Computational Linguistics, 29(3): 485-502.
- ↑ Agirre, Eneko & David Martinez. 2004. Valvomaton WSD, joka perustuu automaattisesti haettuihin esimerkkeihin: Biasin merkitys. Luonnonkielen käsittelyn empiirisiä menetelmiä käsittelevän konferenssin (EMNLP) julkaisut, Barcelona, Espanja, 25-33.
- ↑ Mihalcea, Rada. 2002a. Sanatuntemuksen yksiselitteisyys kuvion oppimisen ja automaattisen ominaisuuksien valinnan avulla. Natural Language Engineering, 8(4): 348-358.
- ↑ 1 2 Agirre, Eneko & David Martinez. 2000. Automaattisen sanan merkityksen yksiselitteisyyden tutkiminen päätösluetteloiden ja Webin avulla. Semantic Annotation and Intelligent Annotation -työpajan julkaisut, Luxemburg, 11-19.
- ↑ 1 2 3 Agirre, Eneko & David Martinez. 2004. Valvomaton WSD, joka perustuu automaattisesti haettuihin esimerkkeihin: Biasin tärkeys. Luonnonkielen käsittelyn empiirisiä menetelmiä käsittelevän konferenssin (EMNLP) julkaisut, Barcelona, Espanja, 25-33.
- ↑ 1 2 Mihalcea, Rada. 2002b. Bootstrapping large sense tagged corpora. Proceedings of Language Resources and Evaluation Conference (LREC), Las Palmas, Espanja.
- ↑ Mihalcea, Rada & Dan Moldovan. 1999. Automaattinen menetelmä sense tagged corporien luomiseen. Proceedings of the American Association for Artificial Intelligence (AAAI), Orlando, USA, 461-466.
- ↑ Chklovski, Tim & Rada Mihalcea. 2002. Aistimerkintäkorpuksen rakentaminen Open Mind Word Expertin avulla. Proceedings of ACL SIGLEX Workshop on Word Sense Disambiguation: Recent Success and Future Directions, Philadelphia, USA, 116-122.
- ↑ Agirre, Eneko, Olatz Ansa, Eduard H. Hovy & David Martínez. 2000. Erittäin suurten ontologioiden rikastaminen WWW:n avulla. Ontologian oppimistyöpajan julkaisut, Euroopan tekoälykonferenssi (ECAI), Berliini, Saksa.
- ↑ Denis Turdakov, Pavel Velikhov. Linkkianalyysiin perustuvien Wikipedia-käsitteiden semanttinen suhteellisuusmetriikka ja sen soveltaminen Word Sense -täsmennykseen // SYRCoDIS.- 2008.
- ↑ Denis Turdakov. Wikipedia-termien leksikaalisen polysemian eliminoiminen piilotetun Markovin mallin perusteella // XI kokovenäläinen tieteellinen konferenssi "Digital Libraries: Advanced Methods and Technologies, Digital Collections" - 2009. head (venäläinen) Arkistokopio 5.7.2010 Waybackissa Kone