Leksikaalisen polysemian ratkaisu

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 3. huhtikuuta 2021 tarkistetusta versiosta . tarkastukset vaativat 12 muokkausta .

Sanamerkitys ( WSD ) on ratkaisematon luonnollisen kielen prosessointiongelma , joka koostuu tehtävästä valita moniselitteisen sanan tai ilmauksen merkitys (tai merkitys) sen mukaan, missä kontekstissa se sijaitsee. Tämä ongelma syntyy diskursiivisessa analyysissä , optimoitaessa hakukoneiden tulosten relevanssia , selvitettäessä anaforisia viittauksia , tutkittaessa tekstin kielellistä koherenssia , analysoitaessa päätelmiä .

Tieteellinen tutkimus leksikaalisen polysemian ratkaisemisesta on ollut soveltavan ja laskennallisen lingvistiikan alalla pitkään ja sillä on pitkä historia. Vuosien varrella ehdotettujen ratkaisujen määrä ja niiden tehokkuus on kasvanut tasaisesti, kunnes tehokkuus on saavuttanut tietyn suhteellisen tehokkaan tarkkuuden tietylle sanajoukolle ja polysemian tyypeille . Ongelma ei ole vielä saanut täydellistä ratkaisua, koska monet suoraan ihmisen puheen kielellisiin piirteisiin liittyvät ongelmat ovat onnistuneen ratkaisun tiellä.

On tutkittu lukuisia menetelmiä tietopohjaisista menetelmistä, säännöistä, leksikografisista lähteistä, ohjatusta oppimisesta tekstikorpuksella, ohjaamattomiin oppimismenetelmiin , jotka klusteroivat sanoja merkityksen perusteella. Näistä tähän mennessä ohjatut oppimismenetelmät ovat olleet tehokkaimpia. Menetelmien objektiivinen vertailu ja arviointi on kuitenkin monimutkainen prosessi, joka riippuu monista tekijöistä. Yleistetyissä sanastojärjestelmissä (englannin kielellä) tehokkuus ylittää säännöllisesti 90 %:n rajan, joskus jopa 96 %. Erilaistetuissa sanastojärjestelmissä tehokkuus on välillä 59–69 %.

Yksiselitteistämisprosessista

Yleisesti ottaen kielellisen ilmaisun tai puheteoksen (tekstin) moniselitteisyys (tai moniselitteisyys) ymmärretään useiden eri merkityksien läsnäoloksi samanaikaisesti [1] . Tiedemiehet jakavat useita tällaisen monitulkintaisuuden tyyppejä: leksiaalinen, syntaktinen ja puhe, mutta termi "WSD" sisältää leksikaalisten (semanttisten) erottelun.

Se, mistä puhumme, voidaan ymmärtää seuraavasta esimerkistä moniselitteisellä sanalla "avain":

avain avaustyökaluksi
avain veden lähteenä

sekä 3 kontekstia:

Avain tuli esiin, ovi avautui
Olin humalassa avaimesta
Elämä on täynnä

Henkilölle on selvää, että ensimmäisessä virkkeessä sanaa " avain " käytetään ensimmäisessä merkityksessä, toisessa lauseessa - vastaavasti toisessa merkityksessä ja kolmannessa - muunnelmat ovat mahdollisia. Tätä ihmisen kykyä jäljittelevien algoritmien kehittäminen voi joskus olla pelottava tehtävä.

Ratkaisuprosessi vaatii useita asioita: sanastotietojärjestelmiä, jotka määrittelevät sanojen useat merkitykset, ja tekstikokonaisuuden ratkaistavaksi ( joissakin tapauksissa voidaan tarvita muita tiedon lähteitä ).

Alueen lyhyt historia

Tämä ongelma muotoiltiin ensimmäisen kerran erilliseksi ongelmaksi 1940-luvulla konekäännösten alkuaikoina, jolloin se oli yksi laskennallisen lingvistiikan vanhimmista ongelmista. Warren Weaver esitteli kuuluisassa " Käännösmuistiossa" (1949) [2] ongelman tietokonetekniikan näkökulmasta. Tuon ajan tutkijat olivat hyvin tietoisia sen merkityksestä ja monimutkaisuudesta, erityisesti Joshua Bar-Hillel (yksi edelläkävijöistä) ilmaisi vuonna 1960 epäilynsä siitä, etteikö universaali täysin automaattinen konekäännös olisi koskaan toteutettavissa mallintamistarpeen vuoksi. kaikki ihmisten tieto maailmasta [3] .

70-luvulla WSD-ongelmasta tuli osa tekoälyn alalla kehitettyjä semanttisia tulkintajärjestelmiä , mutta ne koostuivat enimmäkseen manuaalisesti johdetuista säännöistä ja riippuivat siksi täysin käytettävissä olevan tiedon määrästä, mikä oli tuolloin erittäin työlästä. vetää pois.

1980-luvulle mennessä tuli saataville sellaisia laajoja resursseja kuin Oxford Advanced Learner's Dictionary of Current English ja manuaalinen sääntöjen kirjoittaminen korvattiin automaattisella tiedon poiminnalla tällaisista lähteistä, mutta menetelmät eivät silti poistuneet ns. perustuvia menetelmiä".

Kuitenkin 90-luvulla "tilastollinen vallankumous" muutti täysin laskennallisen lingvistiikan lähestymistavat ja menetelmät, ja leksikaalisen polysemian ratkaisemisen ongelmasta tuli ongelma, johon voidaan soveltaa kaikenlaisia ohjattuja oppimismenetelmiä [4] .

2000-luku osoitti, että ohjatut oppimismenetelmät ovat saavuttaneet tietyn tarkkuuden eivätkä voi voittaa sitä, joten tutkijoiden huomio on siirtynyt työskentelyyn yleistetympien sanastotietojärjestelmien (karkeajyväiset aistit), aihealueisiin sopeutumista (domain adaptaatio) parissa. , osittain ohjattu oppiminen (puoliohjatut järjestelmät) ja ohjaamaton oppiminen (ohjaamattomat korpuspohjaiset järjestelmät), sekamenetelmät sekä tietokantojen käsittely ja tulosten näyttäminen graafien muodossa (tietopohjaisten järjestelmien palautus graafipohjaisen kautta menetelmät). Tähän päivään asti ohjattuja oppimisjärjestelmiä pidetään kuitenkin tehokkaimpana.

Ongelmia ja vaikeuksia

Mutta miksi tällainen tehtävä aiheuttaa niin paljon vaikeuksia ja sen ratkaisujen tulokset osoittavat suhteellisen alhaista tehokkuutta? Leksikaalisen polysemian ratkaisemisen ongelman käsittelyssä havaittiin suuri määrä vaikeuksia, useimmiten ihmisen psykologian ja puheen ominaisuuksien vuoksi.

Sanakirjojen kokoaminen

Ensinnäkin kaikki sanakirjat ovat erilaisia eivätkä vastaa toisiaan. Useimmiten tehtävä erottaa sanan merkitykset toisistaan ei aiheuta vaikeuksia, mutta joissain tapauksissa sanan eri merkitykset voivat olla semanttisesti hyvin lähellä toisiaan (esimerkiksi jos jokainen niistä on metafora tai metonyymia toisilleen), ja tällaisissa tilanteissa merkitysjako eri sanakirjoissa ja tesaurusissa voi vaihdella merkittävästi. Ratkaisu tähän ongelmaan voi olla saman tietolähteen yleinen käyttö: yksi yleinen sanakirja. Maailmanlaajuisesti yleisempää semanttista jakojärjestelmää käyttävien tutkimusten tulokset ovat tehokkaampia [5] [6] , joten osa tutkijoista jättää työssään huomiotta sanakirjojen ja tesaurusten käsittelyn yksityiskohtaisemmalla semanttisella jakojärjestelmällä.

Puheenosan määritelmä

Toiseksi joissakin kielissä sanan osan merkintä voi liittyä hyvin läheisesti yksiselitteisyysongelmaan, minkä seurauksena nämä kaksi ongelmaa voivat häiritä toisiaan. Tiedemiehet eivät ole päässeet yksimielisyyteen siitä, kannattaako ne jakaa kahteen autonomiseen komponenttiin, mutta etu on niiden puolella, jotka uskovat tämän tarpeelliseksi [7] .

Inhimillinen tekijä ja manuaalisten tulosten johdonmukaisuus

Kolmas vaikeus on inhimillinen tekijä . Yksiselitteistämisjärjestelmiä on aina arvioitu vertaamalla tuloksia ihmisen työhön. Ja ihmisille tämä tehtävä ei välttämättä ole yhtä yksinkertainen kuin POS-koodaus - useiden ehdotettujen merkityksien merkitseminen on useita kertoja vaikeampaa [8] . Jos ihminen voi pitää mielessä tai helposti arvata ne puheen osat, joita sana voi olla, niin sanojen kaikkien mahdollisten merkityksien muistaminen ei ole mahdollista. Lisäksi, kuten kävi ilmi, eri ihmisten tulokset eivät aina täsmää [9] eivätkä he usein pääse yhteiseen päätökseen siitä, missä merkityksessä tiettyä sanaa käytetään tietyssä kontekstissa. Tästä huolimatta tutkijat pitävät ihmisen tulosta standardina, vertailukohtana tietokoneen tuloksiin. On huomattava, että ihminen selviää paljon paremmin yleistetyistä sanakirjajärjestelmistä kuin yksityiskohtaisista - ja siksi tutkijoiden huomio on siirtynyt niihin [5] [6] .

Maalaisjärki

Jotkut tutkijat väittävät [10] , että tekstien käsittelyssä terve järki on myös tärkeä , mitä tietokoneella tuskin on mahdollista opettaa. Seuraavat kaksi lausetta ovat esimerkkejä:

Jill ja Mary ovat sisaruksia. (he ovat sisaruksia toisilleen).
Jill ja Mary ovat äitejä. - (jokainen itsenäisesti äiti).

Ensimmäinen lause viittaa siihen, että Jill ja Mary ovat toistensa sisaruksia; toisessa, että sekä Jill että Mary ovat molemmat äitejä, eikä se ole tosiasia, että he olisivat sukulaisia. Siksi merkitysten tarkempaa analysointia varten tarvitaan tällaista tietoa maailmasta ja yhteiskunnasta. Lisäksi tämä tieto on joskus tarpeen myös syntaktisten epäselvyyksien ratkaisemisessa ja anaforan ja kataforan analysoinnissa .

Tehtävän riippuvuus

Viidenneksi pysyvällä tehtävästä riippumattomalla (tehtävästä riippumattomalla) menetelmäsarjalla ei ole järkeä, koska esimerkiksi sanan hiiri (eläin ja tietokonelaite) moniselitteisyys ei vaikuta englannin-venäläisen ja venäjän- Englanninkielinen käännös ollenkaan (koska molemmilla kielillä molemmat merkitykset sisältyvät samaan sanaan), mutta se vaikuttaa voimakkaasti tiedonhakuun. Voidaan antaa myös päinvastainen esimerkki: kun käännetään sanaa "joki" englannista ranskaksi, meidän on tiedettävä sanan merkitys ("fleuve" on joki, joka virtaa mereen, ja "rivière" on joki, joka virtaa toiseen jokeen). Tästä johtuen erilaiset ongelmat vaativat erilaisia algoritmeja - joten jos jokin hyvä leksikaalinen yksiselitteistämisalgoritmi kehitetään, on mahdotonta olla täysin varma, että se sopii kaikkiin ongelmiin.

Sanojen merkitysten erottelu

Kuudenneksi tiedemiehet nostavat esiin kysymyksen sanan merkitysten diskreetin esityksen mahdollisuudesta. Jopa termi " sanan merkitys " itsessään on melko yleinen ja kiistanalainen. Useimmat ihmiset ovat samaa mieltä työskentelessään yleisten tietojärjestelmien kanssa, joissa on korkea sanahomografia, mutta kun taso laskee ja sanakirjat tarkentuvat, on suuri määrä eroja. Esimerkiksi Senseval-2-konferenssissa, jossa käytettiin yksityiskohtaisia järjestelmiä, ihmisen annotaattorit pääsivät sopimukseen vain 85 % ajasta [11] .

Sanojen merkitykset ovat hyvin joustavia, melko vaihtelevia ja äärimmäisen kontekstuaalisia ja joskus jopa kontekstuaalisesti riippuvaisia, joten niitä ei aina ole tiukasti jaettu useisiin alimerkityksiin [12] . Sanakirjailijat kohtaavat teksteissä usein liian laajoja ja semanttisesti päällekkäisiä alimerkityksiä, ja sanojen standardimerkityksiä on usein korjattava, laajennettava ja kavennettava mitä kummallisimmilla ja odottamattomimmilla tavoilla. Esimerkiksi tässä tilanteessa "lapset juoksevat äitinsä luo" sanaa "lapset" käytetään samanaikaisesti kahdessa merkityksessä: he ovat sekä vanhempiensa lapsia että vain lapsia. Leksikografin tehtävänä on analysoida valtava määrä tekstejä ja aineistoja ja kuvata sanan koko mahdollinen merkitysalue. Toistaiseksi ei kuitenkaan tiedetä, soveltuuko tämä lähestymistapa laskennalliseen ja laskennalliseen lingvistiikkaan, koska leksikografien päätökset tehdään kuvattujen merkityksien täydellisyyden, ei tekstinkäsittelyssä saadun tiedon soveltuvuuden puolesta.

Viime aikoina on ehdotettu ongelmaa, jota kutsutaan leksikaaliseksi substituutioksi , ratkaisuksi sanojen merkityksen eriyttämisongelmaan [13] . Sen tarkoitus on korvata sana toisella, joka säilyttää vanhan merkityksen tässä yhteydessä.

Ongelman relevanssi, mahdolliset sovellukset

On tunnettu tosiasia, että prosessin tulokset eivät riipu pelkästään menetelmien innovatiivisuudesta ja tehokkuudesta, vaan myös tehtävän erilaisista asetuksista/ominaisuuksista ja ratkaisuprosessin vaatimuksista (esim. sanan merkityksistä, tulosten arvioinnin ominaisuuksista, yksiselitteisyyden kattavuudesta jne.). On myös tärkeää, että suuri määrä NLP-kenttiä voi hyötyä WSD:n tuloksista.

Tiedonhaku

Tiedonhakujärjestelmissä - jos kyselyä haettaessa jätetään huomioimatta ne asiakirjat, joissa jotakin kyselyn sanoista käytetään eri merkityksessä, josta käyttäjä on tällä hetkellä kiinnostunut, niin kyselyn tulosten relevanssi voidaan laskea. lisääntynyt.

Ensimmäiset teokset, joissa tutkittiin WSD:n käyttöä tiedonhaussa , eivät osoittaneet haun tarkkuuden lisääntymistä. Vuonna 1994 Sanderson kuitenkin havaitsi [14] , että parannuksia voidaan havaita vain, jos yksiselitteisyyden tehokkuus ylittää 90 %, jonka yleispätevyydestä kiistellään. Ja vuonna 1995 Schutze ja Pedersen osoittivat [15] , joka osoitti, että edellä mainitulla tehokkuudella voidaan saavuttaa 4 %:n parannus hakutuloksissa. Stokey kuitenkin osoitti, että WSD:n käyttö voi antaa, vaikkakin pienellä, keskimäärin 1,73 %:n tuloksia jopa alhaisemmalla WSD:n tehokkuudella (62,1 %) [16] .

Konekäännös

Konekäännösjärjestelmissä luotettavien mekanismien puute sanan merkityksen tunnistamiseksi heikentää merkittävästi käännöksen laatua, koska sanaa ei aina käännetä yksiselitteisesti toiselle kielelle. Ja oikean käännöksen automaattinen määrittäminen kontekstista riippuen on erittäin vaikea tehtävä. Leksisen yksiselitteistämisen on pitkään pidetty suurena haasteena saavuttaa lähes täydellinen konekäännös - nämä ajatukset perustuvat ajatukseen, että WSD ei voi muuta kuin parantaa käännösjärjestelmiä valittaessa oikeat arvoehdokkaat käännökselle. Tätä aluetta ei ole tutkittu niin paljon kuin sen pitäisi olla perinteisten vähemmän tehokkaiden ennalta määriteltyjen sanastotietokantojen ( eng. sense inventory ) vuoksi, joista on pitkään tullut perinteisiä .

Tietojen poimiminen

Tietyillä alueilla erityisiä käsitteitä koskevat ongelmat kiinnostavat eniten: esimerkiksi lääketieteen alalla lääkkeiden nimien määritteleminen tekstissä voi olla hyödyllistä, kun taas bioinformatiikassa on tarpeen ratkaista epäselvyyksiä nimeämisessä. geenit ja proteiinit - tätä prosessia on kutsuttu tiedon erottamiseksi . Se sisältää sellaisia tehtäviä kuin nimettyjen entiteettien tunnistus ( eng. named-entity -tunnistus ) (NER), lyhennelaajennus (esim. Venäjän federaatio - Venäjän federaatio) ja muita - kaikkea tätä voidaan pitää ratkaisutehtävän polysemiana, vaikka tämä on uusi ja vielä tutkimaton suunta.

Sisältöanalyysi

Sisällön analysointi ja tekstin pääosien tunnistaminen ideoiden, teemojen ja vastaavien suhteen voi hyötyä suuresti WSD:stä. Esimerkiksitekstien (blogien) luokittelu , tagien antaminen artikkeleihin tai blogikirjoituksiin tai relevanttien (ehkä semanttisesti) linkkien määrittäminen niiden välillä tai sosiaalisten verkostojen (semanttinen) analyysi , josta on tullut yhä enemmän aktiivinen viime aikoina. Tämä alue on uusin, tuntematon kaikista yllä olevista.

Muut alueet

Tekstinkäsittely on yksi WSD:n sovelluksista, sillä jälkimmäinen voi auttaa korjaamaan sanojen oikeinkirjoitusta [17] , korjaamaan isoja ja pieniä kirjaimia, korjaamaan/lisäämään diakriittisiä asiayhteyden semantiikan perusteella.
leksikografian ja WSD: n opinnot rikastavat toisiaan:
1. WSD voi auttaa erottamaan sanoja merkityksiksi käyttämällä empiiristä tietoa ja tarjota indikaattoreita tiettyjen merkityksien konteksteista; Lisäksi WSD voi auttaa luomaan semanttisia verkkoja sähköisistä sanakirjoista [18]
2. toisaalta leksikografit voivat tarjota rikkaampia ja loogisesti/empiirisesti oikein jaoteltuja sanoja merkityksiin, aistiluetteloita sekä annotoituja tekstikokonaisuuksia (esim. "HECTOR-projekti" ja "Sketch Engine")
Semanttinen verkko : Koska semanttinen verkko tarvitsee pohjimmiltaan verkkoaluekohtaista ja rajoittamatonta leksikaalista yksiselitteisyyttä käsitelläkseen Web-asiakirjojen semantiikkaa ja ollakseen vuorovaikutuksessa järjestelmien, ontologioiden ja käyttäjien välillä. WSD:tä käytetään ja tutkitaan sellaisilla aloilla kuin ontologiaoppiminen , domain - taksonomian rakentaminen [19] [20] [21] ja semanttisen verkon rikastaminen .

Tärkeimmät menetelmätyypit

Kuten aina, luonnollisen kielen käsittelyssä on kaksi lähestymistapaa: syvä ja matala.

Ensimmäiseen luokkaan kuuluvat lähestymistavat käsittävät pääsyn niin sanottuun maailmantietoon (maailmantietämys tai commonsense-tietokanta). Esimerkiksi tieto siitä, että "mikä tahansa eloton aineellinen asia voi olla vihreä värin merkityksessä, mutta ei voi olla vihreä kokemattomuuden merkityksessä", on mahdollista määrittää, missä mielessä sanaa "vihreä" käytetään tietyssä kontekstissa. Tällaiset lähestymistavat eivät ole käytännössä niin tehokkaita, koska tällainen tietoluokka maailmasta, vaikka se on mahdollista tallentaa tietokoneystävälliseen muotoon, kattaa hyvin pieniä [22] elämämme alueita, eikä se sovellu täysin kaikille. opinnot. Minun on sanottava, että tämä lähestymistapa ei myöskään aina toimi, esimerkiksi lauseessa "Ohjaaja oli niin vihreä", tiedon avulla on mahdotonta määrittää, tässä tapauksessa ohjaaja on vihreä, koska hän muuttui vihreäksi tai koska hän on kokematon - usein tämä voidaan määrittää vain kontekstin perusteella, mutta koko tekstin logiikan ja merkityksen perusteella.

Myös laskennallisessa lingvistiikassa on vanha perinne soveltaa näitä menetelmiä ohjelmatiedon kannalta, ja usein on melko vaikeaa määrittää, onko tämä tieto kielellistä vai tietoa maailmasta ( englanninkielinen Commonsense-tietokanta ). Ensimmäisen yrityksen teki Margaret Masterman ja hänen kollegansa Cambridgen kielentutkimusyksiköstä Englannissa 1950-luvulla: he käyttivät Rogerin tesaurusdataa ja numeroituja otsikoita . ) aiheiden indikaattoreina ja analysoivat tekstin toistoja käyttämällä asetettua leikkausalgoritmia. Tämä kokeilu ei ollut kovin onnistunut [23] , mutta sillä oli vahva vaikutus myöhempään työhön, erityisesti Yarovskyn työhön 1990-luvulla tesaurusmenetelmän optimoimiseksi valvotun oppimiskoneen avulla.

Pintalähestymistavat eivät yritä ymmärtää tekstiä, ne luottavat vain lähellä olevien sanojen analyysiin, esimerkiksi: jos sanat "meri" tai "kalastus" ovat sanan "basso" vieressä, todennäköisesti tässä tapauksessa on merkitys biologisessa mielessä. Nämä säännöt voidaan purkaa automaattisesti käyttämällä tekstikokoelmaa, jossa on merkitty sanamerkityksiä. Tämä lähestymistapa, vaikka se ei kata edellistä tehon suhteen, ylittää sen helposti käytännössä. Aina on kuitenkin sudenkuoppia, kuten lauseessa "Koirat haukkuvat puuta", joka sisältää sanat "puu" ja "koirat" sanan "haukkuu" vieressä.

Yksiselitteistämiseen on neljä päämenetelmää:

tietoon perustuvat menetelmät (sanakirja- ja tietopohjaiset menetelmät): nämä menetelmät perustuvat pääasiassa sanakirjoihin, tesauruksiin, leksikografisiin tietokantoihin, eivät tekstikorpuihin.
valvotut menetelmät : nämä menetelmät käyttävät tunnisteisia tekstikorjauksia luokittelijan kouluttamiseen .
osittain ohjatut menetelmät (puolivalvotut tai minimaalisesti valvotut menetelmät): Näissä menetelmissä käytetään toissijaista tietoa, kuten termien määritelmiä sanamääritelmissä tai kohdistettua kaksikielistä korpusta .
Valvomattomat menetelmät: useimmat näistä menetelmistä eivät käytä ulkopuolista dataa ja käyttävät vain raakoja, kommentoimattomia korpuja; ne tunnetaan myös termeillä klusterointi ja "sanamerkityksinen syrjintä".

Tietoon perustuvat menetelmät

Lesk-menetelmä [24] on tuottava menetelmä, joka perustuu sanaston tiedon käyttöön. Se perustuu hypoteesiin, että tekstissä vierekkäin olevat sanat liittyvät toisiinsa ja tämä yhteys voidaan havaita sanojen ja niiden merkityksen määrittelyissä. Kaksi (tai useampaa) sanaa voi olla lähellä, jos molemmilla on arvopari, jolla on suurin sanapäällekkäisyys sanakirjan määritelmissä. Esimerkiksi lause "käpy", molempien määritelmissä yhdessä merkityksessä on sanoja, kuten "ikivihreä" ja "puu". Vaihtoehtona edelliselle menetelmälle voit myös käyttää näiden sanojen välistä globaalia suhdetta laskemalla kunkin arvoparin semanttisen läheisyyden WordNetissä .

Vaihtoehtona yllä oleville menetelmille voit käyttää sanojen merkitysten yleistä semanttista samankaltaisuutta ( englanniksi semanttinen samankaltaisuus ), joka perustuu WordNet 'e. Hajautusaktivointiin perustuvia graafipohjaisia menetelmiä on myös käytetty jonkin verran menestyksekkäästi: jotkin niistä ovat osoittaneet tarkkuutta, joka on verrattavissa [25] ohjattuihin oppimismenetelmiin, ja joskus jopa parempi kuin [5] [26] tietyillä alueilla . Myös äskettäin osoitettiin [27] , että jopa yksinkertaisimmat menetelmät, jotka perustuvat graafin liitettävyyden mittauksiin (kuten koko graafin aste/valenssi) voivat osoittaa korkeita tuloksia rikkaan leksikaalisen perustan läsnä ollessa.

Niin kutsuttujen hallintomallien ("valintaiset asetukset" tai "valintarajoitukset") käyttö voi myös olla varsin hyödyllistä. Esimerkiksi käyttämällä tietoa siitä, että sana "basso" kalan merkityksessä esiintyy usein sanan "keittää" tai "syö" kanssa, voimme ratkaista epäselvyyden lauseessa, kuten "keitän bassoa". Tällaisen tiedon luominen maailmasta on kuitenkin erittäin työvoimavaltaista ja lähes mahdotonta.

Ohjatut opetusmenetelmät

Kaikki ohjatut oppimismenetelmät perustuvat olettamukseen, että tarkastelemamme sanan konteksti antaa riittävästi tietoa laskeakseen, missä merkityksessä sitä käytetään tässä tapauksessa (ja siksi sanakirjoista ja tesauruksista saatu tieto leikataan tarpeettomaksi). Kaikkia ohjattuja oppimismalleja on sovellettu WSD-ongelmaan , mukaan lukien niihin liittyvät tekniikat, kuten muuttujien valinta , parametrien optimointi ja ryhmäoppiminen . Tukivektorikoneet ja ilmentymäpohjainen oppiminen ovat osoittautuneet eräiksi tehokkaimmista menetelmistä nykyään, ehkä siksi, että ne pystyvät käsittelemään sanojen ja kontekstien moniparametrisia ominaisuuksia. Edellä mainittujen menetelmien pullonkaulana on kuitenkin vaatimus saada valtava määrä manuaalisesti merkittyjä tekstejä koulutukseen, mikä, kuten jo mainittiin, on työlästä ja kallista. Jälleen nousee esiin tällaisten merkittyjen runkojen omistamisen ongelma.

Osittain valvotut menetelmät

Bootstrapping - menetelmä [28] on yleinen menetelmä luokittelijan iteratiiviseen oppimiseen ja arviointiin sen tehokkuuden lisäämiseksi. Algoritmi alkaa pienellä määrällä alkutietoja jokaiselle sanalle: joko pieni määrä manuaalisesti syötettyjä esimerkkejä konteksteista tai pari erehtymätöntä sääntöä sanan merkityksen määrittämiseksi (esimerkiksi sana "play" kontekstissa sana "basso" tarkoittaa melkein aina, että sana on tarkoitettu musiikillisessa merkityksessä). Näitä tietoja käytetään luokittelijan kouluttamiseen käyttämällä mitä tahansa yllä olevista ohjatuista oppimismenetelmistä. Sitten luokittelijaa käytetään jo nimeämättömien tekstien joukkoon suuren harjoitusnäytteen poimimiseksi, joka sisältää vain "luotettavat" kontekstit. Prosessi toistetaan iteratiivisesti: jokaista seuraavaa luokittelijaa opetetaan vastaavalle suuremmalle kontekstijoukolle - ja toistetaan, kunnes koko korpus on katettu tai kunnes iteraatioiden enimmäismäärä on saavutettu.

Toinen menetelmä käyttää suuria määriä merkitsemätöntä tekstiä saadakseen tietoa sanojen esiintymisestä, mikä voi täydentää tietojamme suuresti. Myös hyvin kohdistettua kaksikielistä korpusta voidaan käyttää kieltenvälisen moniselitteisyyden ratkaisemiseen, koska yhden kielen polysemanttinen sana käännetään aina toiselle kielelle riippuen sen merkityksestä, jossa sitä käytetään. Tätä menetelmää voidaan tietyssä mielessä pitää myös osittaisen oppimisen menetelmänä.

Kaikki yllä olevat tekniikat voivat mahdollistaa ohjattujen oppimismenetelmien mukauttamisen muille alueille.

Ohjaamattomat oppimismenetelmät

Tämäntyyppiset menetelmät ovat yksi vaikeimmista WSD-tehtävistä. Tämän menetelmän pääoletus on toteamus: "samankaltaisia merkityksiä esiintyy samankaltaisissa yhteyksissä" ja siten ne voidaan poimia tekstistä klusteroimalla, käyttämällä jonkin verran kontekstien samankaltaisuutta [29] . Sitten uudet kontekstit voidaan määrittää yhdelle lähimmästä klusterista. Menetelmän suorituskyky on varmasti muita menetelmiä huonompi, mutta vertailu on hieman ongelmallista, koska tuloksena olevat klusterit on heijastettava sanakirjassa oleviin arvoihin. Jos projektiota ei vaadita, voidaan tehdä klusteroitumisen arvioita (mukaan lukien entropia ja puhtaus). Tutkijoilla on suuria toiveita siitä , että ohjaamattomat oppimismenetelmät voivat auttaa voittamaan tiedon hankinnan puutteet , koska ne eivät vaadi liian työlästä koko korpuksen syntaktista ja semanttista merkintää.

Muut menetelmät

On myös muita menetelmiä, jotka perustuvat täysin erilaisiin periaatteisiin kuin edellä:

Word Sense Dominanssin määrittäminen [30] [31] [32] [33] .
Verkkotunnukseen perustuva yksiselitteisyys [34] [35]
WSD käyttäen Cross-Lingual Evidenceä

Paikalliset ongelmat ja tulokset

Tiedonhankinnan pullonkaula onsuurin este monitulkintaongelman ratkaisemiselle . Ohjaamattomat oppimismenetelmät perustuvat tietoon, jota ei juuri ole sähköisissä sanakirjoissa ja muissa kielellisissä sähköisissä tietojärjestelmissä. Ohjatut oppimismenetelmät puolestaan luottavat manuaalisesti kommentoidun korpusin olemassaoloon, jonka olemassaolo on teknisesti mahdollista vain pienelle sanajoukolle testaustarkoituksiin, kuten tehtiin Sensevalille.

Siksi yksi rohkaiseimmista suuntauksista on Internetin käyttö korpuksena leksikaalisen tiedon automaattiseen hankkimiseen [36] . WSD on perinteisesti ymmärretty tapana parantaa tuloksia esimerkiksi tiedonhaussa (IR). Tässä tapauksessa asia on kuitenkin myös päinvastainen: hakukoneilla on yksinkertaiset ja riittävän nopeat ominaisuudet louhiakseen Internetiä WSD-käyttöä varten. Siksi tiedon saamisen ongelma aiheutti tiettyjen menetelmien syntymisen sen hankkimiseksi:

Ulkoiset tietolähteet

Tieto on yksi yksiselitteisen ratkaisun avaimista: se tarjoaa tiedot, joihin ratkaisuprosessi itse perustuu. Nämä tiedot voivat olla sekä tekstikorpuksia että sanakirjoja, tesuruksia, sanastoja, ontologioita: [37] [38] [39]

Strukturoidut lähteet

Thesauri
Elektroniset sanakirjat ( eng. koneellisesti luettavat sanakirjat, MRD:t )
Ontologiat

Strukturoimattomat lähteet

Tekstikorpus : merkitty sanojen merkityksillä ( eng. sense-annotated corpora ) ja ei huomautettu ( eng. raw corpora )
Tietoa sanojen yhteisesiintymisestä ( eng. kollokaatioresurssit )
Muut resurssit , kuten sanaluettelot , lopetuslistat , verkkotunnusten tunnisteet [ 40 ]

Menetelmien arviointi ja vertailu, Senseval-konferenssi

Menetelmien testaus ja vertailu ei ole triviaali tehtävä eri testisarjojen, aistivaraston ja käytettyjen tietolähteiden erojen vuoksi. Ennen kuin luotiin erityisiä tapahtumia järjestelmien vertailua varten, niitä verrattiin manuaalisesti, yksinään, usein pieniin tietosarjoihin. Itse asiassa, jotta kehittäjät voivat testata algoritmiaan, heidän on käytettävä aikaa kaikkien sanojen käytön manuaaliseen merkitsemiseen. Ja samoja menetelmiä on mahdotonta verrata edes samoihin teksteihin, jos niissä käytetään erilaisia sanantulkintajärjestelmiä.

WSD-järjestelmiä vertailevia kansainvälisiä konferensseja on järjestetty menetelmien "yhdistämistä" ja vertailua varten. Senseval (nykyinen nimi Semeval ) on kansainvälinen konferenssi, jossa verrataan leksikaalisia täsmennysjärjestelmiä, ja se järjestetään joka kolmas vuosi vuodesta 1998 lähtien: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004) ja niiden looginen seuraaja SemEvalille. , joka oli kokonaan omistettu WSD-tehtävälle ja pidettiin kerran, vuonna 2007. Hänen tehtäviinsä kuuluu seminaarien ja työpajojen järjestäminen, korpusten manuaalinen valmistelu ja merkintä järjestelmätestausta varten sekä erityyppisten algoritmien vertailu ("kaikki sanat" ja "leksikaalinen näyte" WSD, annotoidut ja annotoimattomat palgoritmit) sekä sellaiset alitehtävät kuin semanttinen roolimerkintä , kiiltävä WSD , leksikaalinen substituutio jne. Osana yllä olevaa toimintaa WSD-järjestelmien vertailuja tehtiin myös englannin kielen lisäksi. Tapahtumissa ei kuitenkaan ollut läsnä yhtään slaavilaisen ryhmän kieltä.

Arviointimallien valinta

Sanojen merkitysjärjestelmä . Ensimmäisissä konferensseissa sanamerkitysjärjestelminä (sanakirjat, leksikaaliset tietokannat), joko vähän tunnettuja aiemmin saavuttamattomia (esim. HECTOR-projekti) tai pieniä, pieniä, epätäydellisiä versioita todellisesta täydellisestä järjestelmästä, joita kilpailussa vaadittiin. käytetty.. Yleensä molemmat eivät olleet riittävän yksityiskohtaisia ja eriytettyjä (eng. coarse-grained), mutta ne valittiin siksi, että vältytään käyttämästä suosituimpia ja yksityiskohtaisimpia (eng. fine-grained) esimerkkejä (esim. WordNet ), koska tämä tekisi kokeesta "epäpuhdasta", koska nämä tietokannat on jo toistuvasti "valaistettu" erilaisissa tutkimuksissa ja arvioinneissa. Havaittiin, että tarkemmilla tuloksilla oli täysin erilaisia, joten algoritmeja päätettiin testata molemmilla aistivarastoilla.

Joukko tarkistettavia sanoja . Myös täsmennysmenetelmien vertailu on jaettu kahteen tyyppiin tarkistettavien sanojen lukumäärän mukaan: tietyn sanajoukon (useimmiten useita kymmeniä) leksikaaliseen polysemiaresoluutioon ja tekstin kaikkien sanojen leksikaaliseen polysemiaresoluutioon. Niiden ero on data-analyysin ja -käsittelyn määrässä: tehtävä "kaikki sanat" ("kaikki sanat-teksti") sisältää kaikkien tekstissä olevien sanojen käsittelyn epäselvyyden vuoksi (ehdottomasti kaikki sanat korpuksessa on ratkaistava ), tehtävä "leksikaalinen näyte" ("rajoitettu joukko") on sallia vain etukäteen määritellyt kohdesanat, jotka sijaitsevat korpuksessamme. Ensimmäisen tyypin oletetaan olevan realistisempi arvio, mutta paljon työläämpi tulosten tarkistamisen kannalta. Toisen testaamisen vaikeuksien vuoksi ensimmäisissä konferensseissa suoritettiin vain testejä testisarja, mutta molemmat sisällytettiin myöhemmin testaukseen.

"Rajoitetun sanajoukon" -tehtävän tapauksessa järjestäjien oli valittava juuri ne avainsanat, joilla järjestelmiä testattiin. Kritiikki ennen Sensevalia tapahtuneesta toiminnasta oli se, että nämä näytteet sarjasta valittiin kokeilijoiden mielijohteesta. Senseval'essa he yrittivät välttää tämän valitsemalla mielivaltaisia sanoja, jotka jaettiin ryhmiin puheen osien, esiintymistiheyden ja monitulkintaisuuden mukaan. Myös puheosan määrittelyongelman sisällyttämisestä WSD-ohjelmaan oli paljon kiistaa, joten järjestäjät päättivät sisällyttää sananäytteeseen sekä selkeästi merkittyjä puheenosia että tietyn määrän epämääräisiä.

Corps . On tarpeen selventää, mikä on merkittyä tekstiä ja mikä merkitsemätöntä tekstiä. Kohdistamaton korpus on pohjimmiltaan tavallisten tekstien massa, joka sisältää tarvittavan määrän maininta "selvittävistä" sanoista. Marked up on sama tekstikokoelma, mutta sillä erolla, että kaikki mainitut sanat sisältävät (esimerkiksi tagina tai muuna metainformaationa) attribuutoitua tietoa näissä yhteyksissä käytettyjen sanojen merkityksestä.

Sekä merkityt tekstit (ohjatut oppimisjärjestelmät) että merkitsemättömät tekstit (ohjaamattomat oppimisjärjestelmät) voivat toimia koulutusmateriaalina leksikaalisen polysemian ratkaisujärjestelmillemme. Prosessi menee näin: useat kielitieteilijät-leksikografit käyvät läpi koko tekstin ja antavat merkityssanakirjan mukaisesti metatietoa näissä yhteyksissä käytettyjen sanojen merkityksestä kaikille sanoille tietyn testatun sananäytteen perusteella. polysemia. Sitten jokaiselle sanalle tehdään eräänlainen päätösvaltaisuus leksikografien päätöksistä ja päätetään, missä merkityksessä sitä käytetään, minkä jälkeen saadut tunnisteet lisätään tekstin lopulliseen versioon; toisin sanoen kaikki valitsemiemme sanojen käyttötavat on täydennetty tarvittavilla metatiedoilla.

Sitten vartalo jaetaan kolmeen osaan. Ensimmäinen, ns. kuivaajo-jakelu (eng. "preliminary run") antaa joukkueille mahdollisuuden säätää ja mukauttaa ohjelmiaan syötteeseen toimitettujen tietojen tyypin ja rakenteen mukaan; sisältää vähimmäistiedot.

Toista osaa kutsutaan koulutusjakeluksi , joka sisältää sanakirjamerkinnät ja korpuksen, jossa on metatietoa kohdesanojen merkityksistä), jonka avulla voit kouluttaa kilpailevia ohjelmia valitsemaan oikein sanat oikein; se annetaan kaikille joukkueille heti alkukierroksen jälkeen. Sanoille tarvittavien kontekstien määrä voi vaihdella melko paljon (muutamasta yli 1000:een) ja riippuu käytettävissä olevien kontekstien määrästä. Sitten tulee harjoitteluvaihe.

Viimeinen osa, jota kutsutaan arviointijakeluksi , ilman metatietoa kohdesanojen merkityksistä, joka on saatavilla koulutusohjelmien päätyttyä, antaa sinun laskea algoritmien tarkkuuden. Ainakin kolme henkilöä on merkinnyt jokaisen kontekstin manuaalisesti, mutta tätä metatietoa ei ole sisällytetty levitettyyn dataan, koska se on tarkistettavana. Kaikkien tämän näytteen läpi kulkevien ohjelmien oli laskettava kullekin kontekstille käytetyn sanan todennäköisin merkitys (tai luettelo arvoista ja niitä vastaavista todennäköisyyksistä); lähetettyään tiedot järjestäjille, he saavat automaattisesti tulokset vertaamalla omaansa (koska arviointiotos, kuten myös koulutus, sisältää selkeää sanankäyttöä).

Ryhmät ja perusviivat . On huomattava, että kaikki algoritmit toimivat eri tavalla ja käyttävät eri tietolähteitä, joten ne kaikki jaettiin ryhmiin tekstinkäsittelytavan mukaan: ohjatut oppimismenetelmät ja ohjaamattomat oppimismenetelmät. Vertailun vuoksi jo tunnettuihin algoritmeihin (joita kutsutaan lähtöpisteiksi - perusviivaksi ) julkaistiin myös niiden tulokset, esimerkiksi kaikki mahdolliset Lesk-algoritmin muunnelmat .

Edelleen, koska WSD-tehtävä vaatii arvosanakirjan ja korpusuksen , järjestäjien oli valittava projektiin joitain olemassa olevista. WordNet ja SemCor ovat suosituimpia esimerkkejä yllä olevista välttämättömistä komponenteista, mutta niiden käyttö tekisi kokeilusta epäpuhdasta, koska nämä tietopohjat on jo toistuvasti "korostettu" eri tutkimuksissa ja arvioinneissa, joten epätäydelliset versiot, joita ei aiemmin ollut saatavilla tai järjestäjien itse tekemät valitaan yleensä molempien asioiden testaamiseen (esim. Senseval-1:ssä molemmat saatiin HECTOR-projektista [41] ).

Algoritmien tarkkuus . Arvioitaessa lähes mitä tahansa luokittelualgoritmia mille tahansa kohteelle, käytetään kahta yleisintä arviointitoimenpidettä - tarkkuus ja palautus ( eng. Precision and Recall ):

tarkkuus (tarkkuus, eli luokkaan oikein määritetty prosenttiosuus kaikista sille osoitetuista objekteista)
muistaminen (täydellisyys, toisin sanoen oikein osoitettujen prosenttiosuus niistä, jotka pitäisi määrittää tähän luokkaan).

Jos järjestelmä kuitenkin huomauttaa jokaisen sanan tai tulos lasketaan kaikille luokille kerralla, tarkkuus ja palautus ovat sama arvo - sitä kutsutaan laskelmien tarkkuudella laskelmien tarkkuudella ( eng. Accuracy ). Tätä mallia on laajennettu käytettäväksi, kun algoritmit tuottavat listan arvoista vastaavilla todennäköisyyksillään.

Tulokset ja ominaisuudet

Senseval-työpajat ovat paras esimerkki parhaiden tulosten oppimisesta WSD-järjestelmistä ja alan tulevista tutkimussuunnista. On olemassa tiettyjä johtopäätöksiä, jotka voidaan tehdä analysoimalla ja tekemällä yhteenveto myöhemmistä konferensseista:

Ohjatuista oppimisjärjestelmistä parhaiten toimivat muistiin perustuvaa oppimista tai SVM:ää käyttävät lähestymistavat, mutta konferenssin järjestäjät korostavat, että parhaat tulokset saavutetaan useiden lähestymistapojen yhdistelmiä käyttävillä järjestelmillä, ja erityisesti niillä, jotka perustuvat leimatuilta oppimiseen. korpus [42] .
SemEval-2007 konferenssin puitteissa selvittämiseksi, missä määrin täsmennysjärjestelmiä voidaan käyttää tiedonhakusovelluksessa , yksi tehtävistä oli täsmennysalgoritmien käyttö tiedonhakutehtävän puitteissa. Tehtävän ydin on seuraava: kaikkien osallistujien on tehtävä haku samalla hakukoneella, mutta ennen hakua on tarpeen laajentaa kyselyitä tai tekstejä valittuja arvoja vastaavilla synonyymeillä.
Tällaisten konferenssien järjestäminen johtaa säännöllisin väliajoin tiedemiehille erittäin arvokkaan tiedon julkaisemiseen: esimerkiksi vertailemaan merkittyjä tekstikokonaisuuksia. Konferenssin yksiselitteisyyteen perustuvat algoritmit käyttävät semanttisesti merkittyjä WordNet-korjauksia. Korpuksen semanttista merkintää käytetään yleensä kahdella päätavalla: perusteena täsmennysohjelman koulutukselle ja sen varmentamiselle sekä tietona yleisimmästä arvosta, joka valitaan tapauksissa, joissa pääalgoritmi ei onnistunut valitsemaan arvoa. Arvioiden mukaan noin 60 % testitekstien sanoista käytetään yleisimmässä merkityksessä, joka on saatu semanttisesti merkitystä SemCor-korpuksesta.
On syytä huomata, että erilaisten järjestelmien käyttö sanojen jakamiseen merkityksiin: hienojakoisempi (erillisempi) ja karkearakeinen (vähemmän erottuva) osoitti hyvin erilaisia tuloksia, joten nyt jokaisessa konferenssissa järjestelmiä verrataan suhteessa ensimmäiseen. ryhmä (esim. ., WordNet), joten toinen (esim. Wordsmyth). Kuitenkin entistä enemmän painotetaan hienojakoisuutta , koska siellä saadut tulokset ovat paljon alhaisemmat.

Alan yleisen tilan ja parhaiden yksiselitteisyysjärjestelmien saavuttaman tason ymmärtämiseksi on tarpeen analysoida ja tutkia huolellisesti parhaat tulokset ja niiden ominaisuudet:

Tulokset, jotka saatiin vähemmän erilaistetuilla arvojärjestelmillä kuin WordNetillä, olivat huomattavasti korkeammat: 88,7 % leksikaalisessa otoksessa ja 82-83 % "kaikki sanat" -tehtävässä. Tämä on hyvä uutinen koko alalle, koska se osoittaa, että sanan merkityksen esittämisen ongelma liittyy vahvasti 80% -90% tarkkuuden ongelmaan, mutta jättää sanojen eriyttämisen merkityksiksi melko ilmeikkääksi ja merkitykselliseksi. ;
"leksikaalisten näytteiden" tehtäväjärjestelmien tulokset osoittavat, että ne ovat saavuttaneet yläpalkin (ns. "tasangon"), kun käytetään eriytettyjä järjestelmiä, kuten WordNet: tutkijat voivat nähdä, että järjestelmät eivät voi ylittää sen kautta tällaisilla alkuehdoilla;
"hienorakeisen" "kaikki sanat" -tehtävän tulokset ratkaistu 65–70 % WordNetillä, kun taas korkeammat pisteet kaunokirjallisessa aineistossa 78 % ja 81 % välillä käyttäen karkearakeisia sanamerkityksiä;
MFC-perusviivan lyöminen on todellinen haaste "kaikki tekstin sanat" -järjestelmille ja vain harvoille pystyi tekemään sen; Luonnollisesti tämä tosiasia ei koske "leksikaalisia näytejärjestelmiä";
On tärkeää huomata, että joskus yksiselitteiset termit kuuluvat myös "suotuisasti" ratkaistujen polysemanttisten yksiköiden tiliin: joidenkin arvioiden mukaan [43] noin 3-10 % merkityistä sanoista voi olla yksiselitteisiä WordNetissä, ja jos lasket parhaan järjestelmän täsmennysresoluution tarkkuus, yksiarvoisia sanoja ei lasketa, parhaan järjestelmän täsmennysresoluutiotarkkuuden arvo voi laskea useita prosentteja.

Muistiinpanot

↑ Anna A. Zaliznyak. POLYSEMINAATIO-ILMIÖ JA SEN KUVAUSTAVAT. Kielitieteen kysymyksiä. - M., 2004. - Nro 2. - S. 20-45
↑ W. Weaver. 1949. Käännös arkistoitu 24. heinäkuuta 2011 Wayback Machinessa . Teoksessa Kielten konekäännös: Fourteen Essays, toim. Tekijät: Locke, WN ja Booth, AD Cambridge, MA: MIT Press.
↑ Y. Bar-Hillel, Language and information (Reading, Mass.: Addison-Wesley, 1964), s. 174-179.
↑ Mark Johnson, How the Statistical Revolution Changes (Computational) Linguistics, ( http://www.aclweb.org/anthology/W/W09/W09-0103.pdf Arkistoitu 14. huhtikuuta 2015 Wayback Machinessa )
↑ 1 2 3 R. Navigli, K. Litkowski, O. Hargraves. 2007. SemEval-2007 Task 07: Coarse-Grained Englanti All-Words Task Arkistoitu 18. maaliskuuta 2012 Wayback Machinessa . Proc. Semeval-2007 Workshopin (SEMEVAL), laskennallisen lingvistiikan yhdistyksen 45. vuosikokouksessa (ACL 2007), Praha, Tsekin tasavalta, s. 30-35.
↑ 1 2 S. Pradhan, E. Loper, D. Dligach, M. Palmer. 2007. SemEval-2007 Tehtävä 17: Englannin leksikaalinen näyte, SRL ja kaikki sanat Arkistoitu 18. maaliskuuta 2012 Wayback Machinessa . Proc. Semeval-2007 Workshopin (SEMEVAL), laskennallisen lingvistiikan yhdistyksen 45. vuosikokouksessa (ACL 2007), Praha, Tsekin tasavalta, s. 87-92.
↑ Lynette Hirschmann, Arvioinnin kehitys (1998) - Tietokoneen puhe ja tieto
↑ C. Fellbaum 1997. Käsinkirjoitustehtävän analyysi. Julkaisussa Proc. ANLP-97 -työpaja tekstin merkitsemisestä leksikaalisella semantiikalla: miksi, mitä ja miten? Washington D.C., Yhdysvallat.
↑ B. Snyder ja M. Palmer. 2004. The English all-words task Arkistoitu 29. kesäkuuta 2011 Wayback Machinessa . Julkaisussa Proc. 3. kansainvälisestä työpajasta tekstin semanttisen analyysin järjestelmien arviointiin (Senseval-3), Barcelona, Espanja, s. 41-43.
↑ Douglas Lenat. Tietokoneet vastaan maalaisjärki . Käyttöpäivä: 10. joulukuuta 2008. Arkistoitu alkuperäisestä 27. heinäkuuta 2013. (määrätön) (GoogleTachTalks youtubessa)
↑ P. Edmonds. 2000. Tehtävän suunnittelu SENSEVAL-2:lle Arkistoitu 28. syyskuuta 2011 Wayback Machinessa . Tech. merkintä. Brightonin yliopisto, Brighton. Iso-Britannia
↑ A. Kilgarriff. 1997. En usko sanan aisteihin Arkistoitu 24. heinäkuuta 2011 Wayback Machinessa . Comput. ihmisen. 31(2), s. 91-113.
↑ D. McCarthy, R. Navigli. 2009. The English Lexical Substitution Task Arkistoitu 9. heinäkuuta 2009 at the Wayback Machine , Language Resources and Evaluation, 43(2), Springer, pp. 139-159.
↑ SANDERSON, M. 1994. Sanaaistien yksiselitteisyys ja tiedonhaku. Tiedonhakua käsittelevän Special Interest Groupin menettelyssä (SIGIR, Dublin, Irlanti). 142-151.
↑ SCHUTZE, H. JA PEDERSEN, J. 1995. Sanaaisteihin perustuva tiedonhaku. Proceedings of SDAIR'95 (Las Vegas, NV). 161-175.
↑ STOKOE, C., OAKES, MJ, AND TAIT, JI 2003. Sanajärjestyksen yksiselitteisyys tiedonhaussa uudelleen. Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (Toronto, Onto., Kanada). 159-166.
↑ YAROWSKY, D. 1994. Päätösluettelot leksikaalisen monitulkintaisuuden ratkaisemiseksi: Sovellus aksentin palauttamiseen espanjaksi ja ranskaksi. Laskennallisen lingvistiikan liiton (Las Cruces, NM) 32. vuosikokouksen julkaisussa. 88-95.
↑ RICHARDSON, SD, DOLAN, WB, JA VANDERWENDE, L. 1998. Mindnet: semanttisen tiedon hankkiminen ja jäsentäminen tekstistä. Proceedings of the 17th International Conference on Computational Linguistics (COLING, Montreal, PQ, Kanada). 1098-1102.
↑ NAVIGLI, R., VELARDI, P., AND GANGEMI, A. 2003. Ontologian oppiminen ja sen soveltaminen automatisoituun terminologian kääntämiseen. IEEE Intel. Syst. 18:1, 22-31.
↑ NAVIGLI, R. JA VELARDI, P. 2004. Domain-ontologioiden oppiminen asiakirjavarastoista ja omistetuilta verkkosivustoilta. Comput. Ling. 30, 2, 151-179.
↑ CIMIANO, P. 2006. Ontologian oppiminen ja populaatio tekstistä: Algoritmit, arviointi ja sovellukset. Springer, New York, NY.
↑ Lenat, Douglas; Guha, R.V. (1989), Building Large Knowledge-Based Systems, Addison-Wesley
↑ Y. Wilks, B. Slator, L. Guthrie. 1996. Sähkösanat: sanakirjat, tietokoneet ja merkitykset. Cambridge, MA: MIT Press.
↑ Michael Lesk, Automaattinen aistien yksiselitteisyys koneellisesti luettavien sanakirjojen avulla: kuinka erottaa käpy jäätelötäpystä, ACM Special Interest Group for Design of Communication Proceedings 5. vuosittaisessa järjestelmädokumentaatiokonferenssissa, s. 24-26, 1986. ISBN 0-89791-224-1
↑ R. Navigli, P. Velardi. 2005. Rakenteelliset semanttiset yhteydet: tietoon perustuva lähestymistapa sanan merkityksen yksiselitteiseen tulkintaan Arkistoitu 9. heinäkuuta 2009 Wayback Machinessa . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 27(7), pp. 1063-1074.
↑ E. Agirre, O. Lopez de Lacalle, A. Soroa. 2009. Tiettyjen verkkotunnusten tietopohjainen WSD: suorituskyky paremmin kuin yleinen valvottu WSD Arkistoitu 24. heinäkuuta 2011 Wayback Machinessa . Julkaisussa Proc. IJCAI, s. 1501-1506.
↑ R. Navigli, M. Lapata. Kokeellinen tutkimus kuvaajien liitettävyydestä valvomattoman sanan merkityksen yksiselitteisyyteen arkistoitu 14. joulukuuta 2010 Wayback Machinessa . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 32(4), IEEE Press, 2010, pp. 678-692.
↑ D. Yarowsky. 1995. Valvomaton sanan merkityksen yksiselitteisyys, joka kilpailee valvottujen menetelmien kanssa Arkistoitu 7. kesäkuuta 2010 Wayback Machinessa . Julkaisussa Proc. Laskennallisen lingvistiikan liiton 33. vuosikokous, s. 189-196.
↑ H. Schütze. 1998. Automatic word sense discrimination Arkistoitu 18. maaliskuuta 2012 Wayback Machinessa . Computational Linguistics, 24(1), s. 97-123.
↑ MCCARTHY, D., KOELING, R., WEEDS, J., JA CARROLL, J. 2004. Vallitsevien aistien löytäminen merkitsemättömästä tekstistä. Laskennallisen lingvistiikkayhdistyksen (Barcelona, Espanja) 42. vuosikokouksen käsittelyssä. 280-287.
↑ MCCARTHY, D., KOELING, R., WEEDS, J., AND CARROLL, J. 2007. Vallitsevien sanaaistien hallitsematon hankkiminen. Comput. Ling. 33, 4, 553-590.
↑ MOHAMMAD, S. JA HIRST, G. 2006. Sanaaistin dominanssin määrittäminen tesaurusten avulla. Proceedings of the 11th Conference on European Chapter of Computational Linguistics Association (EACL, Trento, Italia). 121-128.
↑ LAPATA, M. JA KELLER, F. 2007. Tietojenhaun lähestymistapa aistijärjestykseen. Proceedings of the Human Language Technology Conference of Computational Linguistics Association of Computational Linguistics (HLT-NAACL, Rochester, NY). 348-355.
↑ GLIOZZO, A., MAGNINI, B., JA STRAPPARAVA, C. 2004. Valvomaton verkkotunnuksen relevanssiarvio sanan merkityksen yksiselitteistämiseksi. Vuoden 2004 luonnollisen kielen käsittelyn empiirisiä menetelmiä käsittelevän konferenssin julkaisussa (EMNLP, Barcelona, Espanja). 380-387.
↑ BUITELAAR, P., MAGNINI, B., STRAPPARAVA, C., JA VOSSEN, s. 2006. Domain-speciﬁc WSD. In Word Sense Disambiguation: Algorithms and Applications, E. Agirre ja P. Edmonds, toim. Springer, New York, NY, 275-298.
↑ KILGARRIFF, A. JA GREFENSTETTE, G. 2003. Johdatus erikoisnumeroon Web-korpusena. Comput. Ling. 29, 3, 333-347.
↑ E IDE, N. JA VE´RONIS, J. 1998. Sanamerkitys: tekniikan taso. Comput. Ling. 24:1, 1-40.
↑ LITKOWSKI, KC 2005. Laskennalliset leksikonit ja sanakirjat. Julkaisussa Encyclopedia of Language and Linguistics (2. painos), KR Brown, toim. Elsevier Publishers, Oxford, UK, 753-761.
↑ AGIRRE, E. JA STEVENSON, M. 2006. WSD:n tietolähteet. In Word Sense Disambiguation: Algorithms and Applications, E. Agirre ja P. Edmonds, toim. Springer, New York, NY, 217-251.
↑ MAGNINI, B. JA CAVAGLIA, G. 2000. Aihekenttäkoodien integrointi WordNetiin. Kieliresursseja ja -arviointia käsittelevän 2. konferenssin (LREC, Ateena, Kreikka) julkaisussa. 1413-1418.
↑ 1. Adam Kilgarriff ja Joseph Rosenzweig, Englanti Senseval: Raportti ja tulokset touko-kesäkuu, 2000, Brightonin yliopisto
↑ Rada Mihalcea, Timothy Chklovski, Adam Kilgarriff. Senseval-3:n englanninkielinen leksikaalinen näytetehtävä, 2004. s. 2
↑ Loukachevitch N., Chuiko D. Thesaurus-pohjainen Word Sense Disambiguation, 2007

Suositeltu lukema

Computational Linguistics Special Issue on Word Sense Deambiguation (1998)
Word Sense Disambiguation -arviointiharjoitukset Arkistoitu 2. syyskuuta 2005 Wayback Machinessa WSD-järjestelmien de-facto-standardivertailut.
Robert Navigli. Word Sense Disambiguation: A Survey , ACM Computing Surveys, 41(2), 2009, pp. 1-69. Alan ajan tasalla oleva tekniikka.
Word Sense Yksiselitteisyys kuten on määritelty Scholarpediassa
Word Sense Disambiguation: The State of the Art (PDF) Kattava katsaus Prof. Nancy Ide & Jean Veronis (1998).
Word Sense Disambiguation Tutorial , Rada Mihalcea ja Ted Pedersen (2005).
Word Sense Disambiguation: Algorithms and Applications , toimittaneet Eneko Agirre ja Philip Edmonds (2006), Springer. Kattaa koko alan johtavien tutkijoiden kirjoittamilla luvuilla. www.wsdbook.org kirjan sivusto
Bar-Hillel, Yehoshua. 1964. Kieli ja tieto. New York: Addison-Wesley.
Edmonds, Philip ja Adam Kilgarriff. 2002. Johdatus sanan merkityksen yksiselitteistämisjärjestelmien arviointia käsittelevään erikoisnumeroon. Journal of Natural Language Engineering, 8(4):279-291.
Edmonds, Philip. 2005. Leksinen yksiselitteisyys. The Elsevier Encyclopedia of Language and Linguistics, 2. painos, toim. kirjoittanut Keith Brown, 607-23. Oxford: Elsevier.
Ide, Nancy ja Jean Veronis. 1998. Sanajärjestyksen yksiselitteisyys: Uusinta tekniikkaa. Computational Linguistics, 24(1):1-40.
Jurafsky, Daniel ja James H. Martin. 2000. Puheen ja kielenkäsittely. New Jersey, USA: Prentice Hall.
Litkowski, KC 2005. Laskennalliset sanastot ja sanakirjat. Julkaisussa Encyclopaedia of Language and Linguistics (2. painos), KR Brown, toim. Elsevier Publishers, Oxford, UK, 753-761.
Manning, Christopher D. & Hinrich Schütze. 1999. Tilastollisen luonnollisen kielen käsittelyn perusteet. Cambridge, MA: MIT Press. http://nlp.stanford.edu/fsnlp/
Mihalcea, Rada. 2007. Sanajärjestyksen yksiselitteisyys. Koneoppimisen tietosanakirja. Springer-Verlag.
Resnik, Philip ja David Yarowsky. 2000. Erottelevat järjestelmät ja erottavat aistit: Uusia arviointimenetelmiä sanajärjestyksen yksiselitteisyyteen, Natural Language Engineering, 5(2):113-133. http://www.cs.jhu.edu/~yarovsky/pubs/nle00.ps
Yarowsky, David. 2001. Sanajärjestyksen yksiselitteisyys. Handbook of Natural Language Processing, toim. Dale et ai., 629-654. New York: Marcel Dekker.
Kwong, O. New Perspectives on Computational and Cognitive Strategies for Word Sense Disambiguation. — Springer, 2012. — 118 s. — ISBN 9781461413202 .

luonnollisen kielen käsittely
Yleiset määritelmät	Tekstien runko puhekorpus Lopeta sanat pussi sanoja AI täydellisyys N-grammaa Biggramin salaus trigrammi
Tekstianalyysi	Tekstin segmentointi Osittainen merkintä Pinnan jäsennys Yhdistetty tekstinkäsittely Kollokaatioiden purkaminen johdettu Lemmatisaatio Nimetyn kokonaisuuden tunnistus Resoluutio Tekstin tunneanalyysi Käsitteen purkaminen jäsentäminen Leksikaalisen polysemian ratkaisu Pura terminologia Tietojen talteenotto Kielen tunnistaminen Tapauksen määritelmä
Viittaus	lauseiden purkaminen Abstrakti sukupolvi Usean asiakirjan viittaus Tekstin yksinkertaistaminen
Konekäännös	automatisoitu Hybridi Interlingual Sääntöön perustuva Esimerkkien perusteella Sanakirjapohjainen Perustuu muunnokseen hermostoa Tilastollinen Synkroninen
Tunnistaminen ja tiedonkeruu	Puheentunnistus puhesynteesi Optinen hahmon tunnistus Tekstin luominen
Temaattinen malli	Pachinkon sijoitus Piilevä Dirichlet-sijoitus Piilevä semanttinen analyysi
Vertaisarviointi	Esseiden automaattinen arviointi Konkordanssi Ennustava tekstinsyöttö Kieliopin tarkistus Oikeinkirjoituksen tarkistus Syntaksin arvaus
Luonnollisen kielen käyttöliittymä	virtuaalinen avustaja Virtuaalinen keskustelukumppani Kysymys ja vastaus järjestelmä Äänikäyttöliittymä Interaktiivinen kirjallisuus