Sanamerkitys ( WSD ) on ratkaisematon luonnollisen kielen prosessointiongelma , joka koostuu tehtävästä valita moniselitteisen sanan tai ilmauksen merkitys (tai merkitys) sen mukaan, missä kontekstissa se sijaitsee. Tämä ongelma syntyy diskursiivisessa analyysissä , optimoitaessa hakukoneiden tulosten relevanssia , selvitettäessä anaforisia viittauksia , tutkittaessa tekstin kielellistä koherenssia , analysoitaessa päätelmiä .
Tieteellinen tutkimus leksikaalisen polysemian ratkaisemisesta on ollut soveltavan ja laskennallisen lingvistiikan alalla pitkään ja sillä on pitkä historia. Vuosien varrella ehdotettujen ratkaisujen määrä ja niiden tehokkuus on kasvanut tasaisesti, kunnes tehokkuus on saavuttanut tietyn suhteellisen tehokkaan tarkkuuden tietylle sanajoukolle ja polysemian tyypeille . Ongelma ei ole vielä saanut täydellistä ratkaisua, koska monet suoraan ihmisen puheen kielellisiin piirteisiin liittyvät ongelmat ovat onnistuneen ratkaisun tiellä.
On tutkittu lukuisia menetelmiä tietopohjaisista menetelmistä, säännöistä, leksikografisista lähteistä, ohjatusta oppimisesta tekstikorpuksella, ohjaamattomiin oppimismenetelmiin , jotka klusteroivat sanoja merkityksen perusteella. Näistä tähän mennessä ohjatut oppimismenetelmät ovat olleet tehokkaimpia. Menetelmien objektiivinen vertailu ja arviointi on kuitenkin monimutkainen prosessi, joka riippuu monista tekijöistä. Yleistetyissä sanastojärjestelmissä (englannin kielellä) tehokkuus ylittää säännöllisesti 90 %:n rajan, joskus jopa 96 %. Erilaistetuissa sanastojärjestelmissä tehokkuus on välillä 59–69 %.
Yleisesti ottaen kielellisen ilmaisun tai puheteoksen (tekstin) moniselitteisyys (tai moniselitteisyys) ymmärretään useiden eri merkityksien läsnäoloksi samanaikaisesti [1] . Tiedemiehet jakavat useita tällaisen monitulkintaisuuden tyyppejä: leksiaalinen, syntaktinen ja puhe, mutta termi "WSD" sisältää leksikaalisten (semanttisten) erottelun.
Se, mistä puhumme, voidaan ymmärtää seuraavasta esimerkistä moniselitteisellä sanalla "avain":
sekä 3 kontekstia:
Henkilölle on selvää, että ensimmäisessä virkkeessä sanaa " avain " käytetään ensimmäisessä merkityksessä, toisessa lauseessa - vastaavasti toisessa merkityksessä ja kolmannessa - muunnelmat ovat mahdollisia. Tätä ihmisen kykyä jäljittelevien algoritmien kehittäminen voi joskus olla pelottava tehtävä.
Ratkaisuprosessi vaatii useita asioita: sanastotietojärjestelmiä, jotka määrittelevät sanojen useat merkitykset, ja tekstikokonaisuuden ratkaistavaksi ( joissakin tapauksissa voidaan tarvita muita tiedon lähteitä ).
Tämä ongelma muotoiltiin ensimmäisen kerran erilliseksi ongelmaksi 1940-luvulla konekäännösten alkuaikoina, jolloin se oli yksi laskennallisen lingvistiikan vanhimmista ongelmista. Warren Weaver esitteli kuuluisassa " Käännösmuistiossa" (1949) [2] ongelman tietokonetekniikan näkökulmasta. Tuon ajan tutkijat olivat hyvin tietoisia sen merkityksestä ja monimutkaisuudesta, erityisesti Joshua Bar-Hillel (yksi edelläkävijöistä) ilmaisi vuonna 1960 epäilynsä siitä, etteikö universaali täysin automaattinen konekäännös olisi koskaan toteutettavissa mallintamistarpeen vuoksi. kaikki ihmisten tieto maailmasta [3] .
70-luvulla WSD-ongelmasta tuli osa tekoälyn alalla kehitettyjä semanttisia tulkintajärjestelmiä , mutta ne koostuivat enimmäkseen manuaalisesti johdetuista säännöistä ja riippuivat siksi täysin käytettävissä olevan tiedon määrästä, mikä oli tuolloin erittäin työlästä. vetää pois.
1980-luvulle mennessä tuli saataville sellaisia laajoja resursseja kuin Oxford Advanced Learner's Dictionary of Current English ja manuaalinen sääntöjen kirjoittaminen korvattiin automaattisella tiedon poiminnalla tällaisista lähteistä, mutta menetelmät eivät silti poistuneet ns. perustuvia menetelmiä".
Kuitenkin 90-luvulla "tilastollinen vallankumous" muutti täysin laskennallisen lingvistiikan lähestymistavat ja menetelmät, ja leksikaalisen polysemian ratkaisemisen ongelmasta tuli ongelma, johon voidaan soveltaa kaikenlaisia ohjattuja oppimismenetelmiä [4] .
2000-luku osoitti, että ohjatut oppimismenetelmät ovat saavuttaneet tietyn tarkkuuden eivätkä voi voittaa sitä, joten tutkijoiden huomio on siirtynyt työskentelyyn yleistetympien sanastotietojärjestelmien (karkeajyväiset aistit), aihealueisiin sopeutumista (domain adaptaatio) parissa. , osittain ohjattu oppiminen (puoliohjatut järjestelmät) ja ohjaamaton oppiminen (ohjaamattomat korpuspohjaiset järjestelmät), sekamenetelmät sekä tietokantojen käsittely ja tulosten näyttäminen graafien muodossa (tietopohjaisten järjestelmien palautus graafipohjaisen kautta menetelmät). Tähän päivään asti ohjattuja oppimisjärjestelmiä pidetään kuitenkin tehokkaimpana.
Mutta miksi tällainen tehtävä aiheuttaa niin paljon vaikeuksia ja sen ratkaisujen tulokset osoittavat suhteellisen alhaista tehokkuutta? Leksikaalisen polysemian ratkaisemisen ongelman käsittelyssä havaittiin suuri määrä vaikeuksia, useimmiten ihmisen psykologian ja puheen ominaisuuksien vuoksi.
Ensinnäkin kaikki sanakirjat ovat erilaisia eivätkä vastaa toisiaan. Useimmiten tehtävä erottaa sanan merkitykset toisistaan ei aiheuta vaikeuksia, mutta joissain tapauksissa sanan eri merkitykset voivat olla semanttisesti hyvin lähellä toisiaan (esimerkiksi jos jokainen niistä on metafora tai metonyymia toisilleen), ja tällaisissa tilanteissa merkitysjako eri sanakirjoissa ja tesaurusissa voi vaihdella merkittävästi. Ratkaisu tähän ongelmaan voi olla saman tietolähteen yleinen käyttö: yksi yleinen sanakirja. Maailmanlaajuisesti yleisempää semanttista jakojärjestelmää käyttävien tutkimusten tulokset ovat tehokkaampia [5] [6] , joten osa tutkijoista jättää työssään huomiotta sanakirjojen ja tesaurusten käsittelyn yksityiskohtaisemmalla semanttisella jakojärjestelmällä.
Toiseksi joissakin kielissä sanan osan merkintä voi liittyä hyvin läheisesti yksiselitteisyysongelmaan, minkä seurauksena nämä kaksi ongelmaa voivat häiritä toisiaan. Tiedemiehet eivät ole päässeet yksimielisyyteen siitä, kannattaako ne jakaa kahteen autonomiseen komponenttiin, mutta etu on niiden puolella, jotka uskovat tämän tarpeelliseksi [7] .
Kolmas vaikeus on inhimillinen tekijä . Yksiselitteistämisjärjestelmiä on aina arvioitu vertaamalla tuloksia ihmisen työhön. Ja ihmisille tämä tehtävä ei välttämättä ole yhtä yksinkertainen kuin POS-koodaus - useiden ehdotettujen merkityksien merkitseminen on useita kertoja vaikeampaa [8] . Jos ihminen voi pitää mielessä tai helposti arvata ne puheen osat, joita sana voi olla, niin sanojen kaikkien mahdollisten merkityksien muistaminen ei ole mahdollista. Lisäksi, kuten kävi ilmi, eri ihmisten tulokset eivät aina täsmää [9] eivätkä he usein pääse yhteiseen päätökseen siitä, missä merkityksessä tiettyä sanaa käytetään tietyssä kontekstissa. Tästä huolimatta tutkijat pitävät ihmisen tulosta standardina, vertailukohtana tietokoneen tuloksiin. On huomattava, että ihminen selviää paljon paremmin yleistetyistä sanakirjajärjestelmistä kuin yksityiskohtaisista - ja siksi tutkijoiden huomio on siirtynyt niihin [5] [6] .
Jotkut tutkijat väittävät [10] , että tekstien käsittelyssä terve järki on myös tärkeä , mitä tietokoneella tuskin on mahdollista opettaa. Seuraavat kaksi lausetta ovat esimerkkejä:
Ensimmäinen lause viittaa siihen, että Jill ja Mary ovat toistensa sisaruksia; toisessa, että sekä Jill että Mary ovat molemmat äitejä, eikä se ole tosiasia, että he olisivat sukulaisia. Siksi merkitysten tarkempaa analysointia varten tarvitaan tällaista tietoa maailmasta ja yhteiskunnasta. Lisäksi tämä tieto on joskus tarpeen myös syntaktisten epäselvyyksien ratkaisemisessa ja anaforan ja kataforan analysoinnissa .
Viidenneksi pysyvällä tehtävästä riippumattomalla (tehtävästä riippumattomalla) menetelmäsarjalla ei ole järkeä, koska esimerkiksi sanan hiiri (eläin ja tietokonelaite) moniselitteisyys ei vaikuta englannin-venäläisen ja venäjän- Englanninkielinen käännös ollenkaan (koska molemmilla kielillä molemmat merkitykset sisältyvät samaan sanaan), mutta se vaikuttaa voimakkaasti tiedonhakuun. Voidaan antaa myös päinvastainen esimerkki: kun käännetään sanaa "joki" englannista ranskaksi, meidän on tiedettävä sanan merkitys ("fleuve" on joki, joka virtaa mereen, ja "rivière" on joki, joka virtaa toiseen jokeen). Tästä johtuen erilaiset ongelmat vaativat erilaisia algoritmeja - joten jos jokin hyvä leksikaalinen yksiselitteistämisalgoritmi kehitetään, on mahdotonta olla täysin varma, että se sopii kaikkiin ongelmiin.
Kuudenneksi tiedemiehet nostavat esiin kysymyksen sanan merkitysten diskreetin esityksen mahdollisuudesta. Jopa termi " sanan merkitys " itsessään on melko yleinen ja kiistanalainen. Useimmat ihmiset ovat samaa mieltä työskentelessään yleisten tietojärjestelmien kanssa, joissa on korkea sanahomografia, mutta kun taso laskee ja sanakirjat tarkentuvat, on suuri määrä eroja. Esimerkiksi Senseval-2-konferenssissa, jossa käytettiin yksityiskohtaisia järjestelmiä, ihmisen annotaattorit pääsivät sopimukseen vain 85 % ajasta [11] .
Sanojen merkitykset ovat hyvin joustavia, melko vaihtelevia ja äärimmäisen kontekstuaalisia ja joskus jopa kontekstuaalisesti riippuvaisia, joten niitä ei aina ole tiukasti jaettu useisiin alimerkityksiin [12] . Sanakirjailijat kohtaavat teksteissä usein liian laajoja ja semanttisesti päällekkäisiä alimerkityksiä, ja sanojen standardimerkityksiä on usein korjattava, laajennettava ja kavennettava mitä kummallisimmilla ja odottamattomimmilla tavoilla. Esimerkiksi tässä tilanteessa "lapset juoksevat äitinsä luo" sanaa "lapset" käytetään samanaikaisesti kahdessa merkityksessä: he ovat sekä vanhempiensa lapsia että vain lapsia. Leksikografin tehtävänä on analysoida valtava määrä tekstejä ja aineistoja ja kuvata sanan koko mahdollinen merkitysalue. Toistaiseksi ei kuitenkaan tiedetä, soveltuuko tämä lähestymistapa laskennalliseen ja laskennalliseen lingvistiikkaan, koska leksikografien päätökset tehdään kuvattujen merkityksien täydellisyyden, ei tekstinkäsittelyssä saadun tiedon soveltuvuuden puolesta.
Viime aikoina on ehdotettu ongelmaa, jota kutsutaan leksikaaliseksi substituutioksi , ratkaisuksi sanojen merkityksen eriyttämisongelmaan [13] . Sen tarkoitus on korvata sana toisella, joka säilyttää vanhan merkityksen tässä yhteydessä.
On tunnettu tosiasia, että prosessin tulokset eivät riipu pelkästään menetelmien innovatiivisuudesta ja tehokkuudesta, vaan myös tehtävän erilaisista asetuksista/ominaisuuksista ja ratkaisuprosessin vaatimuksista (esim. sanan merkityksistä, tulosten arvioinnin ominaisuuksista, yksiselitteisyyden kattavuudesta jne.). On myös tärkeää, että suuri määrä NLP-kenttiä voi hyötyä WSD:n tuloksista.
Tiedonhakujärjestelmissä - jos kyselyä haettaessa jätetään huomioimatta ne asiakirjat, joissa jotakin kyselyn sanoista käytetään eri merkityksessä, josta käyttäjä on tällä hetkellä kiinnostunut, niin kyselyn tulosten relevanssi voidaan laskea. lisääntynyt.
Ensimmäiset teokset, joissa tutkittiin WSD:n käyttöä tiedonhaussa , eivät osoittaneet haun tarkkuuden lisääntymistä. Vuonna 1994 Sanderson kuitenkin havaitsi [14] , että parannuksia voidaan havaita vain, jos yksiselitteisyyden tehokkuus ylittää 90 %, jonka yleispätevyydestä kiistellään. Ja vuonna 1995 Schutze ja Pedersen osoittivat [15] , joka osoitti, että edellä mainitulla tehokkuudella voidaan saavuttaa 4 %:n parannus hakutuloksissa. Stokey kuitenkin osoitti, että WSD:n käyttö voi antaa, vaikkakin pienellä, keskimäärin 1,73 %:n tuloksia jopa alhaisemmalla WSD:n tehokkuudella (62,1 %) [16] .
Konekäännösjärjestelmissä luotettavien mekanismien puute sanan merkityksen tunnistamiseksi heikentää merkittävästi käännöksen laatua, koska sanaa ei aina käännetä yksiselitteisesti toiselle kielelle. Ja oikean käännöksen automaattinen määrittäminen kontekstista riippuen on erittäin vaikea tehtävä. Leksisen yksiselitteistämisen on pitkään pidetty suurena haasteena saavuttaa lähes täydellinen konekäännös - nämä ajatukset perustuvat ajatukseen, että WSD ei voi muuta kuin parantaa käännösjärjestelmiä valittaessa oikeat arvoehdokkaat käännökselle. Tätä aluetta ei ole tutkittu niin paljon kuin sen pitäisi olla perinteisten vähemmän tehokkaiden ennalta määriteltyjen sanastotietokantojen ( eng. sense inventory ) vuoksi, joista on pitkään tullut perinteisiä .
Tietyillä alueilla erityisiä käsitteitä koskevat ongelmat kiinnostavat eniten: esimerkiksi lääketieteen alalla lääkkeiden nimien määritteleminen tekstissä voi olla hyödyllistä, kun taas bioinformatiikassa on tarpeen ratkaista epäselvyyksiä nimeämisessä. geenit ja proteiinit - tätä prosessia on kutsuttu tiedon erottamiseksi . Se sisältää sellaisia tehtäviä kuin nimettyjen entiteettien tunnistus ( eng. named-entity -tunnistus ) (NER), lyhennelaajennus (esim. Venäjän federaatio - Venäjän federaatio) ja muita - kaikkea tätä voidaan pitää ratkaisutehtävän polysemiana, vaikka tämä on uusi ja vielä tutkimaton suunta.
Sisällön analysointi ja tekstin pääosien tunnistaminen ideoiden, teemojen ja vastaavien suhteen voi hyötyä suuresti WSD:stä. Esimerkiksitekstien (blogien) luokittelu , tagien antaminen artikkeleihin tai blogikirjoituksiin tai relevanttien (ehkä semanttisesti) linkkien määrittäminen niiden välillä tai sosiaalisten verkostojen (semanttinen) analyysi , josta on tullut yhä enemmän aktiivinen viime aikoina. Tämä alue on uusin, tuntematon kaikista yllä olevista.
Kuten aina, luonnollisen kielen käsittelyssä on kaksi lähestymistapaa: syvä ja matala.
Ensimmäiseen luokkaan kuuluvat lähestymistavat käsittävät pääsyn niin sanottuun maailmantietoon (maailmantietämys tai commonsense-tietokanta). Esimerkiksi tieto siitä, että "mikä tahansa eloton aineellinen asia voi olla vihreä värin merkityksessä, mutta ei voi olla vihreä kokemattomuuden merkityksessä", on mahdollista määrittää, missä mielessä sanaa "vihreä" käytetään tietyssä kontekstissa. Tällaiset lähestymistavat eivät ole käytännössä niin tehokkaita, koska tällainen tietoluokka maailmasta, vaikka se on mahdollista tallentaa tietokoneystävälliseen muotoon, kattaa hyvin pieniä [22] elämämme alueita, eikä se sovellu täysin kaikille. opinnot. Minun on sanottava, että tämä lähestymistapa ei myöskään aina toimi, esimerkiksi lauseessa "Ohjaaja oli niin vihreä", tiedon avulla on mahdotonta määrittää, tässä tapauksessa ohjaaja on vihreä, koska hän muuttui vihreäksi tai koska hän on kokematon - usein tämä voidaan määrittää vain kontekstin perusteella, mutta koko tekstin logiikan ja merkityksen perusteella.
Myös laskennallisessa lingvistiikassa on vanha perinne soveltaa näitä menetelmiä ohjelmatiedon kannalta, ja usein on melko vaikeaa määrittää, onko tämä tieto kielellistä vai tietoa maailmasta ( englanninkielinen Commonsense-tietokanta ). Ensimmäisen yrityksen teki Margaret Masterman ja hänen kollegansa Cambridgen kielentutkimusyksiköstä Englannissa 1950-luvulla: he käyttivät Rogerin tesaurusdataa ja numeroituja otsikoita . ) aiheiden indikaattoreina ja analysoivat tekstin toistoja käyttämällä asetettua leikkausalgoritmia. Tämä kokeilu ei ollut kovin onnistunut [23] , mutta sillä oli vahva vaikutus myöhempään työhön, erityisesti Yarovskyn työhön 1990-luvulla tesaurusmenetelmän optimoimiseksi valvotun oppimiskoneen avulla.
Pintalähestymistavat eivät yritä ymmärtää tekstiä, ne luottavat vain lähellä olevien sanojen analyysiin, esimerkiksi: jos sanat "meri" tai "kalastus" ovat sanan "basso" vieressä, todennäköisesti tässä tapauksessa on merkitys biologisessa mielessä. Nämä säännöt voidaan purkaa automaattisesti käyttämällä tekstikokoelmaa, jossa on merkitty sanamerkityksiä. Tämä lähestymistapa, vaikka se ei kata edellistä tehon suhteen, ylittää sen helposti käytännössä. Aina on kuitenkin sudenkuoppia, kuten lauseessa "Koirat haukkuvat puuta", joka sisältää sanat "puu" ja "koirat" sanan "haukkuu" vieressä.
Yksiselitteistämiseen on neljä päämenetelmää:
Lesk-menetelmä [24] on tuottava menetelmä, joka perustuu sanaston tiedon käyttöön. Se perustuu hypoteesiin, että tekstissä vierekkäin olevat sanat liittyvät toisiinsa ja tämä yhteys voidaan havaita sanojen ja niiden merkityksen määrittelyissä. Kaksi (tai useampaa) sanaa voi olla lähellä, jos molemmilla on arvopari, jolla on suurin sanapäällekkäisyys sanakirjan määritelmissä. Esimerkiksi lause "käpy", molempien määritelmissä yhdessä merkityksessä on sanoja, kuten "ikivihreä" ja "puu". Vaihtoehtona edelliselle menetelmälle voit myös käyttää näiden sanojen välistä globaalia suhdetta laskemalla kunkin arvoparin semanttisen läheisyyden WordNetissä .
Vaihtoehtona yllä oleville menetelmille voit käyttää sanojen merkitysten yleistä semanttista samankaltaisuutta ( englanniksi semanttinen samankaltaisuus ), joka perustuu WordNet 'e. Hajautusaktivointiin perustuvia graafipohjaisia menetelmiä on myös käytetty jonkin verran menestyksekkäästi: jotkin niistä ovat osoittaneet tarkkuutta, joka on verrattavissa [25] ohjattuihin oppimismenetelmiin, ja joskus jopa parempi kuin [5] [26] tietyillä alueilla . Myös äskettäin osoitettiin [27] , että jopa yksinkertaisimmat menetelmät, jotka perustuvat graafin liitettävyyden mittauksiin (kuten koko graafin aste/valenssi) voivat osoittaa korkeita tuloksia rikkaan leksikaalisen perustan läsnä ollessa.
Niin kutsuttujen hallintomallien ("valintaiset asetukset" tai "valintarajoitukset") käyttö voi myös olla varsin hyödyllistä. Esimerkiksi käyttämällä tietoa siitä, että sana "basso" kalan merkityksessä esiintyy usein sanan "keittää" tai "syö" kanssa, voimme ratkaista epäselvyyden lauseessa, kuten "keitän bassoa". Tällaisen tiedon luominen maailmasta on kuitenkin erittäin työvoimavaltaista ja lähes mahdotonta.
Kaikki ohjatut oppimismenetelmät perustuvat olettamukseen, että tarkastelemamme sanan konteksti antaa riittävästi tietoa laskeakseen, missä merkityksessä sitä käytetään tässä tapauksessa (ja siksi sanakirjoista ja tesauruksista saatu tieto leikataan tarpeettomaksi). Kaikkia ohjattuja oppimismalleja on sovellettu WSD-ongelmaan , mukaan lukien niihin liittyvät tekniikat, kuten muuttujien valinta , parametrien optimointi ja ryhmäoppiminen . Tukivektorikoneet ja ilmentymäpohjainen oppiminen ovat osoittautuneet eräiksi tehokkaimmista menetelmistä nykyään, ehkä siksi, että ne pystyvät käsittelemään sanojen ja kontekstien moniparametrisia ominaisuuksia. Edellä mainittujen menetelmien pullonkaulana on kuitenkin vaatimus saada valtava määrä manuaalisesti merkittyjä tekstejä koulutukseen, mikä, kuten jo mainittiin, on työlästä ja kallista. Jälleen nousee esiin tällaisten merkittyjen runkojen omistamisen ongelma.
Bootstrapping - menetelmä [28] on yleinen menetelmä luokittelijan iteratiiviseen oppimiseen ja arviointiin sen tehokkuuden lisäämiseksi. Algoritmi alkaa pienellä määrällä alkutietoja jokaiselle sanalle: joko pieni määrä manuaalisesti syötettyjä esimerkkejä konteksteista tai pari erehtymätöntä sääntöä sanan merkityksen määrittämiseksi (esimerkiksi sana "play" kontekstissa sana "basso" tarkoittaa melkein aina, että sana on tarkoitettu musiikillisessa merkityksessä). Näitä tietoja käytetään luokittelijan kouluttamiseen käyttämällä mitä tahansa yllä olevista ohjatuista oppimismenetelmistä. Sitten luokittelijaa käytetään jo nimeämättömien tekstien joukkoon suuren harjoitusnäytteen poimimiseksi, joka sisältää vain "luotettavat" kontekstit. Prosessi toistetaan iteratiivisesti: jokaista seuraavaa luokittelijaa opetetaan vastaavalle suuremmalle kontekstijoukolle - ja toistetaan, kunnes koko korpus on katettu tai kunnes iteraatioiden enimmäismäärä on saavutettu.
Toinen menetelmä käyttää suuria määriä merkitsemätöntä tekstiä saadakseen tietoa sanojen esiintymisestä, mikä voi täydentää tietojamme suuresti. Myös hyvin kohdistettua kaksikielistä korpusta voidaan käyttää kieltenvälisen moniselitteisyyden ratkaisemiseen, koska yhden kielen polysemanttinen sana käännetään aina toiselle kielelle riippuen sen merkityksestä, jossa sitä käytetään. Tätä menetelmää voidaan tietyssä mielessä pitää myös osittaisen oppimisen menetelmänä.
Kaikki yllä olevat tekniikat voivat mahdollistaa ohjattujen oppimismenetelmien mukauttamisen muille alueille.
Tämäntyyppiset menetelmät ovat yksi vaikeimmista WSD-tehtävistä. Tämän menetelmän pääoletus on toteamus: "samankaltaisia merkityksiä esiintyy samankaltaisissa yhteyksissä" ja siten ne voidaan poimia tekstistä klusteroimalla, käyttämällä jonkin verran kontekstien samankaltaisuutta [29] . Sitten uudet kontekstit voidaan määrittää yhdelle lähimmästä klusterista. Menetelmän suorituskyky on varmasti muita menetelmiä huonompi, mutta vertailu on hieman ongelmallista, koska tuloksena olevat klusterit on heijastettava sanakirjassa oleviin arvoihin. Jos projektiota ei vaadita, voidaan tehdä klusteroitumisen arvioita (mukaan lukien entropia ja puhtaus). Tutkijoilla on suuria toiveita siitä , että ohjaamattomat oppimismenetelmät voivat auttaa voittamaan tiedon hankinnan puutteet , koska ne eivät vaadi liian työlästä koko korpuksen syntaktista ja semanttista merkintää.
On myös muita menetelmiä, jotka perustuvat täysin erilaisiin periaatteisiin kuin edellä:
Tiedonhankinnan pullonkaula onsuurin este monitulkintaongelman ratkaisemiselle . Ohjaamattomat oppimismenetelmät perustuvat tietoon, jota ei juuri ole sähköisissä sanakirjoissa ja muissa kielellisissä sähköisissä tietojärjestelmissä. Ohjatut oppimismenetelmät puolestaan luottavat manuaalisesti kommentoidun korpusin olemassaoloon, jonka olemassaolo on teknisesti mahdollista vain pienelle sanajoukolle testaustarkoituksiin, kuten tehtiin Sensevalille.
Siksi yksi rohkaiseimmista suuntauksista on Internetin käyttö korpuksena leksikaalisen tiedon automaattiseen hankkimiseen [36] . WSD on perinteisesti ymmärretty tapana parantaa tuloksia esimerkiksi tiedonhaussa (IR). Tässä tapauksessa asia on kuitenkin myös päinvastainen: hakukoneilla on yksinkertaiset ja riittävän nopeat ominaisuudet louhiakseen Internetiä WSD-käyttöä varten. Siksi tiedon saamisen ongelma aiheutti tiettyjen menetelmien syntymisen sen hankkimiseksi:
Tieto on yksi yksiselitteisen ratkaisun avaimista: se tarjoaa tiedot, joihin ratkaisuprosessi itse perustuu. Nämä tiedot voivat olla sekä tekstikorpuksia että sanakirjoja, tesuruksia, sanastoja, ontologioita: [37] [38] [39]
Menetelmien testaus ja vertailu ei ole triviaali tehtävä eri testisarjojen, aistivaraston ja käytettyjen tietolähteiden erojen vuoksi. Ennen kuin luotiin erityisiä tapahtumia järjestelmien vertailua varten, niitä verrattiin manuaalisesti, yksinään, usein pieniin tietosarjoihin. Itse asiassa, jotta kehittäjät voivat testata algoritmiaan, heidän on käytettävä aikaa kaikkien sanojen käytön manuaaliseen merkitsemiseen. Ja samoja menetelmiä on mahdotonta verrata edes samoihin teksteihin, jos niissä käytetään erilaisia sanantulkintajärjestelmiä.
WSD-järjestelmiä vertailevia kansainvälisiä konferensseja on järjestetty menetelmien "yhdistämistä" ja vertailua varten. Senseval (nykyinen nimi Semeval ) on kansainvälinen konferenssi, jossa verrataan leksikaalisia täsmennysjärjestelmiä, ja se järjestetään joka kolmas vuosi vuodesta 1998 lähtien: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004) ja niiden looginen seuraaja SemEvalille. , joka oli kokonaan omistettu WSD-tehtävälle ja pidettiin kerran, vuonna 2007. Hänen tehtäviinsä kuuluu seminaarien ja työpajojen järjestäminen, korpusten manuaalinen valmistelu ja merkintä järjestelmätestausta varten sekä erityyppisten algoritmien vertailu ("kaikki sanat" ja "leksikaalinen näyte" WSD, annotoidut ja annotoimattomat palgoritmit) sekä sellaiset alitehtävät kuin semanttinen roolimerkintä , kiiltävä WSD , leksikaalinen substituutio jne. Osana yllä olevaa toimintaa WSD-järjestelmien vertailuja tehtiin myös englannin kielen lisäksi. Tapahtumissa ei kuitenkaan ollut läsnä yhtään slaavilaisen ryhmän kieltä.
Sanojen merkitysjärjestelmä . Ensimmäisissä konferensseissa sanamerkitysjärjestelminä (sanakirjat, leksikaaliset tietokannat), joko vähän tunnettuja aiemmin saavuttamattomia (esim. HECTOR-projekti) tai pieniä, pieniä, epätäydellisiä versioita todellisesta täydellisestä järjestelmästä, joita kilpailussa vaadittiin. käytetty.. Yleensä molemmat eivät olleet riittävän yksityiskohtaisia ja eriytettyjä (eng. coarse-grained), mutta ne valittiin siksi, että vältytään käyttämästä suosituimpia ja yksityiskohtaisimpia (eng. fine-grained) esimerkkejä (esim. WordNet ), koska tämä tekisi kokeesta "epäpuhdasta", koska nämä tietokannat on jo toistuvasti "valaistettu" erilaisissa tutkimuksissa ja arvioinneissa. Havaittiin, että tarkemmilla tuloksilla oli täysin erilaisia, joten algoritmeja päätettiin testata molemmilla aistivarastoilla.
Joukko tarkistettavia sanoja . Myös täsmennysmenetelmien vertailu on jaettu kahteen tyyppiin tarkistettavien sanojen lukumäärän mukaan: tietyn sanajoukon (useimmiten useita kymmeniä) leksikaaliseen polysemiaresoluutioon ja tekstin kaikkien sanojen leksikaaliseen polysemiaresoluutioon. Niiden ero on data-analyysin ja -käsittelyn määrässä: tehtävä "kaikki sanat" ("kaikki sanat-teksti") sisältää kaikkien tekstissä olevien sanojen käsittelyn epäselvyyden vuoksi (ehdottomasti kaikki sanat korpuksessa on ratkaistava ), tehtävä "leksikaalinen näyte" ("rajoitettu joukko") on sallia vain etukäteen määritellyt kohdesanat, jotka sijaitsevat korpuksessamme. Ensimmäisen tyypin oletetaan olevan realistisempi arvio, mutta paljon työläämpi tulosten tarkistamisen kannalta. Toisen testaamisen vaikeuksien vuoksi ensimmäisissä konferensseissa suoritettiin vain testejä testisarja, mutta molemmat sisällytettiin myöhemmin testaukseen.
"Rajoitetun sanajoukon" -tehtävän tapauksessa järjestäjien oli valittava juuri ne avainsanat, joilla järjestelmiä testattiin. Kritiikki ennen Sensevalia tapahtuneesta toiminnasta oli se, että nämä näytteet sarjasta valittiin kokeilijoiden mielijohteesta. Senseval'essa he yrittivät välttää tämän valitsemalla mielivaltaisia sanoja, jotka jaettiin ryhmiin puheen osien, esiintymistiheyden ja monitulkintaisuuden mukaan. Myös puheosan määrittelyongelman sisällyttämisestä WSD-ohjelmaan oli paljon kiistaa, joten järjestäjät päättivät sisällyttää sananäytteeseen sekä selkeästi merkittyjä puheenosia että tietyn määrän epämääräisiä.
Corps . On tarpeen selventää, mikä on merkittyä tekstiä ja mikä merkitsemätöntä tekstiä. Kohdistamaton korpus on pohjimmiltaan tavallisten tekstien massa, joka sisältää tarvittavan määrän maininta "selvittävistä" sanoista. Marked up on sama tekstikokoelma, mutta sillä erolla, että kaikki mainitut sanat sisältävät (esimerkiksi tagina tai muuna metainformaationa) attribuutoitua tietoa näissä yhteyksissä käytettyjen sanojen merkityksestä.
Sekä merkityt tekstit (ohjatut oppimisjärjestelmät) että merkitsemättömät tekstit (ohjaamattomat oppimisjärjestelmät) voivat toimia koulutusmateriaalina leksikaalisen polysemian ratkaisujärjestelmillemme. Prosessi menee näin: useat kielitieteilijät-leksikografit käyvät läpi koko tekstin ja antavat merkityssanakirjan mukaisesti metatietoa näissä yhteyksissä käytettyjen sanojen merkityksestä kaikille sanoille tietyn testatun sananäytteen perusteella. polysemia. Sitten jokaiselle sanalle tehdään eräänlainen päätösvaltaisuus leksikografien päätöksistä ja päätetään, missä merkityksessä sitä käytetään, minkä jälkeen saadut tunnisteet lisätään tekstin lopulliseen versioon; toisin sanoen kaikki valitsemiemme sanojen käyttötavat on täydennetty tarvittavilla metatiedoilla.
Sitten vartalo jaetaan kolmeen osaan. Ensimmäinen, ns. kuivaajo-jakelu (eng. "preliminary run") antaa joukkueille mahdollisuuden säätää ja mukauttaa ohjelmiaan syötteeseen toimitettujen tietojen tyypin ja rakenteen mukaan; sisältää vähimmäistiedot.
Toista osaa kutsutaan koulutusjakeluksi , joka sisältää sanakirjamerkinnät ja korpuksen, jossa on metatietoa kohdesanojen merkityksistä), jonka avulla voit kouluttaa kilpailevia ohjelmia valitsemaan oikein sanat oikein; se annetaan kaikille joukkueille heti alkukierroksen jälkeen. Sanoille tarvittavien kontekstien määrä voi vaihdella melko paljon (muutamasta yli 1000:een) ja riippuu käytettävissä olevien kontekstien määrästä. Sitten tulee harjoitteluvaihe.
Viimeinen osa, jota kutsutaan arviointijakeluksi , ilman metatietoa kohdesanojen merkityksistä, joka on saatavilla koulutusohjelmien päätyttyä, antaa sinun laskea algoritmien tarkkuuden. Ainakin kolme henkilöä on merkinnyt jokaisen kontekstin manuaalisesti, mutta tätä metatietoa ei ole sisällytetty levitettyyn dataan, koska se on tarkistettavana. Kaikkien tämän näytteen läpi kulkevien ohjelmien oli laskettava kullekin kontekstille käytetyn sanan todennäköisin merkitys (tai luettelo arvoista ja niitä vastaavista todennäköisyyksistä); lähetettyään tiedot järjestäjille, he saavat automaattisesti tulokset vertaamalla omaansa (koska arviointiotos, kuten myös koulutus, sisältää selkeää sanankäyttöä).
Ryhmät ja perusviivat . On huomattava, että kaikki algoritmit toimivat eri tavalla ja käyttävät eri tietolähteitä, joten ne kaikki jaettiin ryhmiin tekstinkäsittelytavan mukaan: ohjatut oppimismenetelmät ja ohjaamattomat oppimismenetelmät. Vertailun vuoksi jo tunnettuihin algoritmeihin (joita kutsutaan lähtöpisteiksi - perusviivaksi ) julkaistiin myös niiden tulokset, esimerkiksi kaikki mahdolliset Lesk-algoritmin muunnelmat .
Edelleen, koska WSD-tehtävä vaatii arvosanakirjan ja korpusuksen , järjestäjien oli valittava projektiin joitain olemassa olevista. WordNet ja SemCor ovat suosituimpia esimerkkejä yllä olevista välttämättömistä komponenteista, mutta niiden käyttö tekisi kokeilusta epäpuhdasta, koska nämä tietopohjat on jo toistuvasti "korostettu" eri tutkimuksissa ja arvioinneissa, joten epätäydelliset versiot, joita ei aiemmin ollut saatavilla tai järjestäjien itse tekemät valitaan yleensä molempien asioiden testaamiseen (esim. Senseval-1:ssä molemmat saatiin HECTOR-projektista [41] ).
Algoritmien tarkkuus . Arvioitaessa lähes mitä tahansa luokittelualgoritmia mille tahansa kohteelle, käytetään kahta yleisintä arviointitoimenpidettä - tarkkuus ja palautus ( eng. Precision and Recall ):
Jos järjestelmä kuitenkin huomauttaa jokaisen sanan tai tulos lasketaan kaikille luokille kerralla, tarkkuus ja palautus ovat sama arvo - sitä kutsutaan laskelmien tarkkuudella laskelmien tarkkuudella ( eng. Accuracy ). Tätä mallia on laajennettu käytettäväksi, kun algoritmit tuottavat listan arvoista vastaavilla todennäköisyyksillään.
Senseval-työpajat ovat paras esimerkki parhaiden tulosten oppimisesta WSD-järjestelmistä ja alan tulevista tutkimussuunnista. On olemassa tiettyjä johtopäätöksiä, jotka voidaan tehdä analysoimalla ja tekemällä yhteenveto myöhemmistä konferensseista:
Alan yleisen tilan ja parhaiden yksiselitteisyysjärjestelmien saavuttaman tason ymmärtämiseksi on tarpeen analysoida ja tutkia huolellisesti parhaat tulokset ja niiden ominaisuudet:
luonnollisen kielen käsittely | |
---|---|
Yleiset määritelmät | |
Tekstianalyysi |
|
Viittaus |
|
Konekäännös |
|
Tunnistaminen ja tiedonkeruu | |
Temaattinen malli | |
Vertaisarviointi |
|
Luonnollisen kielen käyttöliittymä |