Telinemenetelmä

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 3. lokakuuta 2017 tarkistetusta versiosta . vahvistus vaatii 1 muokkauksen .

Leskin algoritmi on klassinen tietoon perustuva leksikaalinen yksiselitteistämisalgoritmi , jonka Michael Lesk ehdotti vuonna 1986 .

Kuvaus

Michael Lesk yritti itsenäisesti ratkaista sanan ja sen merkityksen yhdistämisongelman englannin kielellä käyttämällä koneellisesti luettavia sanakirjoja . Menetelmän ideana oli etsiä sanan merkitys sanakirjamääritelmien luettelosta ottaen huomioon konteksti , jossa tätä sanaa käytetään. Pääkriteeri merkityksen valinnassa oli seuraava sääntö: tähän määritelmään kuuluvan merkityksen piti osittain olla sama kuin viereisten sanojen merkitys kontekstissa [1] .

Miten algoritmi toimii

Kyseisen sanan kontekstin erottaminen - enintään 10 sanaa lähimpänä .
Hae kyseisen sanan kaikista määritelmistä sanakirjasta (mikä tahansa muu vastaava tietolähde) .
Etsi sanoja kontekstista jokaisesta löydetystä määritelmästä . Jos määritelmässä on jokin sana kontekstista, tälle määritelmälle annetaan pisteet (määritelmän oikeellisuusprosentti tässä kontekstissa kasvaa ).
Todennäköisimmäksi arvoksi valitaan se, jolle tällainen risteys osoittautui suuremmiksi.

Esimerkki algoritmin toiminnasta

Esimerkkinä harkitse tehtävää - selvittää sanan " kissa " merkitys tekstissä " Kiinassa on kasvatettu uusia kissarotuja ". Oletetaan, että sanakirja antaa kaksi määritelmää sanalle " kissa ":

" kissa " 1 - kissarodun kotieläin;
" Kissa " 2 on kiipeilyväline.

Algoritmi näyttää, että määritelmällä (1) tässä tekstissä on yksi yhteinen sana - " rodut ", mutta määritelmällä (2) ei yhtään. Siksi Leskin algoritmi valitsee arvon " cat " 1 .

Menetelmän tekijän huomautukset

Lesk piti englannin aakkosten kirjainketjuja sanoina [ 1] .
Kun kontekstille valittiin 4, 6 ja 8 sanaa , algoritmin tulokset eivät eronneet paljon [1] .
Kirjoittaja käytti työssään Oxford English Dictionaries -sanakirjoja tiedon lähteenä [1] .

Algoritmin edut

Algoritmin riippumattomuus syntaksista . Tämä mahdollistaa algoritmin käytön jäsennykseen perustuvien menetelmien lisänä [1] .
Algoritmin riippumattomuus sanan leksikaalisesta merkityksestä . Kontekstin perusteella algoritmi voi sovittaa sanan kuvaannollisiin merkityksiin [ 1] .

Algoritmin haitat

Lesk-algoritmi ei käytä jo löydettyjä määritelmiä uusien sanojen merkityksen etsimiseen. Algoritmi tarkastelee jokaista sanaa erikseen, etsii sille merkitystä, kun yhden sanan oikean merkityksen selvittämisessä algoritmi teki samoin seuraavalla sanalla [1] .

Algoritmin muutokset

On olemassa suuri määrä teoksia, jotka ehdottavat Lesk-algoritmin muunnelman käyttöä. Nämä tutkimukset perustuvat ajatukseen käyttää eri sanastoja (tesaurus, synonyymisanakirjat jne.) tai malleja (morfologisia, syntaktisia jne.) yhdessä. Kaikki nämä teokset keskittyvät erilaisten ei-sanakirjatekstien käsittelyyn, eikä yksikään niistä käytä selittävää sanakirjaa käsittelyn materiaalina. Lisäksi lähes aina prosessi rajoittuu pieneen määrään kokeita eikä riittävän suuria tietoryhmiä prosessoida.

Menetelmän parantaminen

Mahdollisina tavoina parantaa alkuperäistä Lesk-algoritmia käytämme lisätietoa sanojen samankaltaisuudesta ja otamme huomioon eri sanojen osumien merkityksen.

Ensimmäisenä esimerkkinä muunnetusta Lesk-menetelmästä voidaan mainita algoritmin muunnelma, jossa lisätietona käytetään synonyymien sanakirjaa, sananmuodostusmorfologista mallia ja mukana ovat myös alkuperäisen tulkinnan sisältämien sanojen tulkinnat. .

Tärkeä asia on, että sanakirjasta otettuihin tulkintoihin sovelletaan sanaa merkityksen selventämisalgoritmi, mikä yksinkertaistaa huomattavasti tehtävää verrattuna algoritmin soveltamiseen tavallisiin teksteihin seuraavista syistä:

kaikki tulkinnat liittyvät ilmeisesti otsikkoon, koska ne sisältyvät sen määritelmään;
siksi ei ole ongelmaa valita kontekstiikkunan kokoa, jossa sanoja tarkastellaan, vaan koko määritelmää käytetään;
puheosan yksiselitteistäminen (joka on yleensä ensimmäinen askel tällaisissa algoritmeissa) yksinkertaistuu, koska tulkinnat ovat rakenteellisia ja siksi sanojen puheosat tietyissä paikoissa ovat ennustettavissa; Lisäksi tiedot otsikon kielioppiluokasta auttavat.

Toisena esimerkkinä muunnetusta Lesk-menetelmästä voimme antaa algoritmin variantin, joka perustuu kahteen hypoteesiin. Ensimmäinen hypoteesi on, että lauseessa esiintyvät sanat voidaan erottaa antamalla niille merkitys, joka on lähimpänä viereisiä sanoja. Tämä seuraa intuitiivisesta näkemyksestä, että samassa lauseessa yhdessä esiintyvät sanat liittyvät välttämättä jollain tavalla, koska sopimalla keskenään ne välittävät jonkin merkityksen. Toinen hypoteesi on, että toisiinsa liittyvät merkitykset voidaan tunnistaa etsimällä niiden määritelmistä sanoja, jotka esiintyvät molempien sanojen tulkinnassa. Tätä hypoteesia voidaan perustella myös intuitiivisella käsityksellä, eli sillä, että merkitykseltään toisiinsa liittyvät sanat voidaan määritellä samoilla termeillä ja ne voivat myös viitata määritelmillään toisiinsa.

Harkitse esimerkiksi kahta sanan " kaleidoskooppi " merkitystä:

optinen laite - putki peililevyillä ja värillisillä laseilla, jotka käännettäessä taituvat erilaisiksi kuvioiksi;
erilaisten ilmiöiden nopea muutos.

Ja teksti "Kaleidoskoopin kauniit värikuviot kiehtovat sekä aikuisia että lapsia." Ensimmäisen määritelmän kanssa tällä tekstillä on kaksi yhteistä sanaa, ja toisessa - ei yhtään. Siksi Leskin algoritmi valitsee ensimmäisen arvon.

Algoritmin ja muiden vastaavien menetelmien kritiikki

Valitettavasti Leskin lähestymistapa on erittäin herkkä määritelmien tarkalle sanamuodolle, joten tietyn sanan puuttuminen voi muuttaa tuloksia radikaalisti. Toinen haittapuoli on, että algoritmi havaitsee päällekkäisyydet vain tarkasteltujen merkityksien tulkintojen välillä. Tämä on merkittävä rajoitus, koska sanakirjamääritelmät ovat yleensä melko lyhyitä eivätkä ne sisällä tarpeeksi sanastoa osoittamaan eroa merkitykseltään samanlaisten määritelmien välillä.

Viime aikoina on ilmestynyt suuri määrä teoksia, jotka ehdottavat Lesk-algoritmin muunnelmien käyttöä. Näissä teoksissa esitetään ajatuksia, jotka liittyvät erilaisten sanakirjojen ( tesaurus , synonyymisanakirjat ) tai mallien ( morfologiset , syntaktiset jne.) lisäkäyttöön, katso esimerkiksi [2] :

Lesk-algoritmista on monia tutkimuksia ja laajennuksia:

Kwong, 2001 [3] ;
Nastase ja Szpakowicz, 2001 [4] ;
Wilks ja Stevenson, 1998, 1999 [5] [6] ;
Mahesh et ai (Mahesh), 1997;
Cowie et ai., (Cowie), 1992 [7] ;
Yarowsky , 1992 [8] ;
Pook ja Catlett, 1988 [9] ;
Kilgarriff & Rosenzweig, 2000 [10] ;
Alexander Gelbukh, Grigory Sidorov, 2004 [11] .

Menetelmän tarkkuus

Suhteellisen suuria kokeita tämän menetelmän testaamiseksi ei ole tehty, paitsi kirjan " Ylpeys ja ennakkoluulo " ja Associated Press -sanomalehden korpusissa . Tulos vaihteli 50 prosentista 70 prosenttiin.

Muistiinpanot

↑ 1 2 3 4 5 6 7 Lesk, Michael, 1986 .
↑ On huomattava, että kaikki nämä toimivat[ mitä? ] , lukuun ottamatta (Nastase ja Szpakowicz, 2001), keskittyvät tavallisten tekstien, ei sanakirjojen käsittelyyn , eikä yksikään niistä käytä selittävää sanakirjaa käsittelyn materiaalina . Lisäksi asia rajoittuu lähes aina melko pieniin kokeisiin, eikä riittävän suuria tietoryhmiä prosessoida.
↑ Kwong, 2001 .
↑ Nastase & Szpakowicz, 2001 .
↑ Wilks & Stevenson, 1998 .
↑ Wilks & Stevenson2, 1999 .
↑ Cowie et ai, 1992 .
↑ Yarowsky, 1992 .
↑ Pook & Catlett, 1988 .
↑ Rosenzweig & Kilgarriff, 2000 .
↑ Gelbukh ja Sidorov, 2004 .

Kirjallisuus

Lesk, Michael. Automaattinen aistien yksiselitteisyys koneellisesti luettavien sanakirjojen avulla: Kuinka erottaa männynkäpy jäätelötäröstä // Proceedings of the 5th Annual International Conference on Systems Documentation. - 1986. - S. 24-26 .
Agirre, E. ja Edmonds, PG Word Sense Disambiguation: Algorithms and Applications. - Springer, 2007. - ISBN 9781402048098 .

Gelbukh A.F., Sidorov G.O. Sanamerkityksien moniselitteisyyden automaattinen ratkaiseminen sanakirjatulkinnoissa // Tieteelliset ja tekniset tiedot (NTI), sarja 2, Tietoprosessit ja -järjestelmät: päiväkirja. - M .: VINITI RAN, 2004. - Nro 3 . - S. 10-15 . — ISSN 0548-0027 .

Kwong OI muodostaa integroidun leksisen resurssin sanan merkityksen yksiselitteistämiseen . – 2001.

Nastase V. ja Szpakowicz S. Yhdistävät semanttiset suhteet syntaktisilla tasoilla . - Ottawa, Kanada: Ottawan tietotekniikan ja tekniikan korkeakoulu, 2001.

Wilks, Y., Stevenson M. Sanajärjestyksen yksiselitteisyys käyttämällä optimoituja tietolähteiden yhdistelmiä (englanti) // Proceedings of ACL 36/Coling 17, Volume 2. - 1998. - P. 1398-1402 .

Wilks, Y., Stevenson M. Heikkojen tietolähteiden yhdistäminen aistien yksiselitteistämiseen (englanti) // Proceedings of IJCAI-99. - 1999. - P. 884-889 .

Cowie J., Guthrie L., Guthrie G. Leksikaalinen yksiselitteisyys simuloitua lämpökäsittelyä käyttäen // COLING '92 Proceedings of the 14th Conference on Computational linguistics - Volume 1. - 1992. - S. 359-365 .

Yarowksy D. Sanajärjestyksen yksiselitteistäminen käyttämällä suuriin korpoihin koulutettuja Rogetin kategorioiden tilastollisia malleja // Proceeding Coling'92 Proceedings of the 14th Conference on Computational linguistics, Volume 2. - Nante, Ranska, 1992. - P. 454 -460 .

Pook SL, Catlett J. Hakujen järkeä . – Sydney, 1988.

Kilgarriff A., Rosenzweig J. Framework and Results for English SENSEVAL // Computers and the Humanities : Journal. - Kluwer Academic Publishers, 2000. - Ei. 34 . - s. 15-48 . — ISSN 1572-8412 .