Leskin algoritmi on klassinen tietoon perustuva leksikaalinen yksiselitteistämisalgoritmi , jonka Michael Lesk ehdotti vuonna 1986 .
Michael Lesk yritti itsenäisesti ratkaista sanan ja sen merkityksen yhdistämisongelman englannin kielellä käyttämällä koneellisesti luettavia sanakirjoja . Menetelmän ideana oli etsiä sanan merkitys sanakirjamääritelmien luettelosta ottaen huomioon konteksti , jossa tätä sanaa käytetään. Pääkriteeri merkityksen valinnassa oli seuraava sääntö: tähän määritelmään kuuluvan merkityksen piti osittain olla sama kuin viereisten sanojen merkitys kontekstissa [1] .
Esimerkkinä harkitse tehtävää - selvittää sanan " kissa " merkitys tekstissä " Kiinassa on kasvatettu uusia kissarotuja ". Oletetaan, että sanakirja antaa kaksi määritelmää sanalle " kissa ":
Algoritmi näyttää, että määritelmällä (1) tässä tekstissä on yksi yhteinen sana - " rodut ", mutta määritelmällä (2) ei yhtään. Siksi Leskin algoritmi valitsee arvon " cat " 1 .
Lesk-algoritmi ei käytä jo löydettyjä määritelmiä uusien sanojen merkityksen etsimiseen. Algoritmi tarkastelee jokaista sanaa erikseen, etsii sille merkitystä, kun yhden sanan oikean merkityksen selvittämisessä algoritmi teki samoin seuraavalla sanalla [1] .
On olemassa suuri määrä teoksia, jotka ehdottavat Lesk-algoritmin muunnelman käyttöä. Nämä tutkimukset perustuvat ajatukseen käyttää eri sanastoja (tesaurus, synonyymisanakirjat jne.) tai malleja (morfologisia, syntaktisia jne.) yhdessä. Kaikki nämä teokset keskittyvät erilaisten ei-sanakirjatekstien käsittelyyn, eikä yksikään niistä käytä selittävää sanakirjaa käsittelyn materiaalina. Lisäksi lähes aina prosessi rajoittuu pieneen määrään kokeita eikä riittävän suuria tietoryhmiä prosessoida.
Mahdollisina tavoina parantaa alkuperäistä Lesk-algoritmia käytämme lisätietoa sanojen samankaltaisuudesta ja otamme huomioon eri sanojen osumien merkityksen.
Ensimmäisenä esimerkkinä muunnetusta Lesk-menetelmästä voidaan mainita algoritmin muunnelma, jossa lisätietona käytetään synonyymien sanakirjaa, sananmuodostusmorfologista mallia ja mukana ovat myös alkuperäisen tulkinnan sisältämien sanojen tulkinnat. .
Tärkeä asia on, että sanakirjasta otettuihin tulkintoihin sovelletaan sanaa merkityksen selventämisalgoritmi, mikä yksinkertaistaa huomattavasti tehtävää verrattuna algoritmin soveltamiseen tavallisiin teksteihin seuraavista syistä:
Toisena esimerkkinä muunnetusta Lesk-menetelmästä voimme antaa algoritmin variantin, joka perustuu kahteen hypoteesiin. Ensimmäinen hypoteesi on, että lauseessa esiintyvät sanat voidaan erottaa antamalla niille merkitys, joka on lähimpänä viereisiä sanoja. Tämä seuraa intuitiivisesta näkemyksestä, että samassa lauseessa yhdessä esiintyvät sanat liittyvät välttämättä jollain tavalla, koska sopimalla keskenään ne välittävät jonkin merkityksen. Toinen hypoteesi on, että toisiinsa liittyvät merkitykset voidaan tunnistaa etsimällä niiden määritelmistä sanoja, jotka esiintyvät molempien sanojen tulkinnassa. Tätä hypoteesia voidaan perustella myös intuitiivisella käsityksellä, eli sillä, että merkitykseltään toisiinsa liittyvät sanat voidaan määritellä samoilla termeillä ja ne voivat myös viitata määritelmillään toisiinsa.
Harkitse esimerkiksi kahta sanan " kaleidoskooppi " merkitystä:
Ja teksti "Kaleidoskoopin kauniit värikuviot kiehtovat sekä aikuisia että lapsia." Ensimmäisen määritelmän kanssa tällä tekstillä on kaksi yhteistä sanaa, ja toisessa - ei yhtään. Siksi Leskin algoritmi valitsee ensimmäisen arvon.
Valitettavasti Leskin lähestymistapa on erittäin herkkä määritelmien tarkalle sanamuodolle, joten tietyn sanan puuttuminen voi muuttaa tuloksia radikaalisti. Toinen haittapuoli on, että algoritmi havaitsee päällekkäisyydet vain tarkasteltujen merkityksien tulkintojen välillä. Tämä on merkittävä rajoitus, koska sanakirjamääritelmät ovat yleensä melko lyhyitä eivätkä ne sisällä tarpeeksi sanastoa osoittamaan eroa merkitykseltään samanlaisten määritelmien välillä.
Viime aikoina on ilmestynyt suuri määrä teoksia, jotka ehdottavat Lesk-algoritmin muunnelmien käyttöä. Näissä teoksissa esitetään ajatuksia, jotka liittyvät erilaisten sanakirjojen ( tesaurus , synonyymisanakirjat ) tai mallien ( morfologiset , syntaktiset jne.) lisäkäyttöön, katso esimerkiksi [2] :
Lesk-algoritmista on monia tutkimuksia ja laajennuksia:
Suhteellisen suuria kokeita tämän menetelmän testaamiseksi ei ole tehty, paitsi kirjan " Ylpeys ja ennakkoluulo " ja Associated Press -sanomalehden korpusissa . Tulos vaihteli 50 prosentista 70 prosenttiin.