Telinemenetelmä

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 3. lokakuuta 2017 tarkistetusta versiosta . vahvistus vaatii 1 muokkauksen .

Leskin algoritmi  on klassinen tietoon perustuva leksikaalinen yksiselitteistämisalgoritmi , jonka Michael Lesk ehdotti vuonna 1986 .

Kuvaus

Michael Lesk yritti itsenäisesti ratkaista sanan ja sen merkityksen yhdistämisongelman englannin kielellä käyttämällä koneellisesti luettavia sanakirjoja . Menetelmän ideana oli etsiä sanan merkitys sanakirjamääritelmien luettelosta ottaen huomioon konteksti , jossa tätä sanaa käytetään. Pääkriteeri merkityksen valinnassa oli seuraava sääntö: tähän määritelmään kuuluvan merkityksen piti osittain olla sama kuin viereisten sanojen merkitys kontekstissa [1] .

Miten algoritmi toimii

  1. Kyseisen sanan kontekstin erottaminen - enintään 10 sanaa  lähimpänä .
  2. Hae kyseisen sanan kaikista määritelmistä sanakirjasta (mikä tahansa muu vastaava tietolähde) .
  3. Etsi sanoja kontekstista jokaisesta löydetystä määritelmästä . Jos määritelmässä on jokin sana kontekstista, tälle määritelmälle annetaan pisteet (määritelmän oikeellisuusprosentti tässä kontekstissa kasvaa ).
  4. Todennäköisimmäksi arvoksi valitaan se, jolle tällainen risteys osoittautui suuremmiksi.

Esimerkki algoritmin toiminnasta

Esimerkkinä harkitse tehtävää - selvittää sanan " kissa " merkitys tekstissä " Kiinassa on kasvatettu uusia kissarotuja ". Oletetaan, että sanakirja antaa kaksi määritelmää sanalle " kissa ":

  1. " kissa " 1  - kissarodun kotieläin;
  2. " Kissa " 2  on kiipeilyväline.

Algoritmi näyttää, että määritelmällä (1) tässä tekstissä on yksi yhteinen sana  - " rodut ", mutta määritelmällä (2) ei yhtään. Siksi Leskin algoritmi valitsee arvon " cat " 1 .

Menetelmän tekijän huomautukset

Algoritmin edut

Algoritmin haitat

Lesk-algoritmi ei käytä jo löydettyjä määritelmiä uusien sanojen merkityksen etsimiseen. Algoritmi tarkastelee jokaista sanaa erikseen, etsii sille merkitystä, kun yhden sanan oikean merkityksen selvittämisessä algoritmi teki samoin seuraavalla sanalla [1] .

Algoritmin muutokset

On olemassa suuri määrä teoksia, jotka ehdottavat Lesk-algoritmin muunnelman käyttöä. Nämä tutkimukset perustuvat ajatukseen käyttää eri sanastoja (tesaurus, synonyymisanakirjat jne.) tai malleja (morfologisia, syntaktisia jne.) yhdessä. Kaikki nämä teokset keskittyvät erilaisten ei-sanakirjatekstien käsittelyyn, eikä yksikään niistä käytä selittävää sanakirjaa käsittelyn materiaalina. Lisäksi lähes aina prosessi rajoittuu pieneen määrään kokeita eikä riittävän suuria tietoryhmiä prosessoida.

Menetelmän parantaminen

Mahdollisina tavoina parantaa alkuperäistä Lesk-algoritmia käytämme lisätietoa sanojen samankaltaisuudesta ja otamme huomioon eri sanojen osumien merkityksen.

Ensimmäisenä esimerkkinä muunnetusta Lesk-menetelmästä voidaan mainita algoritmin muunnelma, jossa lisätietona käytetään synonyymien sanakirjaa, sananmuodostusmorfologista mallia ja mukana ovat myös alkuperäisen tulkinnan sisältämien sanojen tulkinnat. .

Tärkeä asia on, että sanakirjasta otettuihin tulkintoihin sovelletaan sanaa merkityksen selventämisalgoritmi, mikä yksinkertaistaa huomattavasti tehtävää verrattuna algoritmin soveltamiseen tavallisiin teksteihin seuraavista syistä:

Toisena esimerkkinä muunnetusta Lesk-menetelmästä voimme antaa algoritmin variantin, joka perustuu kahteen hypoteesiin. Ensimmäinen hypoteesi on, että lauseessa esiintyvät sanat voidaan erottaa antamalla niille merkitys, joka on lähimpänä viereisiä sanoja. Tämä seuraa intuitiivisesta näkemyksestä, että samassa lauseessa yhdessä esiintyvät sanat liittyvät välttämättä jollain tavalla, koska sopimalla keskenään ne välittävät jonkin merkityksen. Toinen hypoteesi on, että toisiinsa liittyvät merkitykset voidaan tunnistaa etsimällä niiden määritelmistä sanoja, jotka esiintyvät molempien sanojen tulkinnassa. Tätä hypoteesia voidaan perustella myös intuitiivisella käsityksellä, eli sillä, että merkitykseltään toisiinsa liittyvät sanat voidaan määritellä samoilla termeillä ja ne voivat myös viitata määritelmillään toisiinsa.

Harkitse esimerkiksi kahta sanan " kaleidoskooppi " merkitystä:

  1. optinen laite - putki peililevyillä ja värillisillä laseilla, jotka käännettäessä taituvat erilaisiksi kuvioiksi;
  2. erilaisten ilmiöiden nopea muutos.

Ja teksti "Kaleidoskoopin kauniit värikuviot kiehtovat sekä aikuisia että lapsia." Ensimmäisen määritelmän kanssa tällä tekstillä on kaksi yhteistä sanaa, ja toisessa - ei yhtään. Siksi Leskin algoritmi valitsee ensimmäisen arvon.

Algoritmin ja muiden vastaavien menetelmien kritiikki

Valitettavasti Leskin lähestymistapa on erittäin herkkä määritelmien tarkalle sanamuodolle, joten tietyn sanan puuttuminen voi muuttaa tuloksia radikaalisti. Toinen haittapuoli on, että algoritmi havaitsee päällekkäisyydet vain tarkasteltujen merkityksien tulkintojen välillä. Tämä on merkittävä rajoitus, koska sanakirjamääritelmät ovat yleensä melko lyhyitä eivätkä ne sisällä tarpeeksi sanastoa osoittamaan eroa merkitykseltään samanlaisten määritelmien välillä.

Viime aikoina on ilmestynyt suuri määrä teoksia, jotka ehdottavat Lesk-algoritmin muunnelmien käyttöä. Näissä teoksissa esitetään ajatuksia, jotka liittyvät erilaisten sanakirjojen ( tesaurus , synonyymisanakirjat ) tai mallien ( morfologiset , syntaktiset jne.) lisäkäyttöön, katso esimerkiksi [2] :

Lesk-algoritmista on monia tutkimuksia ja laajennuksia:

Menetelmän tarkkuus

Suhteellisen suuria kokeita tämän menetelmän testaamiseksi ei ole tehty, paitsi kirjan " Ylpeys ja ennakkoluulo " ja Associated Press -sanomalehden korpusissa . Tulos vaihteli 50 prosentista 70 prosenttiin.

Muistiinpanot

  1. 1 2 3 4 5 6 7 Lesk, Michael, 1986 .
  2. On huomattava, että kaikki nämä toimivat[ mitä? ] , lukuun ottamatta (Nastase ja Szpakowicz, 2001), keskittyvät tavallisten tekstien, ei sanakirjojen käsittelyyn , eikä yksikään niistä käytä selittävää sanakirjaa käsittelyn materiaalina . Lisäksi asia rajoittuu lähes aina melko pieniin kokeisiin, eikä riittävän suuria tietoryhmiä prosessoida.
  3. Kwong, 2001 .
  4. Nastase & Szpakowicz, 2001 .
  5. Wilks & Stevenson, 1998 .
  6. Wilks & Stevenson2, 1999 .
  7. Cowie et ai, 1992 .
  8. Yarowsky, 1992 .
  9. Pook & Catlett, 1988 .
  10. Rosenzweig & Kilgarriff, 2000 .
  11. Gelbukh ja Sidorov, 2004 .

Kirjallisuus