Distributiivinen semantiikka

Distributiivinen semantiikka  on kielitieteen ala, joka käsittelee kielellisten yksiköiden semanttisen samankaltaisuuden asteen laskemista niiden jakautumisen (jakauman) perusteella suurissa kielitietomatriisissa ( tekstikorpuissa ).

Jokaiselle sanalle on määritetty oma kontekstivektorinsa . Vektorijoukko muodostaa sanallisen vektoriavaruuden .

Luonnollisen kielen sanoilla ilmaistujen käsitteiden välinen semanttinen etäisyys lasketaan yleensä sanaavaruusvektorien välisenä kosinietäisyydenä.

Historia

" Distributiivinen analyysi  on kielentutkimusmenetelmä, joka perustuu tekstin yksittäisten yksiköiden ympäristön (jakauman, jakautumisen) tutkimukseen, eikä siinä käytetä tietoa näiden yksiköiden täydestä leksikaalisesta tai kieliopillisesta merkityksestä" [1] .

Tämän menetelmän puitteissa tutkittavan kielen teksteihin sovelletaan järjestettyä yleismaailmallisten menettelyjen sarjaa, jonka avulla voidaan erottaa kielen pääyksiköt (foneemit, morfeemit, sanat, lauseet), luokitella ja luokitella ne sekä luoda yhteensopivuussuhteita niiden välille.

Luokittelu perustuu substituutioperiaatteeseen: kielelliset yksiköt kuuluvat samaan luokkaan, jos ne voivat esiintyä samoissa yhteyksissä.

Distributiivista analyysiä ehdotti L. Bloomfield 1920-luvulla. XX vuosisadalla ja sitä käytettiin pääasiassa fonologiassa ja morfologiassa.

3. Harris ja muut kuvailevan kielitieteen edustajat kehittivät tätä menetelmää töissään 1930- ja 1950-luvuilla. XX vuosisadalla.

Samanlaisia ​​ajatuksia esittivät rakennelingvistiikan perustajat F. de Saussure ja L. Wittgenstein.

Psykolingvisti Charles Osgood ehdotti kontekstivektoreiden ideaa osana työtään sanamerkityksien esittämisestä [2] .

Kontekstit, joissa sanat esiintyivät, toimivat monibittisten vektorien mittauksina.

Tällaisina konteksteina Osgoodin teoksissa käytettiin antonyymejä adjektiiveja (esim. nopea-hidas ), joita kyselyyn osallistuneet arvioivat seitsemän pisteen asteikolla.

Esimerkki kontekstuaalisesta ominaisuusavaruudesta, joka kuvaa sanojen hiiri ja rotta merkitystä Osgoodin teoksesta:

Termin kontekstivektori otti käyttöön S. Gallant kuvaamaan sanojen merkitystä ja ratkaisemaan leksikaalista monitulkintaisuutta [3] .

Gallantin työssä käytettiin erilaisia ​​tutkijan antamia attribuutteja, kuten henkilö , mies , auto jne.

Esimerkki kontekstuaalisesta piirreavaruudesta, joka kuvaa Gallantin työn sanan tähtitieteilijä merkitystä:

Kahden viime vuosikymmenen aikana distributiivisen analyysin menetelmää on sovellettu laajalti semantiikan tutkimuksessa.

On kehitetty distributiivis-semanttinen tekniikka ja vastaava ohjelmisto, jonka avulla voidaan automaattisesti vertailla konteksteja, joissa tutkittavat kieliyksiköt esiintyvät, ja laskea niiden väliset semanttiset etäisyydet [4] .

Distributiivinen hypoteesi

Distributiivinen semantiikka perustuu distributiiviseen hypoteesiin : samankaltaisissa yhteyksissä esiintyvillä kielellisillä yksiköillä on samanlainen merkitys [5] .

Psykologiset kokeet vahvistivat tämän hypoteesin totuuden. Esimerkiksi yhdessä työssä [6] kokeeseen osallistujia pyydettiin ilmaisemaan mielipiteensä heille esitettyjen sanaparien synonyymista. Tutkimusaineistoa verrattiin sitten konteksteihin, joissa tutkitut sanat esiintyivät. Kokeilu osoitti positiivisen korrelaation sanojen semanttisen läheisyyden ja niiden kontekstien samankaltaisuuden välillä, joissa ne esiintyvät.

Matemaattinen malli

Lineaarialgebran vektoriavaruuksia käytetään mallin esittämiseen . Tietoa kielellisten yksiköiden jakautumisesta esitetään moninumeroisina vektoreina, jotka muodostavat verbaalisen vektoriavaruuden. Vektorit vastaavat kielellisiä yksiköitä (sanoja tai lauseita), ja ulottuvuudet vastaavat konteksteja. Vektorien koordinaatit ovat numeroita, jotka osoittavat, kuinka monta kertaa tietty sana tai lause esiintyy tietyssä kontekstissa.

Esimerkki sanan vektoriavaruudesta, joka kuvaa sanojen tea and coffee distributiivisia ominaisuuksia , jossa konteksti on viereinen sana:

Kontekstiikkunan koon määräävät tutkimuksen tavoitteet [7] :

Kielellisten yksiköiden välinen semanttinen läheisyys lasketaan vektorien väliseksi etäisyydeksi. Distributiivisen semantiikan tutkimuksessa käytetään useimmiten kosinimitta , joka lasketaan kaavalla:

jossa ja  ovat kaksi vektoria, joiden välinen etäisyys lasketaan.

Tällaisen analyysin jälkeen on mahdollista tunnistaa sanat, jotka ovat merkitykseltään lähinnä tutkittavaa sanaa.

Esimerkki sanaa kissa lähimmistä sanoista (luettelo on saatu venäjänkielisen verkkokorpuksen [8] tietojen perusteella, korpus käsiteltiin Sketch Engine -järjestelmällä [9] ):

Graafisessa muodossa sanat voidaan esittää pisteinä tasossa, kun taas merkitykseltään läheisiä sanoja vastaavat pisteet sijaitsevat lähellä toisiaan. Esimerkki sanaavaruudesta, joka kuvaa supertietokoneiden aihealuetta , Heinrich Schutzen [10] teoksista :

Distributiivisen semantiikan mallit

On olemassa monia erilaisia ​​​​distributiivisen semantiikan malleja, jotka eroavat toisistaan ​​seuraavilla tavoilla:

Seuraavat distributiivis-semanttiset mallit ovat tunnetuimpia:

Vektoriavaruuksien mittapienennys

Distributiivis-semanttisia malleja käytettäessä todellisissa sovelluksissa syntyy ongelma, että vektorien ulottuvuus on liian suuri, mikä vastaa valtavaa määrää tekstikorpuksessa esitettyjä konteksteja. On tarpeen soveltaa erityisiä menetelmiä, joilla voidaan vähentää vektoriavaruuden dimensiota ja harvalukuisuutta ja samalla säilyttää mahdollisimman paljon informaatiota alkuperäisestä vektoriavaruudesta. Tuloksena syntyviä sanojen pakattuja vektorimuotoisia esityksiä englanninkielisessä terminologiassa kutsutaan sanan upotuksiksi .

Menetelmät vektoriavaruuksien pienentämiseksi:

Distributiivisen semantiikan ennustavat mallit

Toinen tapa saada pieniulotteisia vektoreita on koneoppiminen, erityisesti keinotekoiset hermoverkot . Tällaisia ​​ennustavia malleja (eng. prediktiiviset mallit) opetettaessa kunkin sanan kohdeesitys on myös suhteellisen pienikokoinen pakattu vektori (eng. embedding ), jonka samankaltaisuus naapurivektoreiden kanssa maksimoidaan useiden opetuskorpuksen läpivientien aikana. ja samankaltaisuus sanavektoreiden kanssa on minimoitu, sen naapurit eivät ole [12] . Perinteisistä laskentamalleista poiketen tässä lähestymistavassa ei kuitenkaan ole vaihetta vektoriulottuvuuden pienentämiseksi, koska malli alustetaan aluksi pienimittaisilla vektoreilla (useiden satojen komponenttien luokkaa).

Tällaiset ennustavat mallit edustavat luonnollisen kielen semantiikkaa tarkemmin kuin laskennalliset mallit, jotka eivät käytä koneoppimista [13] .

Tämän lähestymistavan tunnetuimpia edustajia ovat Continuous Bag-of-Words (CBOW) ja Continuous Skipgram -algoritmit , jotka toteutettiin ensimmäisen kerran vuonna 2013 esitellyssä word2vec- apuohjelmassa [14] . Esimerkki tällaisten mallien soveltamisesta venäjän kieleen on esitetty RusVectōrēs -verkkopalvelussa .

Sovellukset

Distributiiviset semanttiset mallit ovat löytäneet käyttöä luonnollisen kielen semanttisiin malleihin liittyvässä tutkimuksessa ja käytännön toteutuksissa.

Distributiivisia malleja käytetään ratkaisemaan seuraavat ongelmat [15] :

Ohjelmat

On olemassa useita ohjelmistotyökaluja avoimen lähdekoodin distributiivisen semantiikan tutkimiseen:

Katso myös

Muistiinpanot

  1. Jartseva, 1990 .
  2. Osgood et ai., 1957 .
  3. Gallant, 1991 .
  4. Mitrofanova, 2008 .
  5. Sahlgren, 2008 .
  6. Rubenstein, Goodenough, 1965 .
  7. 1 2 Sharnin et ai., 2013 .
  8. Venäjän Web Corpus .
  9. Sketch Engine .
  10. Schutze, 1992 .
  11. Sahlgren, 2005 .
  12. Kutuzov ja Andreev, 2015 .
  13. Baroni, Marco ja Dinu, Georgiana ja Kruszewski, saksa. Älä laske, ennusta! järjestelmällinen vertailu kontekstin laskemisesta vs. kontekstia ennustavat semanttiset vektorit // Laskennallisen lingvistiikkayhdistyksen 52. vuosikokouksen julkaisu. - 2014. - Nro 1 . - S. 238-247 .
  14. Mikolov, Tomas ja Chen, Kai ja Corrado, Greg ja Dean, Jeffrey. Tehokas estimointi sanaesitysten vektoriavaruudessa // arXiv preprint arXiv:1301.3781. – 2013.
  15. 1 2 Morozova ym., 2014 .
  16. Klyshinsky et ai., 2013 .
  17. Sahlgren, Karlgren, 2005 .
  18. Pekar, 2004 .

Kirjallisuus