Leksikaalinen monimuotoisuuskerroin (CLR, englanti lexical diversity, LD ) on tekstin kvantitatiivinen ominaisuus, joka heijastaa sanakirjan rikkausastetta tietynpituista tekstiä rakennettaessa. Indikaattori perustuu yksittäisten leksikaalisten yksiköiden lukumäärän ( lemmat , englanninkieliset tyypit ) ja niiden esiintymismäärien suhteeseen tekstissä (tekstilomakkeet , englanninkieliset tokenit ) .
Laskettu kaavan mukaan
,missä
Leksisesti rikkaalla tekstillä on korkea leksikaalinen monimuotoisuuskerroin, eli yksittäisten yksiköiden enimmäismäärä tekstin tilavuusyksikköä kohti, leksisesti huonolla tekstillä on taipumus toistaa samoja lekseemejä, minkä vuoksi sen leksiaalinen monimuotoisuus vähenee. Seuraava rajoitus tulee ottaa huomioon KLR:ää laskettaessa: vaikka tekstimuotojen määrä on mahdollisesti ääretön ja voi kasvaa vain analysoitavan tekstidatan joukon laajentuessa, merkkien määrä on silti rajallinen. Siksi on järkevää laskea CLR vain rajoitetun volyymin teksteille. Laskennallisessa lingvistiikassa tähän ongelmaan on ehdotettu useita ratkaisuja [1] .
Lähellä CLR:ää on tekstin leksikaalisen tiheyden kerroin ( eng. lexical density ), joka ilmaisee tekstin itsenäisten puheosien suhteen sanojen kokonaismäärään. Leksikaalisesti tiheämpiä ovat siksi tekstit, joissa käytetään vähemmän apusanastoa. Leksikaaliset tiheyskertoimet voidaan laskea sekä itsenäisille puheenosille yleensä että erikseen substantiiville, adjektiiville, verbeille, adverbeille.
TTR ( englanniksi type/token ratio ) on yksinkertaisin ja eniten kritisoitu tapa laskea leksikaalinen monimuotoisuuskerroin, joka ei ota huomioon tekstin pituusvaikutuksen vaikutusta. TTR:n oletettiin otetun tieteelliseen käyttöön vuonna 1957 lingvodidaktisen asiantuntijan M. Templinin [2] työssä . Esimerkiksi TTR englanninkielisessä ilmaisussa minun on ostettava maitoa, koska minulla ei ole maitoa ("Minun täytyy ostaa maitoa, koska minulla ei ole maitoa") on alhainen ja on 0,73 (vain 8 lekseemaa 11 sanan käyttöä kohti , 8/ 11), ja esimerkiksi lauseessa maito loppu, joten minun täytyy ostaa ("Maito loppui, minun täytyy ostaa") TTR on jo korkeampi (TTR = 10/11 = 0,91) .
TTR voidaan laskea tulkitsemalla tyypin käsitettä eri tavoin : se voi tarkoittaa
1) lekseemiä sen sanamuodoissa kokonaisuudessaan ( lemma ): esimerkiksi lekseemi paita muodoille paita, paita, paita, paidat jne. .,
2) erillinen sanamuoto tai joukko homonyymejä sanamuotoja tai jopa homonyymejä suhteessa näiden sanamuotojen yksittäisiin esiintymisiin tekstissä ("tekstimuodot"): esimerkiksi talot tekstimuodoille kotona, kotona .
Ensimmäinen ratkaisu on kielellisesti oikea, mutta se lisää vaatimuksia kertoimen laskennan automatisointiasteelle, koska se tarkoittaa morfologisen analysaattorin kykyä suorittaa merkinnät puheen osilla ja lemmatisaatiolla. Toinen on teoreettisesta näkökulmasta haavoittuvainen, paljastaa riippuvuuden tietyn kielen morfologiasta (joka esimerkiksi vähentää sen luotettavuutta vertailtaessa alkuperäistä ja käännöstä tekstiä), mutta on helposti automatisoitavissa.
VocD ( vocabulary diversity ) -menetelmää ehdottivat D. Malvern ja hänen kollegansa [3] , ja se on parannettu versio TTR:stä, joka tasoittaa tekstin pituuden vaikutuksia. Menetelmä perustuu menetelmään, jossa tekstistä valitaan satunnaisesti katkelmia, joiden pituus on 35-50 tekstimuotoa, ja lasketaan niille TTR, jonka jälkeen lasketaan tuloksena saadut kaaviot.
Leksikaalisen monimuotoisuuden kerroin osoittautuu tärkeäksi mitattavaksi parametriksi tyylitieteen, diskurssianalyysin, käännöstutkimuksen (alkuperäistä ja käännöstekstiä vertailtaessa), lasten puheen lingvistiikassa.