Leksinen monimuotoisuuskerroin

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 18.5.2020 tarkistetusta versiosta . tarkastukset vaativat 4 muokkausta .

Leksikaalinen monimuotoisuuskerroin (CLR, englanti lexical diversity, LD ) on tekstin kvantitatiivinen ominaisuus, joka heijastaa sanakirjan rikkausastetta tietynpituista tekstiä rakennettaessa. Indikaattori perustuu yksittäisten leksikaalisten yksiköiden lukumäärän ( lemmat , englanninkieliset tyypit ) ja niiden esiintymismäärien suhteeseen tekstissä (tekstilomakkeet , englanninkieliset tokenit ) .

Laskettu kaavan mukaan

L_{d}=N_{\mathrm {lex} }/N

missä

${\näyttötyyli L_{d))$ — sanaston monimuotoisuuden kerroin,

$N_{\mathrm {lex} }$ - yksilöivien lekseemien tai lemmien lukumäärä analysoitavassa tekstissä,

$N$ - tekstimuotojen lukumäärä (sanamuotojen kokonaismäärä) analysoitavassa tekstissä.

Leksisesti rikkaalla tekstillä on korkea leksikaalinen monimuotoisuuskerroin, eli yksittäisten yksiköiden enimmäismäärä tekstin tilavuusyksikköä kohti, leksisesti huonolla tekstillä on taipumus toistaa samoja lekseemejä, minkä vuoksi sen leksiaalinen monimuotoisuus vähenee. Seuraava rajoitus tulee ottaa huomioon KLR:ää laskettaessa: vaikka tekstimuotojen määrä on mahdollisesti ääretön ja voi kasvaa vain analysoitavan tekstidatan joukon laajentuessa, merkkien määrä on silti rajallinen. Siksi on järkevää laskea CLR vain rajoitetun volyymin teksteille. Laskennallisessa lingvistiikassa tähän ongelmaan on ehdotettu useita ratkaisuja [1] .

Lähellä CLR:ää on tekstin leksikaalisen tiheyden kerroin ( eng. lexical density ), joka ilmaisee tekstin itsenäisten puheosien suhteen sanojen kokonaismäärään. Leksikaalisesti tiheämpiä ovat siksi tekstit, joissa käytetään vähemmän apusanastoa. Leksikaaliset tiheyskertoimet voidaan laskea sekä itsenäisille puheenosille yleensä että erikseen substantiiville, adjektiiville, verbeille, adverbeille.

CLR:n laskentamenetelmät

TTR

TTR ( englanniksi type/token ratio ) on yksinkertaisin ja eniten kritisoitu tapa laskea leksikaalinen monimuotoisuuskerroin, joka ei ota huomioon tekstin pituusvaikutuksen vaikutusta. TTR:n oletettiin otetun tieteelliseen käyttöön vuonna 1957 lingvodidaktisen asiantuntijan M. Templinin [2] työssä . Esimerkiksi TTR englanninkielisessä ilmaisussa minun on ostettava maitoa, koska minulla ei ole maitoa ("Minun täytyy ostaa maitoa, koska minulla ei ole maitoa") on alhainen ja on 0,73 (vain 8 lekseemaa 11 sanan käyttöä kohti , 8/ 11), ja esimerkiksi lauseessa maito loppu, joten minun täytyy ostaa ("Maito loppui, minun täytyy ostaa") TTR on jo korkeampi (TTR = 10/11 = 0,91) .

TTR voidaan laskea tulkitsemalla tyypin käsitettä eri tavoin : se voi tarkoittaa
1) lekseemiä sen sanamuodoissa kokonaisuudessaan ( lemma ): esimerkiksi lekseemi paita muodoille paita, paita, paita, paidat jne. .,
2) erillinen sanamuoto tai joukko homonyymejä sanamuotoja tai jopa homonyymejä suhteessa näiden sanamuotojen yksittäisiin esiintymisiin tekstissä ("tekstimuodot"): esimerkiksi talot tekstimuodoille kotona, kotona .
Ensimmäinen ratkaisu on kielellisesti oikea, mutta se lisää vaatimuksia kertoimen laskennan automatisointiasteelle, koska se tarkoittaa morfologisen analysaattorin kykyä suorittaa merkinnät puheen osilla ja lemmatisaatiolla. Toinen on teoreettisesta näkökulmasta haavoittuvainen, paljastaa riippuvuuden tietyn kielen morfologiasta (joka esimerkiksi vähentää sen luotettavuutta vertailtaessa alkuperäistä ja käännöstä tekstiä), mutta on helposti automatisoitavissa.

Vocd

VocD ( vocabulary diversity ) -menetelmää ehdottivat D. Malvern ja hänen kollegansa [3] , ja se on parannettu versio TTR:stä, joka tasoittaa tekstin pituuden vaikutuksia. Menetelmä perustuu menetelmään, jossa tekstistä valitaan satunnaisesti katkelmia, joiden pituus on 35-50 tekstimuotoa, ja lasketaan niille TTR, jonka jälkeen lasketaan tuloksena saadut kaaviot.

Käyttö

Leksikaalisen monimuotoisuuden kerroin osoittautuu tärkeäksi mitattavaksi parametriksi tyylitieteen, diskurssianalyysin, käännöstutkimuksen (alkuperäistä ja käännöstekstiä vertailtaessa), lasten puheen lingvistiikassa.

Muistiinpanot

↑ Tietoja osoitteessa textinspector.com . Haettu 21. tammikuuta 2021. Arkistoitu alkuperäisestä 28. tammikuuta 2021. (määrätön)
↑ Templin M. Tietyt kielitaidot lapsilla. - Minneapolis: University of Minnesota Press, 1957.
↑ McKee, G., Malvern, D., & Richards, B. Sanaston monimuotoisuuden mittaaminen käyttämällä erityisiä ohjelmistoja. — Kirjallinen ja kielellinen tietojenkäsittely. - 2000. - nro 15(3). - S. 323-337.

Kirjallisuus

Ure, J. (1971). Leksinen tiheys ja rekisteridifferointi. Teoksessa G. Perren ja JLM Trim (toim.), Applications of Linguistics, Lontoo: Cambridge University Press. 443-452.

Linkit

Online-tekstianalysaattori, joka laskee myös CLR:n (ei toimi kyrillisen kirjaimen kanssa)