Taajuussanakirja (tai taajuusluettelo) on joukko tietyn kielen (tai alikielen) sanoja sekä tietoja niiden esiintymistiheydestä . Sanakirja voidaan lajitella frekvenssin, aakkosjärjestyksen (sitten jokaiselle sanalle ilmoitetaan sen esiintymistiheys), sanaryhmien mukaan (esimerkiksi yleisimpien sanojen ensimmäinen tuhat, jota seuraa toinen jne.), tyypillisyyden mukaan ( sanat, jotka ovat yleisiä useimmissa teksteissä) jne. Taajuuslistoja käytetään kieltenopetukseen, uusien sanastojen luomiseen, laskennallisiin lingvistisiin sovelluksiin, kielitypologian tutkimukseen jne.
Yleensä taajuussanakirjat rakennetaan tekstirunkojen pohjalta : otetaan tekstijoukko , joka edustaa kieltä kokonaisuutena, jollekin aihealueelle tai tietylle tekijälle (ks. Gribojedovin Frequency Dictionary ) ja sanamuodot, lemmat ja osat. siitä erotetaan puhe (jälkimmäiset poimitaan, jos korpuksessa on morfologisia merkkejä).
Taajuusluetteloiden luomisen ongelmat ovat:
Kaikki nämä ongelmat johtuvat siitä, että tilastollisesti katsottuna kielessä on suuri joukko harvinaisia tapahtumia ( Zipfin laki ), minkä seurauksena pieni määrä sanoja esiintyy hyvin usein, ja suurin osa sanoilla on hyvin alhainen taajuus. Sanan ja (yleisin sana venäjän kielessä) esiintymistiheys on noin 10 kertaa suurempi kuin sanan noin taajuus , mikä puolestaan esiintyy 100 kertaa useammin kuin tavalliset sanat, kuten matkailu, vanhuus tai muoti .
Hobitti -metaforaa voidaan käyttää kuvaamaan frekvenssipurskeita (Adam Kilgarriff käytti alun perin suhteellisen harvinaista englanninkielistä sanaa whelk, eräänlainen merinilviäinen , englanninkielinen whelk ) : jos korpuksessa on useita hobiteista kertovia tekstejä, käytetään tätä sanaa. melkein joka lauseessa. Tämän seurauksena sen esiintymistiheys näissä teksteissä on verrattavissa funktionaalisten sanojen esiintymistiheyteen, mutta suuren korpuksen taajuusluettelossa, joka sisältää tällaisia tekstejä, tämä sana tulee olemaan uskomattoman korkea. Tällaiset taajuuspurskeet voidaan arvioida käyttämällä variaatiokerrointa : keskihajonnan suhdetta keskitaajuuteen .
Taajuussanakirjat tarjoavat mahdollisuuden vertailla kahta runkoa, jotta voidaan määrittää kummallekin ominaisimmalle sanalle. Joskus sanakirjat osoittavat "absoluuttisen taajuuden", toisin sanoen sanan esiintymistiheyden korpuksessa. Koska korpusten koot voivat olla erilaisia, on yleensä osoitettu suhteellinen esiintymistiheys (kutsutaan yleensä yksinkertaisesti "taajuus"), eli korpuksessa olevan sanan esiintymisten lukumäärän suhde sanojen kokonaismäärään. korpuksessa. Joskus molemmat arvot annetaan. Suhteellinen esiintymistiheys ilmoitetaan joskus prosentteina, ppm:nä tai miljoonasosina ( englanniksi ipm, instances per million Words ). Esimerkiksi sanan ja taajuus on 0,03 (3 % tai 30 ‰ eli noin 30 000 sanaa miljoonassa, sana vanhuus - 0,00003 (0,003 % tai 0,03 ‰ eli noin 30 sanaa miljoonassa).
Voit määrittää avainsanajoukon, joka erottaa yhden korpuksen toisesta, käyttämällä erilaisia tilastollisia mittareita : chi -neliö , todennäköisyyssuhdetesti jne .
Sanakirjatyypit _ | |
---|---|
|
Leksikografia | |
---|---|
Hakemistotyypit _ | |
Sanakirjatyypit |
|
muu |
|
Kielitieteen portaali |