Venäjän kansallinen korpus | |
---|---|
URL-osoite | ruscorpora.ru |
kaupallinen | Ei |
Sivuston tyyppi | koulutus/tieteellinen projekti |
Rekisteröinti | kyllä : vaaditaan tekstien lukemiseen; lisenssisopimus |
Kieli (kielet) | venäjä / englanti |
Palvelimen sijainti | Venäjä |
Omistaja | V. V. Vinogradov RAS:n mukaan nimetty venäjän kielen instituutti |
Työn alku | 2003 |
Nykyinen tila | toimii ja kehittyy |
Venäjän kielen kansallinen korpus (NCRL) on haettavissa oleva venäläisten tekstien sähköinen verkkoaineisto. Avattu 29. huhtikuuta 2004 . Myös kirkkoslaavilaisen, vanhan venäläisen (XI-XIV-luvut) ja keskivenäläisen (XV-XVIII vuosisadan alku) tekstien historiallinen korpus on haettavissa.
Korpuksen luomisen aloitti vuonna 2001 ryhmä filologeja Moskovasta , Pietarista , Voronezhista ja muista kaupungeista.
Seuraavat organisaatiot osallistuvat venäjän kielen kansalliskokouksen luomisohjelmaan [1] :
Korpus sisältää sekä kirjallisia tekstejä (fiktiota, muistelmia, journalismia, tieteellistä, uskonnollista kirjallisuutta, jokapäiväistä painoa) että suullisia tekstejä (julkinen puhe ja yksityiset keskustelut).
Korpus sisältää myös runo- ja murretekstien alakorpuksia , rinnakkaistekstikorpuksia (venäjän kielen rinnakkaiskorpuksia on saatavilla seuraaville kielille: englanti, armenia, valkovenäläinen, bulgaria, burjat, espanja, italia, kiina, latvia, saksa, puola , ukraina, ranska , ruotsi, viro ja monikielinen), erillinen sanomalehtikorpus (mediamateriaalia 2000-luvun alusta), kirkon slaavilainen korpus (liturgiset tekstit, nykyaika (XIX-XX-luvut) ja aikaisemmat ajanjaksot), historiallinen (sis. vanha venäjä, vanha venäjä, tuohon kirjaimet), syntaktiset, aksentologiset, multimedia- ja opetusalakorpukset.
Vuodesta 2010 lähtien osana Venäjän kielen kansalliskorpuksen historiallista alakorpustusta on ollut saatavilla koivuntuoren kirjaimia sisältävä tekstikorpus, jossa on täydellinen morfologinen merkintä. Korpuksen osana olevat tuohon kirjainten tekstit on vuorovaikutteisesti linkitetty niiden esittelyyn www-sivustolla gramoty.ru [3] .
Pääkorpuksen määrä kesäkuussa 2022 oli 375 miljoonaa sanankäyttöä ja korpusten kokonaismäärä ylittää 1,5 miljardia sanankäyttöä [4] .
Tekstit on varustettu metamerkinnällä (luontipäivän, tekijän, genren jne. mukaan); tekstien sanamuodot on varustettu automaattisella morfologisella ja semanttisella merkinnällä; rinnakkaiset tekstit tasataan; runokorpuksen tekstit on myös varustettu erityisillä metrimerkinnöillä.
1,5 % teksteistä on varustettu morfologisella [5] ja semanttisella [6] merkinnällä manuaalisesti poistettu homonyymi ("yksityistietoinen alikorpus").
Kehys | Tekstien määrä | Tarjousten määrä | Sanakäyttöjen määrä | % sanankäytöstä |
---|---|---|---|---|
Dezambiguirovannaya kehon osa | 2 tuhatta | 500 tuhatta | 6 miljoonaa | 1,6 % |
Päärakennus | 84 tuhatta | 19,1 miljoonaa | 209 miljoonaa | 57,3 % |
Koko vartalo | 342 tuhatta | 32 miljoonaa | 364 miljoonaa | 100 % |
Tällä hetkellä vain korpushaku on ilmaista ja ilmaista . Korpussivustoa ja sen hakua ylläpitää Yandex - yhtiö, jonka työntekijät osallistuivat myös korpusohjelmiston kehittämiseen. Pääsy koko aineistoon (sen tietokannan kopioiminen ja siirtäminen) on kielletty lisenssisopimuksella. Saadaksesi käyttöösi 1/6 alikorpuksen merkitystä osasta, sinun on rekisteröidyttävä ja hyväksyttävä käyttöoikeussopimus [7] . Pääsyrajoitusongelma on tarkoitettu ratkaistavaksi Open Corpus -projektilla, joka luo myös venäjänkielisen korpusuksen, mutta ilmaisella lisenssillä [8] .
Korpuslingvistiikka | |
---|---|
Englanninkieliset corporat |
|
Venäjänkieliset corporit |
|
Corpora muilla kielillä |
|
Organisaatiot |