Venäjän kansallinen korpus

Venäjän kansallinen korpus
URL-osoite ruscorpora.ru
kaupallinen Ei
Sivuston tyyppi koulutus/tieteellinen projekti
Rekisteröinti kyllä ​​: vaaditaan tekstien lukemiseen; lisenssisopimus
Kieli (kielet) venäjä / englanti
Palvelimen sijainti Venäjä
Omistaja V. V. Vinogradov RAS:n mukaan nimetty venäjän kielen instituutti
Työn alku 2003
Nykyinen tila toimii ja kehittyy

Venäjän kielen kansallinen korpus (NCRL)  on haettavissa oleva venäläisten tekstien sähköinen verkkoaineisto. Avattu 29. huhtikuuta 2004 . Myös kirkkoslaavilaisen, vanhan venäläisen (XI-XIV-luvut) ja keskivenäläisen (XV-XVIII vuosisadan alku) tekstien historiallinen korpus on haettavissa.

Kääntäjät

Korpuksen luomisen aloitti vuonna 2001 ryhmä filologeja Moskovasta , Pietarista , Voronezhista ja muista kaupungeista.

Seuraavat organisaatiot osallistuvat venäjän kielen kansalliskokouksen luomisohjelmaan [1] :

Joukkokunnan kokoonpano

Korpus sisältää sekä kirjallisia tekstejä (fiktiota, muistelmia, journalismia, tieteellistä, uskonnollista kirjallisuutta, jokapäiväistä painoa) että suullisia tekstejä (julkinen puhe ja yksityiset keskustelut).

Korpus sisältää myös runo- ja murretekstien alakorpuksia , rinnakkaistekstikorpuksia (venäjän kielen rinnakkaiskorpuksia on saatavilla seuraaville kielille: englanti, armenia, valkovenäläinen, bulgaria, burjat, espanja, italia, kiina, latvia, saksa, puola , ukraina, ranska , ruotsi, viro ja monikielinen), erillinen sanomalehtikorpus (mediamateriaalia 2000-luvun alusta), kirkon slaavilainen korpus (liturgiset tekstit, nykyaika (XIX-XX-luvut) ja aikaisemmat ajanjaksot), historiallinen (sis. vanha venäjä, vanha venäjä, tuohon kirjaimet), syntaktiset, aksentologiset, multimedia- ja opetusalakorpukset.

Vuodesta 2010 lähtien osana Venäjän kielen kansalliskorpuksen historiallista alakorpustusta on ollut saatavilla koivuntuoren kirjaimia sisältävä tekstikorpus, jossa on täydellinen morfologinen merkintä. Korpuksen osana olevat tuohon kirjainten tekstit on vuorovaikutteisesti linkitetty niiden esittelyyn www-sivustolla gramoty.ru [3] .

Rungon tilavuus

Pääkorpuksen määrä kesäkuussa 2022 oli 375 miljoonaa sanankäyttöä ja korpusten kokonaismäärä ylittää 1,5 miljardia sanankäyttöä [4] .

Tekstit on varustettu metamerkinnällä (luontipäivän, tekijän, genren jne. mukaan); tekstien sanamuodot on varustettu automaattisella morfologisella ja semanttisella merkinnällä; rinnakkaiset tekstit tasataan; runokorpuksen tekstit on myös varustettu erityisillä metrimerkinnöillä.

1,5 % teksteistä on varustettu morfologisella [5] ja semanttisella [6] merkinnällä manuaalisesti poistettu homonyymi ("yksityistietoinen alikorpus").

Kehys Tekstien määrä Tarjousten määrä Sanakäyttöjen määrä % sanankäytöstä
Dezambiguirovannaya kehon osa 2 tuhatta 500 tuhatta 6 miljoonaa 1,6 %
Päärakennus 84 tuhatta 19,1 miljoonaa 209 miljoonaa 57,3 %
Koko vartalo 342 tuhatta 32 miljoonaa 364 miljoonaa 100 %

Pääsy

Tällä hetkellä vain korpushaku on ilmaista ja ilmaista . Korpussivustoa ja sen hakua ylläpitää Yandex - yhtiö, jonka työntekijät osallistuivat myös korpusohjelmiston kehittämiseen. Pääsy koko aineistoon (sen tietokannan kopioiminen ja siirtäminen) on kielletty lisenssisopimuksella. Saadaksesi käyttöösi 1/6 alikorpuksen merkitystä osasta, sinun on rekisteröidyttävä ja hyväksyttävä käyttöoikeussopimus [7] . Pääsyrajoitusongelma on tarkoitettu ratkaistavaksi Open Corpus -projektilla, joka luo myös venäjänkielisen korpusuksen, mutta ilmaisella lisenssillä [8] .

Katso myös

Muistiinpanot

  1. Projektin osallistujat . Venäjän kielen kansallinen korpus . Haettu 7. maaliskuuta 2018. Arkistoitu alkuperäisestä 8. maaliskuuta 2018.
  2. Tietoja projektista. Kirjoitettujen tekstien rinnakkaiset rungot . Venäjän kielen kansallinen korpus . Haettu 7. maaliskuuta 2018. Arkistoitu alkuperäisestä 8. maaliskuuta 2018.
  3. Zaliznyak A. A., Yanin V. L., Gippius A. A. Novgorod-kirjeet koivun kuoressa (kaivauksista 2001-2014) Arkistokopio 27.3.2019 Wayback Machinessa . Osa XII. - M .: Slaavilaisen kulttuurin kielet, 2015. - 288 s.
  4. Venäjän kielen kansallinen korpus . ruscorpora.ru. Haettu 7. maaliskuuta 2018. Arkistoitu alkuperäisestä 7. lokakuuta 2011.
  5. Morfologia . Venäjän kielen kansallinen korpus . Haettu 7. maaliskuuta 2018. Arkistoitu alkuperäisestä 19. helmikuuta 2018.
  6. Semantiikka . Venäjän kielen kansallinen korpus . Haettu 7. maaliskuuta 2018. Arkistoitu alkuperäisestä 19. helmikuuta 2018.
  7. Kehon käyttö. Lisenssisopimus . Venäjän kielen kansallinen korpus . Haettu 7. maaliskuuta 2018. Arkistoitu alkuperäisestä 8. maaliskuuta 2018.
  8. OpenCorpora: venäjän kielen avoin korpus . opencorpora.org . Haettu 26. tammikuuta 2022. Arkistoitu alkuperäisestä 26. tammikuuta 2022.

Kirjallisuus

Linkit