Venäjän kansallinen korpus

Venäjän kansallinen korpus
URL-osoite	ruscorpora.ru
kaupallinen	Ei
Sivuston tyyppi	koulutus/tieteellinen projekti
Rekisteröinti	kyllä : vaaditaan tekstien lukemiseen; lisenssisopimus
Kieli (kielet)	venäjä / englanti
Palvelimen sijainti	Venäjä
Omistaja	V. V. Vinogradov RAS:n mukaan nimetty venäjän kielen instituutti
Työn alku	2003
Nykyinen tila	toimii ja kehittyy

Venäjän kielen kansallinen korpus (NCRL) on haettavissa oleva venäläisten tekstien sähköinen verkkoaineisto. Avattu 29. huhtikuuta 2004 . Myös kirkkoslaavilaisen, vanhan venäläisen (XI-XIV-luvut) ja keskivenäläisen (XV-XVIII vuosisadan alku) tekstien historiallinen korpus on haettavissa.

Kääntäjät

Korpuksen luomisen aloitti vuonna 2001 ryhmä filologeja Moskovasta , Pietarista , Voronezhista ja muista kaupungeista.

Seuraavat organisaatiot osallistuvat venäjän kielen kansalliskokouksen luomisohjelmaan [1] :

V. V. Vinogradov RAS:n (IRL RAS) mukaan nimetty venäjän kielen instituutti .
Kielitieteen instituutti RAS (ILS RAS).
A. A. Kharkevich RAS:n mukaan nimetty tiedonsiirto-ongelmien instituutti (IITP RAS).
Venäjän tiedeakatemian kielellisten tutkimusten instituutti (IL RAS) Pietarissa (yhdessä St. Petersburg State Universityn (SPbGU) kanssa).
Voronežin valtionyliopisto [2] .

Joukkokunnan kokoonpano

Korpus sisältää sekä kirjallisia tekstejä (fiktiota, muistelmia, journalismia, tieteellistä, uskonnollista kirjallisuutta, jokapäiväistä painoa) että suullisia tekstejä (julkinen puhe ja yksityiset keskustelut).

Korpus sisältää myös runo- ja murretekstien alakorpuksia , rinnakkaistekstikorpuksia (venäjän kielen rinnakkaiskorpuksia on saatavilla seuraaville kielille: englanti, armenia, valkovenäläinen, bulgaria, burjat, espanja, italia, kiina, latvia, saksa, puola , ukraina, ranska , ruotsi, viro ja monikielinen), erillinen sanomalehtikorpus (mediamateriaalia 2000-luvun alusta), kirkon slaavilainen korpus (liturgiset tekstit, nykyaika (XIX-XX-luvut) ja aikaisemmat ajanjaksot), historiallinen (sis. vanha venäjä, vanha venäjä, tuohon kirjaimet), syntaktiset, aksentologiset, multimedia- ja opetusalakorpukset.

Vuodesta 2010 lähtien osana Venäjän kielen kansalliskorpuksen historiallista alakorpustusta on ollut saatavilla koivuntuoren kirjaimia sisältävä tekstikorpus, jossa on täydellinen morfologinen merkintä. Korpuksen osana olevat tuohon kirjainten tekstit on vuorovaikutteisesti linkitetty niiden esittelyyn www-sivustolla gramoty.ru [3] .

Rungon tilavuus

Pääkorpuksen määrä kesäkuussa 2022 oli 375 miljoonaa sanankäyttöä ja korpusten kokonaismäärä ylittää 1,5 miljardia sanankäyttöä [4] .

Tekstit on varustettu metamerkinnällä (luontipäivän, tekijän, genren jne. mukaan); tekstien sanamuodot on varustettu automaattisella morfologisella ja semanttisella merkinnällä; rinnakkaiset tekstit tasataan; runokorpuksen tekstit on myös varustettu erityisillä metrimerkinnöillä.

1,5 % teksteistä on varustettu morfologisella [5] ja semanttisella [6] merkinnällä manuaalisesti poistettu homonyymi ("yksityistietoinen alikorpus").

Kehys	Tekstien määrä	Tarjousten määrä	Sanakäyttöjen määrä	% sanankäytöstä
Dezambiguirovannaya kehon osa	2 tuhatta	500 tuhatta	6 miljoonaa	1,6 %
Päärakennus	84 tuhatta	19,1 miljoonaa	209 miljoonaa	57,3 %
Koko vartalo	342 tuhatta	32 miljoonaa	364 miljoonaa	100 %

Pääsy

Tällä hetkellä vain korpushaku on ilmaista ja ilmaista . Korpussivustoa ja sen hakua ylläpitää Yandex - yhtiö, jonka työntekijät osallistuivat myös korpusohjelmiston kehittämiseen. Pääsy koko aineistoon (sen tietokannan kopioiminen ja siirtäminen) on kielletty lisenssisopimuksella. Saadaksesi käyttöösi 1/6 alikorpuksen merkitystä osasta, sinun on rekisteröidyttävä ja hyväksyttävä käyttöoikeussopimus [7] . Pääsyrajoitusongelma on tarkoitettu ratkaistavaksi Open Corpus -projektilla, joka luo myös venäjänkielisen korpusuksen, mutta ilmaisella lisenssillä [8] .

Katso myös

Muistiinpanot

↑ Projektin osallistujat . Venäjän kielen kansallinen korpus . Haettu 7. maaliskuuta 2018. Arkistoitu alkuperäisestä 8. maaliskuuta 2018. (määrätön)
↑ Tietoja projektista. Kirjoitettujen tekstien rinnakkaiset rungot . Venäjän kielen kansallinen korpus . Haettu 7. maaliskuuta 2018. Arkistoitu alkuperäisestä 8. maaliskuuta 2018. (määrätön)
↑ Zaliznyak A. A., Yanin V. L., Gippius A. A. Novgorod-kirjeet koivun kuoressa (kaivauksista 2001-2014) Arkistokopio 27.3.2019 Wayback Machinessa . Osa XII. - M .: Slaavilaisen kulttuurin kielet, 2015. - 288 s.
↑ Venäjän kielen kansallinen korpus . ruscorpora.ru. Haettu 7. maaliskuuta 2018. Arkistoitu alkuperäisestä 7. lokakuuta 2011. (määrätön)
↑ Morfologia . Venäjän kielen kansallinen korpus . Haettu 7. maaliskuuta 2018. Arkistoitu alkuperäisestä 19. helmikuuta 2018. (määrätön)
↑ Semantiikka . Venäjän kielen kansallinen korpus . Haettu 7. maaliskuuta 2018. Arkistoitu alkuperäisestä 19. helmikuuta 2018. (määrätön)
↑ Kehon käyttö. Lisenssisopimus . Venäjän kielen kansallinen korpus . Haettu 7. maaliskuuta 2018. Arkistoitu alkuperäisestä 8. maaliskuuta 2018. (määrätön)
↑ OpenCorpora: venäjän kielen avoin korpus . opencorpora.org . Haettu 26. tammikuuta 2022. Arkistoitu alkuperäisestä 26. tammikuuta 2022. (määrätön)

Kirjallisuus

Venäjän kielen kansallinen korpus: 2003-2005. Artikkelikokoelma / Otv. toim. V. A. Plungyan . — M .: Indrik , 2005. — 502 s. — ISBN ISBN 5-85759-358-1 .
Venäjän kielen kansallinen korpus: 2006-2008. Uudet tulokset ja näkymät / Toim. toim. V. A. Plungyan . - Pietari. : Nestor-History, 2009. - 502 s. — ISBN ISBN 978-5-98187-327-0 .
Plungyan V. A. Miksi luomme Venäjän kielen kansalliskokouksen? // Kotimaiset muistiinpanot . - 2005. - Nro 2 (23) .

Linkit

Virallinen sivusto

Korpuslingvistiikka
Englanninkieliset corporat	Amerikan englannin kansallinen korpus Englannin pankki Bergen Corpus of London Teenage Language brittiläinen joukko Ruskea Corpus Buckeye Corpus Cambridge English Corpus Modernin amerikkalaisen englannin runko Enron Corpus Kansainvälinen englanninkielinen korpus Lancaster-Oslo-Bergen Corpus Oxford English Corpus Prop Pankki Puhuttu englanti korpus AIKA VerbNet Uuden-Seelannin puhutun englannin Wellington Corpus
Venäjänkieliset corporit	Venäjän kielen yleinen Internet-korpus Venäjän kansallinen korpus Venäjän kielen avoin korpus SinTagRus Tübingenin venäjän kielen korpus Uppsalan venäläisten tekstien korpus Helsinki Annotated Corpus of the Russian Language
Corpora muilla kielillä	Bijankhan Corpus LAPSET Korpus Kroatian Kroatian kansallinen korpus Europarl Corpus Mannheim Corpus German Hamshahrin joukko Puolan kansallinen korpus Uusassyrialainen tekstikorpusprojekti Koraani korpus Scottish National Corpus Slovenian kansallinen korpus keskustelupankki Tatoeba Teheran Monolingual Corpus Tekstaro de Esperanto Thesaurus Linguae Graecae
Organisaatiot	BNC-konsortio YHTEISKUNTA