Venäjän kielen yleinen Internet-korpus

Venäjän kielen yleinen Internet-korpus
URL-osoite webcorpora.ru
kaupallinen Ei
Sivuston tyyppi koulutus/tieteellinen projekti
Rekisteröinti kyllä : vaaditaan hakuun pääsemiseksi
Kieli (kielet) Venäjän kieli
Palvelimen sijainti Venäjä
Työn alku vuosi 2012
Nykyinen tila toimii ja kehittyy

Venäjän kielen yleinen Internet-korpusus (GIKRYA) on  haettavissa oleva sähköinen verkkoaineisto venäläisistä teksteistä Internetistä. Avattu vuonna 2013 . Korpus sisältää tekstimateriaalia blogosfääristä , sosiaalisista verkostoista , suurimmista uutislähteistä ja kirjallisuuslehdistä .

Projektin tavoitteet

Hankkeella on koulutus- ja tieteellinen asema, ja monia laskennallisen lingvistiikan ongelmia ratkaisevat riippumattomat tutkijat ja tieteelliset ryhmät GICR:n vastaanottaman aineiston perusteella. Muut korpusprojektit keskittyvät kaunokirjallisuuteen ja editoituihin teksteihin, kun taas General Internet Corpus tarjoaa venäjänkielisille kielitieteilijöille ajankohtaisen [1] mahdollisuuden opiskella kieltä sellaisenaan, kaikilla alueellisilla ja slangiominaisuuksilla .

Keho mahdollistaa:

Eri aikoina tutkimusta ja riippumatonta tutkimusta projektin aineistosta tekivät Moskovan valtionyliopiston , Moskovan fysiikan ja tekniikan instituutin , Venäjän valtion humanistisen yliopiston , Novosibirskin valtionyliopiston ja kansallisen tutkimusyliopiston opiskelijat, jatko-opiskelijat ja työntekijät. Kauppakorkeakoulu , Ydintutkimuslaitos, Venäjän tiedeakatemia , Southern Federal University , ChSU , VGPU , ISAA MSU .

Hankkeen tieteelliset ohjaajat:

Projektin luomiseen ja tukemiseen osallistuivat seuraavat henkilöt:

Rungon tilavuus ja koostumus

Korpuksen määrä kesällä 2016 on 19,8 miljardia sanankäyttöä, josta 49 % on Vkontaktessa , 40 % LiveJournalissa , 4 % [email protected] ja Newsissa ja 2 % Journal hallissa [4] . Uutissegmentti sisältää materiaalia lähteistä: RIA Novosti , Regnum , Lenta.ru , Rosbalt . Tekstit on varustettu metamerkinnöillä (tekstin luomispäivän, sukupuolen, kirjoittajan syntymäpaikan ja -vuoden, Internet-genren ja niin edelleen); kaikki tekstit on varustettu automaattisella morfologisella merkinnällä ja lemmatoitu [4] . Suurin osa teksteistä on luotu vuosien 2013-2014 merkinnöillä , vaikka joissain osissa, esimerkiksi Lehtisalissa, on tekstejä vuodesta 1994 alkaen [5] .

Subcorpus Sanoja, miljoonia tekstit
[email protected] 707 9882120
Yhteydessä 9820 193770717
Live-journal 8110 73229158
lehtien huone 313 56547
Uutisalakorpus ( RIA Novosti , Regnum , Lenta.ru , Rosbalt ) 851 2964897
Koko vartalo 19801 279903439

GICR on yksi harvoista megakokonaisuuksista, joka ulottuu useisiin miljardeihin sanoihin.

Kehys Kieli (kielet Pääsy Verkkosivusto Äänenvoimakkuus Ominaisuudet
COW: Ilmaiset, suuret verkkokorjaukset eurooppalaisilla kielillä Englanti , ranska , saksa , espanja , ruotsi , hollanti ilmainen, rekisteröinnin jälkeen kokeilukäyttö on mahdollista ilman rekisteröintiä https://web.archive.org/web/20160221212019/https://webcorpora.org/ noin 30 miljardia sanaa KWIC-muoto, morph-merkintä, CQP-haku, merkintä ja haku päivämäärän, URL -osoitteen , maan, kaupungin jne. mukaan.
luonnosmoottori englanti , ranska , saksa , italia , arabia , venäjä , espanja , portugali , korea , japani , kiina ; lisää kieliä saatavilla maksua vastaan maksua vastaan, rekisteröinnin jälkeen, kokeilukäyttö on mahdollista https://www.sketchengine.co.uk/ 86 miljardia sanaa konkordanssit, luonnoskielioppi, tesauri , KWIC, morfokoodaus, CQP-haku
Aranea Corpora englanti , venäjä , suomi , ranska , saksa , unkari , espanja , italia , hollanti , puola , slovakki ilmainen, rekisteröinnin jälkeen kokeilukäyttö on mahdollista ilman rekisteröintiä http://sketch.juls.savba.sk/aranea_about/ noin 14 miljardia sanaa noSketch Engine, konkordanssit, sketch-kielioppi, KWIC, morpho-merkintä, CQP-haku, kyselytulosten vertailu eri kielillä
GIKRYA Venäjän kielen yleinen Internet-korpus Venäjän kieli ilmainen, rekisteröinti pyynnöstä http://www.webcorpora.ru/ 20 miljardia sanaa KWIC-muoto, morpho-merkintä, konkordanssit, CQP-haku, merkintä ja haku päivämäärän, maan, kaupungin, runet- segmentin , sukupuolen, kirjoittajan syntymävuoden ja -paikan mukaan, käyttäjien tulosten lähettäminen toisilleen
KORPUS MAAILMANLAAJUISTA VERKKOPOHJAISTA ENGLANTIA (GloWbE) Englanti , 20 maan erittely ilman rekisteröitymistä http://corpus.byu.edu/glowbe/ 1,9 miljardia sanaa KWIC, konkordanssit, kollokaatit , tulosten vertailu murreittain , CQP, koko korpus voidaan ladata

Pääsy

Korpuskäyttöliittymä on tällä hetkellä beta-testauksessa , joten pääsy korpushakuun tarjotaan ja on kuitenkin ilmainen pyynnöstä.

Katso myös

Muistiinpanot

  1. VLADIMIR BELIKOV . Haettu 26. joulukuuta 2019. Arkistoitu alkuperäisestä 16. marraskuuta 2019.
  2. Web-tekstien automaattinen luokittelu funktionaalisten tekstimittojen avulla . Haettu 8. kesäkuuta 2016. Arkistoitu alkuperäisestä 26. kesäkuuta 2016.
  3. Joukkue | GIKRYA . Haettu 26. joulukuuta 2019. Arkistoitu alkuperäisestä 5. tammikuuta 2020.
  4. 1 2 joukko | GIKRYA . Haettu 26. joulukuuta 2019. Arkistoitu alkuperäisestä 3. joulukuuta 2019.
  5. #geekrya #geekrya_stats Mitä varten.. | GIKRYA Venäjän kielen yleinen Internet-korpus | VK

Kirjallisuus

Linkit