Venäjän kielen yleinen Internet-korpus | |
---|---|
URL-osoite | webcorpora.ru |
kaupallinen | Ei |
Sivuston tyyppi | koulutus/tieteellinen projekti |
Rekisteröinti | kyllä : vaaditaan hakuun pääsemiseksi |
Kieli (kielet) | Venäjän kieli |
Palvelimen sijainti | Venäjä |
Työn alku | vuosi 2012 |
Nykyinen tila | toimii ja kehittyy |
Venäjän kielen yleinen Internet-korpusus (GIKRYA) on haettavissa oleva sähköinen verkkoaineisto venäläisistä teksteistä Internetistä. Avattu vuonna 2013 . Korpus sisältää tekstimateriaalia blogosfääristä , sosiaalisista verkostoista , suurimmista uutislähteistä ja kirjallisuuslehdistä .
Hankkeella on koulutus- ja tieteellinen asema, ja monia laskennallisen lingvistiikan ongelmia ratkaisevat riippumattomat tutkijat ja tieteelliset ryhmät GICR:n vastaanottaman aineiston perusteella. Muut korpusprojektit keskittyvät kaunokirjallisuuteen ja editoituihin teksteihin, kun taas General Internet Corpus tarjoaa venäjänkielisille kielitieteilijöille ajankohtaisen [1] mahdollisuuden opiskella kieltä sellaisenaan, kaikilla alueellisilla ja slangiominaisuuksilla .
Keho mahdollistaa:
Eri aikoina tutkimusta ja riippumatonta tutkimusta projektin aineistosta tekivät Moskovan valtionyliopiston , Moskovan fysiikan ja tekniikan instituutin , Venäjän valtion humanistisen yliopiston , Novosibirskin valtionyliopiston ja kansallisen tutkimusyliopiston opiskelijat, jatko-opiskelijat ja työntekijät. Kauppakorkeakoulu , Ydintutkimuslaitos, Venäjän tiedeakatemia , Southern Federal University , ChSU , VGPU , ISAA MSU .
Hankkeen tieteelliset ohjaajat:
Projektin luomiseen ja tukemiseen osallistuivat seuraavat henkilöt:
Korpuksen määrä kesällä 2016 on 19,8 miljardia sanankäyttöä, josta 49 % on Vkontaktessa , 40 % LiveJournalissa , 4 % [email protected] ja Newsissa ja 2 % Journal hallissa [4] . Uutissegmentti sisältää materiaalia lähteistä: RIA Novosti , Regnum , Lenta.ru , Rosbalt . Tekstit on varustettu metamerkinnöillä (tekstin luomispäivän, sukupuolen, kirjoittajan syntymäpaikan ja -vuoden, Internet-genren ja niin edelleen); kaikki tekstit on varustettu automaattisella morfologisella merkinnällä ja lemmatoitu [4] . Suurin osa teksteistä on luotu vuosien 2013-2014 merkinnöillä , vaikka joissain osissa, esimerkiksi Lehtisalissa, on tekstejä vuodesta 1994 alkaen [5] .
Subcorpus | Sanoja, miljoonia | tekstit |
[email protected] | 707 | 9882120 |
Yhteydessä | 9820 | 193770717 |
Live-journal | 8110 | 73229158 |
lehtien huone | 313 | 56547 |
Uutisalakorpus ( RIA Novosti , Regnum , Lenta.ru , Rosbalt ) | 851 | 2964897 |
Koko vartalo | 19801 | 279903439 |
GICR on yksi harvoista megakokonaisuuksista, joka ulottuu useisiin miljardeihin sanoihin.
Kehys | Kieli (kielet | Pääsy | Verkkosivusto | Äänenvoimakkuus | Ominaisuudet |
---|---|---|---|---|---|
COW: Ilmaiset, suuret verkkokorjaukset eurooppalaisilla kielillä | Englanti , ranska , saksa , espanja , ruotsi , hollanti | ilmainen, rekisteröinnin jälkeen kokeilukäyttö on mahdollista ilman rekisteröintiä | https://web.archive.org/web/20160221212019/https://webcorpora.org/ | noin 30 miljardia sanaa | KWIC-muoto, morph-merkintä, CQP-haku, merkintä ja haku päivämäärän, URL -osoitteen , maan, kaupungin jne. mukaan. |
luonnosmoottori | englanti , ranska , saksa , italia , arabia , venäjä , espanja , portugali , korea , japani , kiina ; lisää kieliä saatavilla maksua vastaan | maksua vastaan, rekisteröinnin jälkeen, kokeilukäyttö on mahdollista | https://www.sketchengine.co.uk/ | 86 miljardia sanaa | konkordanssit, luonnoskielioppi, tesauri , KWIC, morfokoodaus, CQP-haku |
Aranea Corpora | englanti , venäjä , suomi , ranska , saksa , unkari , espanja , italia , hollanti , puola , slovakki | ilmainen, rekisteröinnin jälkeen kokeilukäyttö on mahdollista ilman rekisteröintiä | http://sketch.juls.savba.sk/aranea_about/ | noin 14 miljardia sanaa | noSketch Engine, konkordanssit, sketch-kielioppi, KWIC, morpho-merkintä, CQP-haku, kyselytulosten vertailu eri kielillä |
GIKRYA Venäjän kielen yleinen Internet-korpus | Venäjän kieli | ilmainen, rekisteröinti pyynnöstä | http://www.webcorpora.ru/ | 20 miljardia sanaa | KWIC-muoto, morpho-merkintä, konkordanssit, CQP-haku, merkintä ja haku päivämäärän, maan, kaupungin, runet- segmentin , sukupuolen, kirjoittajan syntymävuoden ja -paikan mukaan, käyttäjien tulosten lähettäminen toisilleen |
KORPUS MAAILMANLAAJUISTA VERKKOPOHJAISTA ENGLANTIA (GloWbE) | Englanti , 20 maan erittely | ilman rekisteröitymistä | http://corpus.byu.edu/glowbe/ | 1,9 miljardia sanaa | KWIC, konkordanssit, kollokaatit , tulosten vertailu murreittain , CQP, koko korpus voidaan ladata |
Korpuskäyttöliittymä on tällä hetkellä beta-testauksessa , joten pääsy korpushakuun tarjotaan ja on kuitenkin ilmainen pyynnöstä.
Korpuslingvistiikka | |
---|---|
Englanninkieliset corporat |
|
Venäjänkieliset corporit |
|
Corpora muilla kielillä |
|
Organisaatiot |