SinTagRus | |
---|---|
Tapauksen määrä | yli 1,1 miljoonaa sanaa |
Kieli | Venäjän kieli |
Perusmerkintätyypit | morfologinen , syntaktinen , leksikosemanttinen |
Kääntäjät | Laskennallisen lingvistiikan laboratorio IPTP RAS |
luomispäivämäärä | 1998 |
Pääsy | vapaa |
Lisenssi | omistusoikeus |
Verkkosivusto | proling.iitp.ru/ru/proje… |
SynTagRus ( eng. SynTagRus , lyhenne sanoista Englanti. Syntactically Tagged Russian text corpus , "syntaktisesti annotoitu venäläisten tekstien korpus") on syvästi annotoitu venäläisten tekstien korpus , ensimmäinen venäläisten tekstien runko, jossa on syntaktinen merkintä. Sitä on vuodesta 1998 kehittänyt IPTP RAS : n laskennallisen lingvistiikan laboratorio yhteistyössä IRL RAS :n teoreettisen semantiikan sektorin kanssa . Korpus koostuu eri tyylilajeista kuuluvista teksteistä; sanankäyttöjen kokonaismäärä on yli miljoona [ ⇨ .
SynTagRus perustuu monikäyttöisen kielellisen ETAP-prosessorin ideologiaan . Korpuksen ominaisuus on useiden eri syvyyksien annotaatiotasojen läsnäolo, mukaan lukien täydellinen morfologinen ja syntaktinen merkintä poistettu homonyymi . Merkintäkieli on XML .
SynTagRus jaetaan ei-kaupallisella lisenssillä . Lisäksi korpus on muunnettu eri muotoihin; jotkin näistä versioista (tai muuntimista) ovat julkisia, ja rajoitettu versio alkuperäisestä aineistosta on osa Venäjän kansalliskokoelmaa .
Syntaktisten merkintäkorpujen ilmaantuminen 1990 - luvun alussa johti empiiristen menetelmien kehittämiseen luonnollisen kielen käsittelyongelmissa . Lisäksi tällaisten korpusten käyttöä ei ole käytetty vain syntaktisen analyysin yhteydessä, vaan myös useissa muissa tehtävissä, mukaan lukien leksikaalisen polysemian erottelu , semanttinen analyysi jne. [1]
1990-luvun loppuun mennessä useimmille tärkeimmille eurooppalaisille kielille oli luotu huomautuksilla varustetut korpust , kun taas venäjän kielelle ei todellisuudessa ollut olemassa [2] . Lisäksi edes tuolloin olemassa olleet merkitsemättömät korpust (esimerkiksi Uppsalan venäläisten tekstien korpus ) eivät olleet julkisesti saatavilla [3] .
Näistä syistä vuodesta 1998 [4] lähtien alkoi ensimmäisen venäjän kielen annotoidun SinTagRus-korpuksen [2] [5] kehittäminen , josta tuli myöhemmin standardi syntaktisilla merkinnöillä varustetuissa korpusissa [6] . Samaan aikaan kehittäjät osallistuivat myös Venäjän kielen kansalliskokouksen luomiseen; erityisesti SynTagRus (join rajoituksin) on ollut olennainen, mutta täysin itsenäinen osa NCRP :tä viimeksi mainitun luomisesta lähtien [7] [8] . NKRY:ssä SinTagRusille (alikorpusena) käytetään myös nimeä "syvästi merkitty korpus" [9] .
SinTagRusin kehittämisestä vastaa IPTP RAS :n laskennallisen lingvistiikan laboratorio yhteistyössä IRL RAS :n teoreettisen semantiikan sektorin kanssa [10] .
SinTagRusin lähdemateriaalina oli Uppsalan venäläisten tekstien korpus: noin 10 000 lausetta poimittiin kaunokirjallisuuden teksteistä. Korpukseen lisättiin myöhemmin lyhyitä (enintään 30 lausetta) tekstejä, jotka oli otettu suosittujen uutisjulkaisujen ( yandex.ru , rbc.ru , polit.ru , lenta.ru , strana.ru , news.ru ) verkkosivuilta [ 2] [11] .
SynTagRus kehittyy jatkuvasti, ja vuonna 2020 siinä on noin 77 tuhatta lausetta (yli 1,1 miljoonaa sanankäyttöä) [12] , jotka on otettu seuraavien genrejen teksteistä [13] [8] [14] :
SynTagRusin erottuva piirre muihin venäjän kielen annotoituihin korpuihin verrattuna on useiden eri syvyyksien merkintätasojen läsnäolo, jotka voidaan poimia itsenäisesti korpusesta, ja näiden tasojen lukumäärä on mahdollisesti rajaton. Korpuksen merkintäkieli on XML ja merkintämuoto on yhteensopiva TEI formalismin kanssa, lukuun ottamatta joitain lisäksi lisättyjä elementtejä ja attribuutteja [2] . Periaatteessa vapaan tekstin merkintä tehdään kahdessa vaiheessa [11] :
Seuraavassa luetellaan korpuksessa käytettävissä olevat merkintätyypit.
Jokainen teksti SinTagRusissa on jaettu lauseisiin. Jokainen lause on elementti nimeltä S , ja jokaisella sellaisella elementillä on ID - attribuutti, jonka arvo on tekstissä olevan lauseen sarjanumero. Vastaavasti jokainen lause on jaettu leksikaalisiin elementteihin nimeltä W ja jokaisella sellaisella elementillä on ID - attribuutti , jonka arvo on tämän lauseen sanan järjestysnumero [11] . Välimerkit on muotoiltu lausetunnisteen tekstiksi ( säilyttäen niiden suhteellisen aseman lähdetekstissä), eikä niitä ilmaista omilla tageilla [15] .
Sanamuodon morfologinen rakenne on lekseemin eli lemman nimi , jolle liitetään osa puhetta ja morfologisia ominaisuuksia eli vastaavien morfologisten kategorioiden merkityksiä . Vastaavalle sanamuodolle lemma on LEMMA -attribuutin arvo, ja puheosa ja morfologiset ominaisuudet yhdessä ovat FEAT [8] [16] attribuutin arvo .
Morfologisen merkinnän kuvaus [17]Osa puhetta | Vähentäminen | Esimerkkejä |
---|---|---|
Substantiivi | S | tehdas , ts |
Adjektiivi | A | uusi minun _ |
Verbi | V | pukeutua |
Adverbi | ADV | huono , tavallaan |
numero | NUM | viisi , 2 |
tekosyy | PR | alla |
Komposiitti | COM | ilma , vesi |
liitto | CONJ | ja |
Hiukkanen | OSA | kuitenkin |
Huudahdus | INTJ | niin ja niin |
Sana on vieraskielinen osa | NID | Whatsapp , Berliner Zeitung |
Morfologiset ominaisuudet | Vähentäminen | Merkintä |
---|---|---|
Animaatio | ||
animoitu | OD | |
eloton | NEOD | |
Suku | ||
Uros | MIES | |
Nainen | NAINEN | |
Keskiverto | KESKIVIIKKO | |
Määrä | ||
Ainoa asia | ED | |
monikko | MN | |
tapaus | ||
Nominatiivi | NIITÄ | |
Genetiivi | SUKU | |
Partitiivi | OSA | Osoitettu vain substantiiville, jossa tämä muoto eroaa graafisesti genitiivimuodosta |
Datiivi | DAT | |
Akkusatiivi | VIN | |
Instrumentaalinen | TVOR | |
Prepositio | JNE | |
Paikallinen | PAIKALLINEN | Osoitettu vain substantiiville, jossa tämä muoto eroaa graafisesti prepositiomuodosta |
Vocative | SW | Osoitettu vain substantiivien kohdalla, joissa tämä muoto eroaa graafisesti nimitystapamuodosta |
Vertailuaste | ||
Vertaileva | SRAV | |
erinomainen | PREV | |
Lyhytisyys | ||
Lyhyt | KR | |
edustus | ||
Infinitiivi | INF | |
Partiisilause | PRICH | |
gerund | SYVÄ | |
Mieliala | ||
suuntaa antava | Epäonnistuminen | |
välttämätöntä | POV | |
Näytä | ||
Epätäydellinen | NESOV | |
Täydellinen | PÖLLÖ | |
Aika | ||
Ei-menneisyys | NEPROSH | |
Mennyt | PROSH | |
nykyhetki | NAST | Liittyy vain verbille olla henkilökohtaisessa muodossa |
Kasvot | ||
Ensimmäinen | 1-L | Liittyy vain verbeihin |
Toinen | 2-L | |
Kolmanneksi | 3-L | |
Lupaus | ||
Passiivinen | STRAD | |
lisäominaisuuksia | ||
Sävellys | SL | |
Pehmennetty vertaileva tutkinto | SMYAG |
Korpuslauseiden syntaktinen merkintä suoritetaan riippuvuuskieliopin puitteissa : syntaktinen rakenne on suuntautunut puu , jonka solmut ovat sanoja ja jokainen reuna on suunnattu pääsanasta palvelijanaan ja vastaa jotakin syntaktista suhdetta . . Puun juurta vastaavaa sanaa kutsutaan lauseen huipuksi, ja toisin kuin lauseen muut sanat, se ei ole syntaktisesti riippuvainen mistään muusta. Syntaktiset ryhmät on järjestetty lähdepuun alipuiden muotoon: kussakin sellaisessa alipuussa yksi ryhmän jäsenistä edustaa sitä ulkosuhteissa ja alistaa muut ryhmän jäsenet [18] . SinTagRusissa erotetaan kaikkiaan noin 70 tyyppistä syntaktista suhdetta [13] .
Käytetyt syntaktiset suhteet [17]Syntaksisuhde | Vähentäminen | Sana isäntä | Sanan palvelija |
---|---|---|---|
Prediktiivinen | predikaatti | Predikaatti | Aihe |
Datiivi-subjektiivinen | päivämäärä-aihe | Ilmoita sana | isäntäsanalla tarkoitetun tilan subjekti |
Agentti | agentti | sana toiminnalle | Isäntäsanalla merkitty toiminnon aihe |
Kvasi-agentti | kvasi-agentti | predikaatti substantiivi | Sana, joka toteuttaa isäntäsanan ensimmäisen syntaktisen valenssin |
Omistus-agentti | väärä agentti | Verbi | Sana, joka toteuttaa substantiivin ensimmäisen semanttisen valenssin, joka on isäntäsanan semanttinen aktantti |
Ensimmäinen valmis | 1 sarja | predikaatti sana | Isäntäsanan syntaktinen aktantti ensimmäistä lukuun ottamatta. Siten ensimmäinen kompleksisuhde viittaa toiseen aktanttiin, toinen kolmanteen ja niin edelleen. |
Toinen valmis | 2-setti | ||
Kolmas valmis | 3-setti | ||
Neljäs valmis | 4-setti | ||
Viides valmis | 5-setti | ||
Liite | sidottu | Linkki verbi | Predikaatin nimellinen osa |
Ensimmäinen virheellinen-täydellinen | 1 - väärä sarja | toiminnallinen verbi | Täydennys (ensimmäinen, toinen jne.), jonka semanttinen isäntä on jokin isäntäsanan semanttinen aktantti |
Toinen väärin-täydellinen | 2-väärin sarja | ||
Kolmas virheellinen-täydellinen | 3-väärin sarja | ||
Neljäs väärin-täydellinen | 4-väärin sarja | ||
Viides väärin-täydellinen | 5 - väärä sarja | ||
Ei-aktantti-täydellinen | ei-toimi-set | predikaatti sana | Sana, joka ei ole isäntäsanan täysimittainen semanttinen aktantti, mutta on syntaktisesti samanlainen kuin komplementti |
Täydentävä-positiivinen | aseta sovelluksia | Parametrinen substantiivi tai substantiivi lento , reitti , juna | Isäntäsanan semanttinen aktantti, jos tämä aktantti ilmaistaan nominatiivissa tai sen syntaktisessa vastineessa |
prepositio | tarjous | tekosyy | Substantiivilauseen kärkipiste prepositiosta riippuen |
Alisteinen-liittolainen | aliliitto | Alisteinen liitto | Korjausliiton käyttöön ottaman alalausekkeen yläosa |
infinitiivi-liitto | inf-liitto | Alisteinen liitto | Infinitiivi |
Vertaileva | vertailla | Vertaileva adjektiivi tai adverbi | Genitiivissä olevan substantiivilauseen kärki, joka edustaa toista verratuista jäsenistä, tai vertaileva liitto kuin |
Verbi, nimi tai adverbi | vertaileva liitto | ||
vertaileva liitto | vertaa-liitto | vertaileva liitto | Vertailevan konstruktion vertailutermeistä toinen |
valinnaisia | valinnaisia | Numero, järjestysadjektiivi, superlatiiviadjektiivi tai adjektiivi, jossa on sana useimmat | Prepositio , joka sisältää merkinnän joukosta, jossa valinta tehdään |
lause-predikatiivi | pyhä predikaatti | Tunnusrakenteessa kuvattua tilannetta ilmaisevan lauseen yläosa | Demonstratiivisen pronominaalin substantiivi tämä tai tuo nimitystapauksessa |
Kohdetta sitova | assign-adr | Relaatiosana, joka toimii predikaatin nimellisenä osana, jossa on (mahdollisesti nolla) linkki | Substantiivi datiivitapauksessa, joka täyttää pohjimmiltaan isäntäsanan syntaktisen valenssin |
Syntaksisuhde | Vähentäminen | Sana isäntä | Sanan palvelija |
---|---|---|---|
Determinantit | |||
lopullinen | määritelty | Substantiivi tai adjektiivi | adjektiivi tai partisiippi |
Kuvaava - lopullinen | op-def | Substantiivi tai adjektiivi | Adjektiivi tai partisiippi toimii erillisenä määritelmänä |
Likimääräinen järjestysluku | likimääräinen järjestys | Substantiivi | järjestyksen adjektiivi |
Suhteellinen | suhde | Substantiivi tai adjektiivi | Relatiivisen attribuutin huippu |
yleinen attribuutti | |||
attribuutio | atrib | Substantiivi tai adjektiivi | Epäjohdonmukainen määritelmä |
Komposiitti | sävellys | Yhdyssanan toinen osa | Yhdistetyn sanan ensimmäinen osa |
positiivinen | |||
positiivinen | appos | Substantiivi | Seuraava sovellus |
Erillinen positiivinen | ob-appos | Substantiivi | Erillinen sovellus isäntäsanalle |
nominatiivi-positiivinen | nom-appos | Substantiivi | Minkä tahansa nimeä ilmaisevan lainatun ryhmän yläosa |
Numeratiiv-positiivinen | num appoz | Substantiivi, joka merkitsee säännöllisesti numeroituja esineitä | Nimi on numeerinen nimikirjaimella tai kirjoitettu numeroilla (osoittaa numeroa) |
määrällinen | |||
määrällinen | määrä | Substantiivi | Numero prepositiossa |
Likimääräinen-kvantitatiivinen | likimääräinen määrä | Substantiivi | Numero jälkiasennossa |
Kvantitatiivinen-Kopredikatiivinen | numero-copred | Verbi, jossa on substantiivi genitiivissä, joka toimii sen kanssa subjektina | Numeroryhmän yläosa tai nimellisryhmän yläosa, jossa on kardinaaliarvo |
Määrällisesti rajoittava | numeroraja | Vertaileva adjektiivi tai adverbi | Adverbi tai ryhmän yläosa, jossa prepositiot sisällä tai päällä , osoittavat intensiteettiä |
jakelu | jakelu | Tiettyä parametria (hinta, nopeus, paino jne.) ilmaisevan substantiivilauseen yläosa | Substantiivi nominatiivissa tai ryhmän yläosassa prepositioilla , on , for , ilmaisee mittayksikön |
lisäaine | lisää | Määrällisen ryhmän numero tai yläosa | Määrällisen ryhmän numero tai yläosa |
olosuhteet huomioon ottaen | |||
olosuhteet huomioon ottaen | obst | Verbi tai sana toisesta sanan osasta, joka on lauseen huippu | Olosuhteet |
pitkä | pitkä | Verbi | Kesto-olosuhde, joka ilmaistaan substantiivilla akusatiivissa tai prepositioryhmällä, jolla on likimääräinen määrä tai jakauma |
Monipituinen | monipituinen | Verbi | Monikestoinen seikka, joka ilmaistaan substantiivilla instrumentaalimonikkossa |
Etä | etäisyys | Verbi | Tilallisen laajuuden seikka, joka ilmaistaan substantiivilla akusatiivissa tai prepositioryhmällä, jolla on likimääräinen määrä tai jakauma |
olosuhteet-tautologinen | obst-taut | Verbi | Substantiivi instrumentaalitapauksessa, joka toistaa osan isäntäsanan merkityksestä |
subjektiivinen seikka | osaympäristö | Verbi | Instrumentaalitapauksessa seikka, joka luonnehtii samalla toiminnan kohdetta |
Objekti olosuhteet | obst | Verbi | Instrumentaalitapauksessa seikka, joka luonnehtii samalla toiminnan kohdetta |
subjektiivinen-kopredikatiivinen | sub-copr | Verbi | Nominaalifraasin yläosa nominatiivissa tai instrumentaalitapauksessa tai prepositioryhmän yläosa, joka toimii funktiossa, joka on lähellä yhdistelmäpredikaatin nominaaliosan funktiota, mutta karakterisoi subjektia merkitykseltään ja (jos kyseessä on nimilause) on sen mukainen sukupuolen ja lukumäärän suhteen |
Object-Copredicative | ob-copr | Verbi | Nominaaliryhmän yläosa instrumentaali- tai akkusatiivissa tai prepositioryhmän yläosa, joka kuvaa objektia. Jos sana-palvelija ilmaistaan substantiivilauseella, se on yhdenmukainen komplementin kanssa sukupuolen ja lukumäärän suhteen |
Rajoittava | rajoitettu | Minkä tahansa puheenosan sana | Partikkeli tai rajoittava adverbi |
johdannossa | esittely | Predikaatti tai muu lauseen jäsen | Johdantosana , johdantokäännös, lause tai vetoomus |
Selittävä | asia selvä | Päälauseen alkuun | Alalauseen yläosa, mukaan lukien liitossana mitä , miksi tai miksi |
selittävä | selittää | Mielivaltainen sana | Sana, jolla on huollettavia ja antaa yhdessä heidän kanssaan lisätietoa isäntäsanasta tai isäntäsanan edustamasta sanaryhmästä. Muodollinen "selvennysmerkki" vaaditaan, joka voi olla välimerkki tai lisätietoa tuova lauseke |
viereinen | viereinen | Sana, joka on ilmaisun "isäntä", jonka yläosassa on sana palvelija | Isäntäsanasta riippuva lausekkeen huippu, joka sijaitsee isäntäsanan oikealla puolella ja on suljettu suluissa tai rajattu molemmilta puolilta viivalla |
karsinta | selvennys | Jonkin lausekkeen edustaja (vertex). | Jonkin ilmaisun edustaja. Tämä lauseke tarkentaa semanttisesti isäntäsanan edustamaa lauseketta, mutta molemmilla lausekkeilla on sama syntaktinen tehtävä. |
Syntaksisuhde | Vähentäminen | Sana isäntä | Sanan palvelija |
---|---|---|---|
kirjoittaminen | kirjoittaminen | Koordinoivan rakenteen jäsen | Koordinoivan rakentamisen tai koordinoivan liiton jäsen. Sijaitsee välittömästi isäntäsanan oikealla puolella. |
lause-koordinaatiivinen | pyhimys op | Ensimmäisen homogeenisen lauseen yläosa | Toisen virkkeen alkuun tai koordinoiva liitto |
Koordinoiva liitto | op-liitto | kirjoitusliitto _ | Homogeenisten termien tai lauseiden toisen yläosa |
Useita | useita | Moninkertaisen konstruktion pääjäsen on substantiivi , adjektiivi , adverbi , numero tai verbi | Monirakentamisen riippuvainen jäsen. Muodostetaan joko samalla tavalla kuin pääjäsen ja erotetaan siitä yhdysmerkillä, väliviivalla, kaksoispisteellä tai kauttaviivalla tai lisätään prepositioon "on" tai "to" |
Syntaksisuhde | Vähentäminen | Sana isäntä | Sanan palvelija |
---|---|---|---|
Analyyttinen | analyytti | Yhdistetyn verbaalisen predikaatin elementit . Nämä elementit muodostavat monimutkaisen tulevaisuuden ajan eli subjunktiivin . | |
Passiivi-analyyttinen | läpäise anaali | Verbi - linkki "olla" | Passiivinen ehtoollinen |
Määrällinen-apu | numero-apu | Yhdistetyn numeron tai yhdyssanan adjektiivin oikea puoli | Yhdistetyn numeron tai yhdistetyn järjestysadjektiivin vasen puoli |
suhteellinen | korrelaatio | katkenneen parin konjunktion , prepositioon tai partikkelin vasen puoli tai katkenneen parin koordinoivan konjunktion oikea puoli | Rikkoutuneen parin konjunktion, preposition tai partikkelin oikea puoli tai katkenneen parin koordinoivan konjunktion vasen puoli |
EXPLENTTIIVINEN | explet | Demonstratiivinen pronomini - "tiiviste" tuollainen , tuo | Alisteinen liitto tai virkkeen huippu. Isäntäsana on "salattu" palvelijasanalla |
Proleptic | proleptus | Semanttisesti moniselitteinen sana, jolla on täysi asema lauseessa | Sana ulospäin |
Ylimääräinen | apu | Fraasien syntaktisen ja semanttisen yhtenäisyyden osat |
Tiedon tallentamiseen lauseen syntaktisesta rakenteesta SynTagRusissa käytetään lauseen kunkin sanan kahta attribuuttia: DOM , jonka arvo on isäntäsanan tunnus ja LINK , jonka arvo on lauseen nimi. vastaava syntaktinen suhde [16] . Virkkeen yläosassa on _root DOM -attribuutin erikoisarvo [19] .
Jokaiselle sanamuodolle on lemman lisäksi määritetty KSNAME- attribuutti , jonka arvo on ETAP-kieliprosessorin selittävä-kombinatorisessa sanakirjassa olevan vastaavan merkinnän nimi . Tästä johtuen toisaalta määritellään polysemanttisten ja homonyymien sanojen merkitys ja toisaalta muodostetaan yhteys ETAP-prosessorin käyttämän sanakirjan merkintöihin ja näiden sisältämiin tietoihin. Sanojen semanttisia ominaisuuksia koskevat merkinnät tulevat saataville [10] .
Lauseet on merkitty lauseilla, jotka voidaan tulkita leksikaalisilla funktioilla . Tällaisten lauseiden merkitsemiseksi lauseen sisällä luodaan lisäelementtejä itse sanamuodoista [13] .
Mikrosyntaktiset yksiköt SynTagRusissa ymmärretään fraseologisina yksiköinä , joilla on syntaktinen spesifisyys [20] . Esimerkki on voimassa oleva yhdisteprepositio . Toisaalta se on syntaktisesti lähellä primitiivisiä prepositioita. On todellakin mahdotonta lisätä pronominaalista määritelmää substantiiville tämän preposition elementtien väliin, kuten muissa tyypin prepositiorakenteissa muodossa , case jne. Lisäksi, jos kolmannen henkilön henkilöpronomini on subjekti tähän lauseen prepositioon, niin useimmissa tapauksissa alkuteksti n- , kuten primitiivisten prepositioiden tapauksessa. Toisaalta joidenkin konjunktioiden pariliitosten ensimmäinen osa sekä partikkeli , voiko tai sijaita voimassa olevan preposition ja siitä riippuvan substantiivin välissä, mikä tekee mahdottomaksi liittää tätä prepositiota primitiivien ansioksi [21] .
Jos korpuksen jossain lauseessa esiintyy mikrosyntaktinen yksikkö, lisätään uusi lauseattribuutti - MICROSYNT , jonka arvo on vastaavan mikrosyntaktisen yksikön nimi ja sen lineaariset rajat [20] .
Tekstissä esiintyvälle anaforiselle pronominille ilmoitetaan sen edeltäjä eli ilmaus, johon tämä pronomini viittaa. Lauseessa, josta löytyy anaforinen pronomini, on ylimääräinen COREF- attribuutti, jonka arvo on luettelo annettua pronominia vastaavista pronomini-antecedent-pareista. Jokaiselle anaforiselle pronominille ilmoitetaan sen lineaarinen sijainti lauseessa, ja edeltäjälle ilmoitetaan lisäksi, missä lauseessa se sijaitsee suhteessa tarkasteltavaan (kolmen lauseen sisällä molempiin suuntiin) [4] .
SynTagRusissa elliptisten lauseiden pois jätetyt fragmentit palautetaan eksplisiittisesti. Vastaava palautettu sanamuoto merkitään samalla tavalla kuin muut sanamuodot; erityisesti kaikki tarvittavat syntaktiset linkit vedetään tällaisista "haamu" sanoista. Tälle sanamuodolle on määritetty attribuutti NODETYPE arvolla FANTOM [2] [22] .
SynTagRusia käytetään useilla aloilla. Toisaalta sen pohjalta tehdään puhtaasti kielellistä tutkimusta, sekä teoreettista että käytännöllistä (erityisesti leksikografian alalla ). Toisaalta korpus löytää sovelluksensa laskennallisen lingvistiikan tehtävissä kielitiedon lähteenä, esimerkiksi jäsentimiä luotaessa . Nämä tehtävät voidaan ratkaista käyttämällä erilaisia merkintämuotoja. Samalla useiden eri merkinnöillä varustettujen rakennusten yhdistäminen yhdeksi tekee jälkimmäisestä edustavamman. Nämä olosuhteet johtavat korpuskonversion ongelmaan [4] .
SynTagRus on yritetty kääntää muihin merkintäformaatteihin toistuvasti: tiedetään kokeilujen muuntamiseksi korpus HPSG ja PDT [13] muotoihin . Lisäksi SynTagRus muutettiin onnistuneesti CoNLL-U [22] , PTB [23] ja SD [24] muotoihin . Konversio , ensinnäkin, koski kuitenkin vain morfologisia ja syntaktisia merkintöjä, ja toiseksi se suoritettiin automaattisesti, mikä tuli esteeksi täysimittaiselle muunnokselle. Joten esimerkiksi NID-puheenosaa ei voitu yksiselitteisesti kääntää CoNLL-U -muotoon (jossa sellaista sanan osaa ei ole) automaattisesti, joten kaikissa SinTagRus-lauseissa, joissa vähintään yksi sanamuoto oli sellainen osa puheesta jätettiin pois korpusesta ennen muuntamista [22] .
SynTagRus jaetaan maksutta ei-kaupallisella lisenssillä [25] . Lisäksi korpuksen versio ilman tietyntyyppisiä merkintöjä on saatavilla ei-kaupalliseen käyttöön tutkimus- ja opetustarkoituksiin Venäjän kielen kansalliskorpuksen alikorpusena ja on julkisessa käytössä [13] , samoin kuin versiot. CoNLL -U -muodoissa (lisenssi CC BY-NC-SA 4.0 ) [22] ja PTB (vain muuntaja saatavilla) [23] .
Korpuslingvistiikka | |
---|---|
Englanninkieliset corporat |
|
Venäjänkieliset corporit |
|
Corpora muilla kielillä |
|
Organisaatiot |