SinTagRus

SinTagRus
Tapauksen määrä	yli 1,1 miljoonaa sanaa
Kieli	Venäjän kieli
Perusmerkintätyypit	morfologinen , syntaktinen , leksikosemanttinen
Kääntäjät	Laskennallisen lingvistiikan laboratorio IPTP RAS
luomispäivämäärä	1998
Pääsy	vapaa
Lisenssi	omistusoikeus
Verkkosivusto	proling.iitp.ru/ru/proje…

SynTagRus ( eng. SynTagRus , lyhenne sanoista Englanti. Syntactically Tagged Russian text corpus , "syntaktisesti annotoitu venäläisten tekstien korpus") on syvästi annotoitu venäläisten tekstien korpus , ensimmäinen venäläisten tekstien runko, jossa on syntaktinen merkintä. Sitä on vuodesta 1998 kehittänyt IPTP RAS : n laskennallisen lingvistiikan laboratorio yhteistyössä IRL RAS :n teoreettisen semantiikan sektorin kanssa . Korpus koostuu eri tyylilajeista kuuluvista teksteistä; sanankäyttöjen kokonaismäärä on yli miljoona [ ⇨ .

SynTagRus perustuu monikäyttöisen kielellisen ETAP-prosessorin ideologiaan . Korpuksen ominaisuus on useiden eri syvyyksien annotaatiotasojen läsnäolo, mukaan lukien täydellinen morfologinen ja syntaktinen merkintä poistettu homonyymi . Merkintäkieli on XML .

SynTagRus jaetaan ei-kaupallisella lisenssillä . Lisäksi korpus on muunnettu eri muotoihin; jotkin näistä versioista (tai muuntimista) ovat julkisia, ja rajoitettu versio alkuperäisestä aineistosta on osa Venäjän kansalliskokoelmaa .

Historia

Syntaktisten merkintäkorpujen ilmaantuminen 1990 - luvun alussa johti empiiristen menetelmien kehittämiseen luonnollisen kielen käsittelyongelmissa . Lisäksi tällaisten korpusten käyttöä ei ole käytetty vain syntaktisen analyysin yhteydessä, vaan myös useissa muissa tehtävissä, mukaan lukien leksikaalisen polysemian erottelu , semanttinen analyysi jne. [1]

1990-luvun loppuun mennessä useimmille tärkeimmille eurooppalaisille kielille oli luotu huomautuksilla varustetut korpust , kun taas venäjän kielelle ei todellisuudessa ollut olemassa [2] . Lisäksi edes tuolloin olemassa olleet merkitsemättömät korpust (esimerkiksi Uppsalan venäläisten tekstien korpus ) eivät olleet julkisesti saatavilla [3] .

Näistä syistä vuodesta 1998 [4] lähtien alkoi ensimmäisen venäjän kielen annotoidun SinTagRus-korpuksen [2] [5] kehittäminen , josta tuli myöhemmin standardi syntaktisilla merkinnöillä varustetuissa korpusissa [6] . Samaan aikaan kehittäjät osallistuivat myös Venäjän kielen kansalliskokouksen luomiseen; erityisesti SynTagRus (join rajoituksin) on ollut olennainen, mutta täysin itsenäinen osa NCRP :tä viimeksi mainitun luomisesta lähtien [7] [8] . NKRY:ssä SinTagRusille (alikorpusena) käytetään myös nimeä "syvästi merkitty korpus" [9] .

SinTagRusin kehittämisestä vastaa IPTP RAS :n laskennallisen lingvistiikan laboratorio yhteistyössä IRL RAS :n teoreettisen semantiikan sektorin kanssa [10] .

Joukkokunnan kokoonpano

SinTagRusin lähdemateriaalina oli Uppsalan venäläisten tekstien korpus: noin 10 000 lausetta poimittiin kaunokirjallisuuden teksteistä. Korpukseen lisättiin myöhemmin lyhyitä (enintään 30 lausetta) tekstejä, jotka oli otettu suosittujen uutisjulkaisujen ( yandex.ru , rbc.ru , polit.ru , lenta.ru , strana.ru , news.ru ) verkkosivuilta [ 2] [11] .

SynTagRus kehittyy jatkuvasti, ja vuonna 2020 siinä on noin 77 tuhatta lausetta (yli 1,1 miljoonaa sanankäyttöä) [12] , jotka on otettu seuraavien genrejen teksteistä [13] [8] [14] :

1900-luvun taiteellista proosaa ;
moderni tietokirjallisuus ;
journalismi ;
elämäkerrat ;
sanomalehti - ja aikakauslehtiartikkelit vuodesta 1960 tähän päivään ;
uutissyötteet (yhteiskunnallis-poliittiset, kulttuuriset, taloudelliset, tieteelliset ja tekniset tekstit).

Merkintätyypit ja -muoto

SynTagRusin erottuva piirre muihin venäjän kielen annotoituihin korpuihin verrattuna on useiden eri syvyyksien merkintätasojen läsnäolo, jotka voidaan poimia itsenäisesti korpusesta, ja näiden tasojen lukumäärä on mahdollisesti rajaton. Korpuksen merkintäkieli on XML ja merkintämuoto on yhteensopiva TEI formalismin kanssa, lukuun ottamatta joitain lisäksi lisättyjä elementtejä ja attribuutteja [2] . Periaatteessa vapaan tekstin merkintä tehdään kahdessa vaiheessa [11] :

Tekstin alustava merkintä automaattitilassa ETAP-kieliprosessorin avulla, joka on Meaning-Text -mallin käytännön toteutus .
Ammattitaitoisen lingvistin suorittama merkinnän tarkistaminen ja tarvittaessa korjaaminen .

Seuraavassa luetellaan korpuksessa käytettävissä olevat merkintätyypit.

Tekstin jakaminen lauseisiin ja sanastoon

Jokainen teksti SinTagRusissa on jaettu lauseisiin. Jokainen lause on elementti nimeltä S , ja jokaisella sellaisella elementillä on ID - attribuutti, jonka arvo on tekstissä olevan lauseen sarjanumero. Vastaavasti jokainen lause on jaettu leksikaalisiin elementteihin nimeltä W ja jokaisella sellaisella elementillä on ID - attribuutti , jonka arvo on tämän lauseen sanan järjestysnumero [11] . Välimerkit on muotoiltu lausetunnisteen tekstiksi ( säilyttäen niiden suhteellisen aseman lähdetekstissä), eikä niitä ilmaista omilla tageilla [15] .

Morfologinen merkintä

Sanamuodon morfologinen rakenne on lekseemin eli lemman nimi , jolle liitetään osa puhetta ja morfologisia ominaisuuksia eli vastaavien morfologisten kategorioiden merkityksiä . Vastaavalle sanamuodolle lemma on LEMMA -attribuutin arvo, ja puheosa ja morfologiset ominaisuudet yhdessä ovat FEAT [8] [16] attribuutin arvo .

Morfologisen merkinnän kuvaus [17] Käytetyt puheenosat

Osa puhetta	Vähentäminen	Esimerkkejä
Substantiivi	S	tehdas , ts
Adjektiivi	A	uusi minun _
Verbi	V	pukeutua
Adverbi	ADV	huono , tavallaan
numero	NUM	viisi , 2
tekosyy	PR	alla
Komposiitti	COM	ilma , vesi
liitto	CONJ	ja
Hiukkanen	OSA	kuitenkin
Huudahdus	INTJ	niin ja niin
Sana on vieraskielinen osa	NID	Whatsapp , Berliner Zeitung

Käytetyt morfologiset ominaisuudet

Morfologiset ominaisuudet	Vähentäminen	Merkintä
Animaatio
animoitu	OD
eloton	NEOD
Suku
Uros	MIES
Nainen	NAINEN
Keskiverto	KESKIVIIKKO
Määrä
Ainoa asia	ED
monikko	MN
tapaus
Nominatiivi	NIITÄ
Genetiivi	SUKU
Partitiivi	OSA	Osoitettu vain substantiiville, jossa tämä muoto eroaa graafisesti genitiivimuodosta
Datiivi	DAT
Akkusatiivi	VIN
Instrumentaalinen	TVOR
Prepositio	JNE
Paikallinen	PAIKALLINEN	Osoitettu vain substantiiville, jossa tämä muoto eroaa graafisesti prepositiomuodosta
Vocative	SW	Osoitettu vain substantiivien kohdalla, joissa tämä muoto eroaa graafisesti nimitystapamuodosta
Vertailuaste
Vertaileva	SRAV
erinomainen	PREV
Lyhytisyys
Lyhyt	KR
edustus
Infinitiivi	INF
Partiisilause	PRICH
gerund	SYVÄ
Mieliala
suuntaa antava	Epäonnistuminen
välttämätöntä	POV
Näytä
Epätäydellinen	NESOV
Täydellinen	PÖLLÖ
Aika
Ei-menneisyys	NEPROSH
Mennyt	PROSH
nykyhetki	NAST	Liittyy vain verbille olla henkilökohtaisessa muodossa
Kasvot
Ensimmäinen	1-L	Liittyy vain verbeihin
Toinen	2-L
Kolmanneksi	3-L
Lupaus
Passiivinen	STRAD
lisäominaisuuksia
Sävellys	SL
Pehmennetty vertaileva tutkinto	SMYAG

Syntaktinen merkintä

Korpuslauseiden syntaktinen merkintä suoritetaan riippuvuuskieliopin puitteissa : syntaktinen rakenne on suuntautunut puu , jonka solmut ovat sanoja ja jokainen reuna on suunnattu pääsanasta palvelijanaan ja vastaa jotakin syntaktista suhdetta . . Puun juurta vastaavaa sanaa kutsutaan lauseen huipuksi, ja toisin kuin lauseen muut sanat, se ei ole syntaktisesti riippuvainen mistään muusta. Syntaktiset ryhmät on järjestetty lähdepuun alipuiden muotoon: kussakin sellaisessa alipuussa yksi ryhmän jäsenistä edustaa sitä ulkosuhteissa ja alistaa muut ryhmän jäsenet [18] . SinTagRusissa erotetaan kaikkiaan noin 70 tyyppistä syntaktista suhdetta [13] .

Käytetyt syntaktiset suhteet [17] Aktanttien syntaktiset suhteet

Syntaksisuhde	Vähentäminen	Sana isäntä	Sanan palvelija
Prediktiivinen	predikaatti	Predikaatti	Aihe
Datiivi-subjektiivinen	päivämäärä-aihe	Ilmoita sana	isäntäsanalla tarkoitetun tilan subjekti
Agentti	agentti	sana toiminnalle	Isäntäsanalla merkitty toiminnon aihe
Kvasi-agentti	kvasi-agentti	predikaatti substantiivi	Sana, joka toteuttaa isäntäsanan ensimmäisen syntaktisen valenssin
Omistus-agentti	väärä agentti	Verbi	Sana, joka toteuttaa substantiivin ensimmäisen semanttisen valenssin, joka on isäntäsanan semanttinen aktantti
Ensimmäinen valmis	1 sarja	predikaatti sana	Isäntäsanan syntaktinen aktantti ensimmäistä lukuun ottamatta. Siten ensimmäinen kompleksisuhde viittaa toiseen aktanttiin, toinen kolmanteen ja niin edelleen.
Toinen valmis	2-setti
Kolmas valmis	3-setti
Neljäs valmis	4-setti
Viides valmis	5-setti
Liite	sidottu	Linkki verbi	Predikaatin nimellinen osa
Ensimmäinen virheellinen-täydellinen	1 - väärä sarja	toiminnallinen verbi	Täydennys (ensimmäinen, toinen jne.), jonka semanttinen isäntä on jokin isäntäsanan semanttinen aktantti
Toinen väärin-täydellinen	2-väärin sarja
Kolmas virheellinen-täydellinen	3-väärin sarja
Neljäs väärin-täydellinen	4-väärin sarja
Viides väärin-täydellinen	5 - väärä sarja
Ei-aktantti-täydellinen	ei-toimi-set	predikaatti sana	Sana, joka ei ole isäntäsanan täysimittainen semanttinen aktantti, mutta on syntaktisesti samanlainen kuin komplementti
Täydentävä-positiivinen	aseta sovelluksia	Parametrinen substantiivi tai substantiivi lento , reitti , juna	Isäntäsanan semanttinen aktantti, jos tämä aktantti ilmaistaan nominatiivissa tai sen syntaktisessa vastineessa
prepositio	tarjous	tekosyy	Substantiivilauseen kärkipiste prepositiosta riippuen
Alisteinen-liittolainen	aliliitto	Alisteinen liitto	Korjausliiton käyttöön ottaman alalausekkeen yläosa
infinitiivi-liitto	inf-liitto	Alisteinen liitto	Infinitiivi
Vertaileva	vertailla	Vertaileva adjektiivi tai adverbi	Genitiivissä olevan substantiivilauseen kärki, joka edustaa toista verratuista jäsenistä, tai vertaileva liitto kuin
Vertaileva	vertailla	Verbi, nimi tai adverbi	vertaileva liitto
vertaileva liitto	vertaa-liitto	vertaileva liitto	Vertailevan konstruktion vertailutermeistä toinen
valinnaisia	valinnaisia	Numero, järjestysadjektiivi, superlatiiviadjektiivi tai adjektiivi, jossa on sana useimmat	Prepositio , joka sisältää merkinnän joukosta, jossa valinta tehdään
lause-predikatiivi	pyhä predikaatti	Tunnusrakenteessa kuvattua tilannetta ilmaisevan lauseen yläosa	Demonstratiivisen pronominaalin substantiivi tämä tai tuo nimitystapauksessa
Kohdetta sitova	assign-adr	Relaatiosana, joka toimii predikaatin nimellisenä osana, jossa on (mahdollisesti nolla) linkki	Substantiivi datiivitapauksessa, joka täyttää pohjimmiltaan isäntäsanan syntaktisen valenssin

Määrittele syntaktiset suhteet

Syntaksisuhde	Vähentäminen	Sana isäntä	Sanan palvelija
Determinantit
lopullinen	määritelty	Substantiivi tai adjektiivi	adjektiivi tai partisiippi
Kuvaava - lopullinen	op-def	Substantiivi tai adjektiivi	Adjektiivi tai partisiippi toimii erillisenä määritelmänä
Likimääräinen järjestysluku	likimääräinen järjestys	Substantiivi	järjestyksen adjektiivi
Suhteellinen	suhde	Substantiivi tai adjektiivi	Relatiivisen attribuutin huippu
yleinen attribuutti
attribuutio	atrib	Substantiivi tai adjektiivi	Epäjohdonmukainen määritelmä
Komposiitti	sävellys	Yhdyssanan toinen osa	Yhdistetyn sanan ensimmäinen osa
positiivinen
positiivinen	appos	Substantiivi	Seuraava sovellus
Erillinen positiivinen	ob-appos	Substantiivi	Erillinen sovellus isäntäsanalle
nominatiivi-positiivinen	nom-appos	Substantiivi	Minkä tahansa nimeä ilmaisevan lainatun ryhmän yläosa
Numeratiiv-positiivinen	num appoz	Substantiivi, joka merkitsee säännöllisesti numeroituja esineitä	Nimi on numeerinen nimikirjaimella tai kirjoitettu numeroilla (osoittaa numeroa)
määrällinen
määrällinen	määrä	Substantiivi	Numero prepositiossa
Likimääräinen-kvantitatiivinen	likimääräinen määrä	Substantiivi	Numero jälkiasennossa
Kvantitatiivinen-Kopredikatiivinen	numero-copred	Verbi, jossa on substantiivi genitiivissä, joka toimii sen kanssa subjektina	Numeroryhmän yläosa tai nimellisryhmän yläosa, jossa on kardinaaliarvo
Määrällisesti rajoittava	numeroraja	Vertaileva adjektiivi tai adverbi	Adverbi tai ryhmän yläosa, jossa prepositiot sisällä tai päällä , osoittavat intensiteettiä
jakelu	jakelu	Tiettyä parametria (hinta, nopeus, paino jne.) ilmaisevan substantiivilauseen yläosa	Substantiivi nominatiivissa tai ryhmän yläosassa prepositioilla , on , for , ilmaisee mittayksikön
lisäaine	lisää	Määrällisen ryhmän numero tai yläosa	Määrällisen ryhmän numero tai yläosa
olosuhteet huomioon ottaen
olosuhteet huomioon ottaen	obst	Verbi tai sana toisesta sanan osasta, joka on lauseen huippu	Olosuhteet
pitkä	pitkä	Verbi	Kesto-olosuhde, joka ilmaistaan substantiivilla akusatiivissa tai prepositioryhmällä, jolla on likimääräinen määrä tai jakauma
Monipituinen	monipituinen	Verbi	Monikestoinen seikka, joka ilmaistaan substantiivilla instrumentaalimonikkossa
Etä	etäisyys	Verbi	Tilallisen laajuuden seikka, joka ilmaistaan substantiivilla akusatiivissa tai prepositioryhmällä, jolla on likimääräinen määrä tai jakauma
olosuhteet-tautologinen	obst-taut	Verbi	Substantiivi instrumentaalitapauksessa, joka toistaa osan isäntäsanan merkityksestä
subjektiivinen seikka	osaympäristö	Verbi	Instrumentaalitapauksessa seikka, joka luonnehtii samalla toiminnan kohdetta
Objekti olosuhteet	obst	Verbi	Instrumentaalitapauksessa seikka, joka luonnehtii samalla toiminnan kohdetta
subjektiivinen-kopredikatiivinen	sub-copr	Verbi	Nominaalifraasin yläosa nominatiivissa tai instrumentaalitapauksessa tai prepositioryhmän yläosa, joka toimii funktiossa, joka on lähellä yhdistelmäpredikaatin nominaaliosan funktiota, mutta karakterisoi subjektia merkitykseltään ja (jos kyseessä on nimilause) on sen mukainen sukupuolen ja lukumäärän suhteen
Object-Copredicative	ob-copr	Verbi	Nominaaliryhmän yläosa instrumentaali- tai akkusatiivissa tai prepositioryhmän yläosa, joka kuvaa objektia. Jos sana-palvelija ilmaistaan substantiivilauseella, se on yhdenmukainen komplementin kanssa sukupuolen ja lukumäärän suhteen
Rajoittava	rajoitettu	Minkä tahansa puheenosan sana	Partikkeli tai rajoittava adverbi
johdannossa	esittely	Predikaatti tai muu lauseen jäsen	Johdantosana , johdantokäännös, lause tai vetoomus
Selittävä	asia selvä	Päälauseen alkuun	Alalauseen yläosa, mukaan lukien liitossana mitä , miksi tai miksi
selittävä	selittää	Mielivaltainen sana	Sana, jolla on huollettavia ja antaa yhdessä heidän kanssaan lisätietoa isäntäsanasta tai isäntäsanan edustamasta sanaryhmästä. Muodollinen "selvennysmerkki" vaaditaan, joka voi olla välimerkki tai lisätietoa tuova lauseke
viereinen	viereinen	Sana, joka on ilmaisun "isäntä", jonka yläosassa on sana palvelija	Isäntäsanasta riippuva lausekkeen huippu, joka sijaitsee isäntäsanan oikealla puolella ja on suljettu suluissa tai rajattu molemmilta puolilta viivalla
karsinta	selvennys	Jonkin lausekkeen edustaja (vertex).	Jonkin ilmaisun edustaja. Tämä lauseke tarkentaa semanttisesti isäntäsanan edustamaa lauseketta, mutta molemmilla lausekkeilla on sama syntaktinen tehtävä.

Syntaktisten suhteiden koordinointi

Syntaksisuhde	Vähentäminen	Sana isäntä	Sanan palvelija
kirjoittaminen	kirjoittaminen	Koordinoivan rakenteen jäsen	Koordinoivan rakentamisen tai koordinoivan liiton jäsen. Sijaitsee välittömästi isäntäsanan oikealla puolella.
lause-koordinaatiivinen	pyhimys op	Ensimmäisen homogeenisen lauseen yläosa	Toisen virkkeen alkuun tai koordinoiva liitto
Koordinoiva liitto	op-liitto	kirjoitusliitto _	Homogeenisten termien tai lauseiden toisen yläosa
Useita	useita	Moninkertaisen konstruktion pääjäsen on substantiivi , adjektiivi , adverbi , numero tai verbi	Monirakentamisen riippuvainen jäsen. Muodostetaan joko samalla tavalla kuin pääjäsen ja erotetaan siitä yhdysmerkillä, väliviivalla, kaksoispisteellä tai kauttaviivalla tai lisätään prepositioon "on" tai "to"

Palvelusyntaktiset suhteet

Syntaksisuhde	Vähentäminen	Sana isäntä	Sanan palvelija
Analyyttinen	analyytti	Yhdistetyn verbaalisen predikaatin elementit . Nämä elementit muodostavat monimutkaisen tulevaisuuden ajan eli subjunktiivin .
Passiivi-analyyttinen	läpäise anaali	Verbi - linkki "olla"	Passiivinen ehtoollinen
Määrällinen-apu	numero-apu	Yhdistetyn numeron tai yhdyssanan adjektiivin oikea puoli	Yhdistetyn numeron tai yhdistetyn järjestysadjektiivin vasen puoli
suhteellinen	korrelaatio	katkenneen parin konjunktion , prepositioon tai partikkelin vasen puoli tai katkenneen parin koordinoivan konjunktion oikea puoli	Rikkoutuneen parin konjunktion, preposition tai partikkelin oikea puoli tai katkenneen parin koordinoivan konjunktion vasen puoli
EXPLENTTIIVINEN	explet	Demonstratiivinen pronomini - "tiiviste" tuollainen , tuo	Alisteinen liitto tai virkkeen huippu. Isäntäsana on "salattu" palvelijasanalla
Proleptic	proleptus	Semanttisesti moniselitteinen sana, jolla on täysi asema lauseessa	Sana ulospäin
Ylimääräinen	apu	Fraasien syntaktisen ja semanttisen yhtenäisyyden osat

Tiedon tallentamiseen lauseen syntaktisesta rakenteesta SynTagRusissa käytetään lauseen kunkin sanan kahta attribuuttia: DOM , jonka arvo on isäntäsanan tunnus ja LINK , jonka arvo on lauseen nimi. vastaava syntaktinen suhde [16] . Virkkeen yläosassa on _root DOM -attribuutin erikoisarvo [19] .

Leksiko-semanttinen merkintä

Jokaiselle sanamuodolle on lemman lisäksi määritetty KSNAME- attribuutti , jonka arvo on ETAP-kieliprosessorin selittävä-kombinatorisessa sanakirjassa olevan vastaavan merkinnän nimi . Tästä johtuen toisaalta määritellään polysemanttisten ja homonyymien sanojen merkitys ja toisaalta muodostetaan yhteys ETAP-prosessorin käyttämän sanakirjan merkintöihin ja näiden sisältämiin tietoihin. Sanojen semanttisia ominaisuuksia koskevat merkinnät tulevat saataville [10] .

Leksikofunktionaalinen merkintä

Lauseet on merkitty lauseilla, jotka voidaan tulkita leksikaalisilla funktioilla . Tällaisten lauseiden merkitsemiseksi lauseen sisällä luodaan lisäelementtejä itse sanamuodoista [13] .

Mikrosyntaktinen merkintä

Mikrosyntaktiset yksiköt SynTagRusissa ymmärretään fraseologisina yksiköinä , joilla on syntaktinen spesifisyys [20] . Esimerkki on voimassa oleva yhdisteprepositio . Toisaalta se on syntaktisesti lähellä primitiivisiä prepositioita. On todellakin mahdotonta lisätä pronominaalista määritelmää substantiiville tämän preposition elementtien väliin, kuten muissa tyypin prepositiorakenteissa muodossa , case jne. Lisäksi, jos kolmannen henkilön henkilöpronomini on subjekti tähän lauseen prepositioon, niin useimmissa tapauksissa alkuteksti n- , kuten primitiivisten prepositioiden tapauksessa. Toisaalta joidenkin konjunktioiden pariliitosten ensimmäinen osa sekä partikkeli , voiko tai sijaita voimassa olevan preposition ja siitä riippuvan substantiivin välissä, mikä tekee mahdottomaksi liittää tätä prepositiota primitiivien ansioksi [21] .

Jos korpuksen jossain lauseessa esiintyy mikrosyntaktinen yksikkö, lisätään uusi lauseattribuutti - MICROSYNT , jonka arvo on vastaavan mikrosyntaktisen yksikön nimi ja sen lineaariset rajat [20] .

Anaforinen merkintä

Tekstissä esiintyvälle anaforiselle pronominille ilmoitetaan sen edeltäjä eli ilmaus, johon tämä pronomini viittaa. Lauseessa, josta löytyy anaforinen pronomini, on ylimääräinen COREF- attribuutti, jonka arvo on luettelo annettua pronominia vastaavista pronomini-antecedent-pareista. Jokaiselle anaforiselle pronominille ilmoitetaan sen lineaarinen sijainti lauseessa, ja edeltäjälle ilmoitetaan lisäksi, missä lauseessa se sijaitsee suhteessa tarkasteltavaan (kolmen lauseen sisällä molempiin suuntiin) [4] .

Elliptisten rakenteiden käsittely

SynTagRusissa elliptisten lauseiden pois jätetyt fragmentit palautetaan eksplisiittisesti. Vastaava palautettu sanamuoto merkitään samalla tavalla kuin muut sanamuodot; erityisesti kaikki tarvittavat syntaktiset linkit vedetään tällaisista "haamu" sanoista. Tälle sanamuodolle on määritetty attribuutti NODETYPE arvolla FANTOM [2] [22] .

Rungon käyttäminen

SynTagRusia käytetään useilla aloilla. Toisaalta sen pohjalta tehdään puhtaasti kielellistä tutkimusta, sekä teoreettista että käytännöllistä (erityisesti leksikografian alalla ). Toisaalta korpus löytää sovelluksensa laskennallisen lingvistiikan tehtävissä kielitiedon lähteenä, esimerkiksi jäsentimiä luotaessa . Nämä tehtävät voidaan ratkaista käyttämällä erilaisia merkintämuotoja. Samalla useiden eri merkinnöillä varustettujen rakennusten yhdistäminen yhdeksi tekee jälkimmäisestä edustavamman. Nämä olosuhteet johtavat korpuskonversion ongelmaan [4] .

SynTagRus on yritetty kääntää muihin merkintäformaatteihin toistuvasti: tiedetään kokeilujen muuntamiseksi korpus HPSG ja PDT [13] muotoihin . Lisäksi SynTagRus muutettiin onnistuneesti CoNLL-U [22] , PTB [23] ja SD [24] muotoihin . Konversio , ensinnäkin, koski kuitenkin vain morfologisia ja syntaktisia merkintöjä, ja toiseksi se suoritettiin automaattisesti, mikä tuli esteeksi täysimittaiselle muunnokselle. Joten esimerkiksi NID-puheenosaa ei voitu yksiselitteisesti kääntää CoNLL-U -muotoon (jossa sellaista sanan osaa ei ole) automaattisesti, joten kaikissa SinTagRus-lauseissa, joissa vähintään yksi sanamuoto oli sellainen osa puheesta jätettiin pois korpusesta ennen muuntamista [22] .

Pääsy

SynTagRus jaetaan maksutta ei-kaupallisella lisenssillä [25] . Lisäksi korpuksen versio ilman tietyntyyppisiä merkintöjä on saatavilla ei-kaupalliseen käyttöön tutkimus- ja opetustarkoituksiin Venäjän kielen kansalliskorpuksen alikorpusena ja on julkisessa käytössä [13] , samoin kuin versiot. CoNLL -U -muodoissa (lisenssi CC BY-NC-SA 4.0 ) [22] ja PTB (vain muuntaja saatavilla) [23] .

Muistiinpanot

↑ Eric Brill , Raymond J. Mooney. Yleiskatsaus empiiriseen luonnollisen kielen käsittelyyn // AI Magazine. - AAAI, 1997. - Voi. 18 , ei. 4 . - s. 13-24 .
↑ 1 2 3 4 5 Boguslavsky I. M. , Grigoriev N. V. , Grigoryeva S. A. , Kreydlin L. G. , Frid N. E. Annotated korpus venäläisiä tekstejä: käsite, merkintätyökalut, tiedon tyypit // Proceedings Kansainvälinen seminaari laskennallisesta sovelluksesta "20ialogiikka lingvistinen ". - Protvino, 2000. Arkistoitu 31. heinäkuuta 2019. (Venäjän kieli)
↑ Reznikova T. I. , Kopotev M. V. Kielellisesti merkityt venäjän kielen aineistot (julkisten resurssien katsaus) // Venäjän kielen kansallinen korpus: 2003-2005. - M .: Indrik , 2005. - S. 31-61 . Arkistoitu alkuperäisestä 31. heinäkuuta 2019. (Venäjän kieli)
↑ 1 2 3 Inshakova E. S. , Iomdin L. L. , Mityushin L. G. , Sizov V. G. , Frolova T. I. , Tsinman L. L. SinTagRus tänään // Proceedings of the Institute of the Russian Language. V. V. Vinogradova. - M . : "Nestor-History", 2019. - Numero. 21 . - S. 14-40 . Arkistoitu 26. maaliskuuta 2020. (Venäjän kieli)
↑ Moskvina A. D. , Orlova D. , Panicheva P. V. , Mitrofanova O. A. Venäjän kielen jäsennysytimen kehittäminen NLTK-kirjastojen perusteella // Yhdistyneen tieteellisen konferenssin "Internet ja moderni yhteiskunta" julkaisut. - 2016. - S. 44-54 . Arkistoitu alkuperäisestä 10. lokakuuta 2019. (Venäjän kieli)
↑ Kibrik A.E. , Fedorova O.V., Tatevosov S.G. , Lyutikova E.A., Kibrik A.A. , Kobozeva I.M. , Falikman M.V., Chenki A., Sekerina I., Nikolaeva Yu.V., Beltov B., Alpo V., Daniel' M. A. , Bergel O. M.a. S. Yu., Bonch-Osmolovskaya A. A. , Podlesskaya V. I., Krivnova O. F. Corpus lingvistics // Johdatus kielitieteeseen / toim. O. V. Fedorova ja S. G. Tatevosov. - M. : Buki Vedi, 2019. - S. 420. - 672 s. — ISBN 978-5-4465-2188-3 . (Venäjän kieli)
↑ Sichinava D.V. Venäjän kielen kansallinen korpus: esihistorian hahmotelma // Venäjän kielen kansallinen korpus: 2003-2005. - M. : Indrik, 2005. - S. 21-30 . Arkistoitu alkuperäisestä 31. heinäkuuta 2019. (Venäjän kieli)
↑ 1 2 3 Apresyan Yu. D. , Boguslavsky I. M. , Iomdin B. L. , Iomdin L. L. , Sannikov A. V. , Sannikov V. Z. , Sizov V. G. , Tsinman L. L. Syntaktisesti ja semanttisesti annotoitu korpus: kansallisen ja venäjän kielen nykyinen tila Venäjän kieli: 2003-2005. - M. : Indrik, 2005. - S. 193-214 . Arkistoitu alkuperäisestä 31. heinäkuuta 2019. (Venäjän kieli)
↑ Zakharov V.P. , Bogdanova S.Yu. Corpus linguistics . - 3. painos, tarkistettu. - Pietari. : St. Petersburg University Press, 2020. - s. 47. - 234 s. - ISBN 978-5-288-05997-1 . (Venäjän kieli)
↑ 1 2 Apresyan Yu. D. , Iomdin L. L. , Sannikov A. V. , Sizov V. G. Semanttinen merkintä syvästi annotoidussa venäjän kielen korpusessa // Proceedings of the International Conference "Corpus Linguistics-2004". - Pietari. : St. Petersburg State University, 2004. - S. 41-54 . Arkistoitu alkuperäisestä 31. heinäkuuta 2019. (Venäjän kieli)
↑ 1 2 3 Boguslavsky I. M. , Grigoriev N. V. , Iomdin L. L. , Kreydlin L. G. , Frid N. E. , Chardin I. S. Venäjän kielen syntaktisesti merkittyjen korpusten kehitys // Tieteellisen konferenssin "Corpus Linguistics and Linguistic Databases" raportit. - Pietari. : St. Petersburg State University, 2002. - S. 40-50 . Arkistoitu alkuperäisestä 31. heinäkuuta 2019. (Venäjän kieli)
↑ Corpus Linguistics . Laboratory of Computational Linguistics IPTP RAS (11.2.2020). Haettu 12. helmikuuta 2020. Arkistoitu alkuperäisestä 22. helmikuuta 2020. (Venäjän kieli)
↑ 1 2 3 4 5 Dyachenko P. V. , Iomdin L. L. , Lazursky A. V. , Mityushin L. G. , Podlesskaya O. Yu. , Sizov V. G. , Frolova T. I. , Tsinman L L. Venäjän kielen nykytila (syvästi tekstin teksti ) // Kokoelma "Venäjän kielen kansallinen korpus: 10 vuotta projektista." - M . : Venäjän kielen instituutin julkaisut. V. V. Vinogradova, 2015. - Numero. 6 . - S. 272-299 . Arkistoitu alkuperäisestä 31. heinäkuuta 2019. (Venäjän kieli)
↑ Boguslavsky I. , Iomdin L. , Sizov V. , Tsinman L. , Petrotšenkov V. Sääntöpohjainen riippuvuusjäsennin jalostettu ja empiirinen korpustilasto // Proceedings of the International Conference on Dependency Linguistics. - 2011. - s. 318-327 . Arkistoitu alkuperäisestä 31. heinäkuuta 2019.
↑ Droganova K. , Lyashevskaya O. , Zeman D. Yksikielisten korpusten tietojen muuntaminen ja johdonmukaisuus: Russian UD treebanks (englanti) // Proceedings of the 17th International Workshop on Treebanks and Linguistic Theories (TLT 2018). - Oslon yliopisto, Norja: Linköping University Electronic Press, 2018. - P. 52-65 . Arkistoitu 19. maaliskuuta 2020.
↑ 1 2 Igor Boguslavsky , Ivan Chardin , Svetlana Grigorjeva , Nikolai Grigoriev , Leonid Iomdin , Leonid Kreydlin , Nadezhda Frid. Venäjän riippuvuuspuupankin kehittäminen ja sen mahdolliset sovellukset NLP:ssä (englanniksi) // Kolmannen kansainvälisen kieliresursseja ja arviointia käsittelevän konferenssin (LREC-2002) julkaisuja. - Las Palmas, 2002. - Voi. III . - s. 852-856 . Arkistoitu alkuperäisestä 10. elokuuta 2017.
↑ 1 2 Syntaktisesti merkitty venäjän kielen korpus: tietoa käyttäjille . Venäjän kielen kansallinen korpus . Haettu 29. maaliskuuta 2020. Arkistoitu alkuperäisestä 25. maaliskuuta 2020. (Venäjän kieli)
↑ Apresyan Y. D. , Boguslavsky I. M. , Iomdin L. L. , Lazursky A. V. , Mityushin L. G. , Sannikov V. Z. , Tsinman L. L. Kielellinen prosessori monimutkaisille tietojärjestelmille. - M .: Science , 1992. - S. 32-40, 56-73. — 256 s.
↑ Leonid Iomdin , Victor Sizov. Rakenneeditori: tehokas ympäristö tunnistekorjauksille // Digitaalisen leksikografian tutkimusinfrastruktuuri. - Ljubljana: Jožef Stefan Institute, 2009. - P. 1-12 .
↑ 1 2 Iomdin L. L. Mikrosyntaktinen merkintä venäläisten tekstien korpusissa // Kansainvälisen tieteellisen konferenssin "Corpus Linguistics - 2017" aineisto. - Pietari. : St. Petersburg State University, 2017. - S. 188-194 . Arkistoitu alkuperäisestä 20. marraskuuta 2021. (Venäjän kieli)
↑ Iomdin L. L. Mikrosyntaksin syvyyksissä: yksi syntaktisten lauseiden leksikaalinen luokka // Computer Linguistics and Intelligent Technologies. - M. : RGGU, 2008. - S. 178-184 . Arkistoitu alkuperäisestä 29. elokuuta 2019. (Venäjän kieli)
↑ 1 2 3 4 Droganova K. , Zeman D. SynTagRusin (Venäjän riippuvuuspuupankin) muuntaminen Universal Dependenciesiksi (englanniksi) // Tekninen raportti. — Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University, 2016. Arkistoitu alkuperäisestä 8.6.2021.
↑ 1 2 Luu A. , Malamud SA , Xue N. SynTagRus-riippuvuuspuupankin muuntaminen Penn-puupankkityyliin // Proceedings of the 10th Linguistic Annotation Workshop, joka järjestetään ACL 2016:n yhteydessä (LAW-X 2016). - 2016. - s. 16-21 . Arkistoitu alkuperäisestä 27. helmikuuta 2019.
↑ Lipenkova J. , Souček M. Converting Russian dependency treebank to Stanford typed dependencies representation (englanniksi) // Proceedings of the 14th Conference of the European Chapter of Computational Linguistics. - 2014. - Vol. 2 . - s. 143-147 . Arkistoitu alkuperäisestä 8. kesäkuuta 2018.
↑ Lyashevskaya O. N. Korpusinstrumentit venäjän kielen kieliopin tutkimuksissa. - M . : Kustantaja YASK, 2016. - S. 193. - 520 s.

Linkit

Korpuslingvistiikka
Englanninkieliset corporat	Amerikan englannin kansallinen korpus Englannin pankki Bergen Corpus of London Teenage Language brittiläinen joukko Ruskea Corpus Buckeye Corpus Cambridge English Corpus Modernin amerikkalaisen englannin runko Enron Corpus Kansainvälinen englanninkielinen korpus Lancaster-Oslo-Bergen Corpus Oxford English Corpus Prop Pankki Puhuttu englanti korpus AIKA VerbNet Uuden-Seelannin puhutun englannin Wellington Corpus
Venäjänkieliset corporit	Venäjän kielen yleinen Internet-korpus Venäjän kansallinen korpus Venäjän kielen avoin korpus SinTagRus Tübingenin venäjän kielen korpus Uppsalan venäläisten tekstien korpus Helsinki Annotated Corpus of the Russian Language
Corpora muilla kielillä	Bijankhan Corpus LAPSET Korpus Kroatian Kroatian kansallinen korpus Europarl Corpus Mannheim Corpus German Hamshahrin joukko Puolan kansallinen korpus Uusassyrialainen tekstikorpusprojekti Koraani korpus Scottish National Corpus Slovenian kansallinen korpus keskustelupankki Tatoeba Teheran Monolingual Corpus Tekstaro de Esperanto Thesaurus Linguae Graecae
Organisaatiot	BNC-konsortio YHTEISKUNTA