SinTagRus

SinTagRus
Tapauksen määrä yli 1,1 miljoonaa sanaa
Kieli Venäjän kieli
Perusmerkintätyypit morfologinen , syntaktinen , leksikosemanttinen
Kääntäjät Laskennallisen lingvistiikan laboratorio IPTP RAS
luomispäivämäärä 1998
Pääsy vapaa
Lisenssi omistusoikeus
Verkkosivusto proling.iitp.ru/ru/proje…

SynTagRus ( eng.  SynTagRus , lyhenne sanoista Englanti. Syntactically  Tagged Russian text corpus , "syntaktisesti annotoitu venäläisten tekstien korpus") on syvästi annotoitu venäläisten tekstien korpus , ensimmäinen venäläisten tekstien runko, jossa on syntaktinen merkintä. Sitä on vuodesta 1998 kehittänyt IPTP RAS : n laskennallisen lingvistiikan laboratorio yhteistyössä IRL RAS :n teoreettisen semantiikan sektorin kanssa . Korpus koostuu eri tyylilajeista kuuluvista teksteistä; sanankäyttöjen kokonaismäärä on yli miljoona [ ⇨ .

SynTagRus perustuu monikäyttöisen kielellisen ETAP-prosessorin ideologiaan . Korpuksen ominaisuus on useiden eri syvyyksien annotaatiotasojen läsnäolo, mukaan lukien täydellinen morfologinen ja syntaktinen merkintä poistettu homonyymi . Merkintäkieli on XML .

SynTagRus jaetaan ei-kaupallisella lisenssillä . Lisäksi korpus on muunnettu eri muotoihin; jotkin näistä versioista (tai muuntimista) ovat julkisia, ja rajoitettu versio alkuperäisestä aineistosta on osa Venäjän kansalliskokoelmaa .

Historia

Syntaktisten merkintäkorpujen ilmaantuminen 1990 - luvun alussa johti empiiristen menetelmien kehittämiseen luonnollisen kielen käsittelyongelmissa . Lisäksi tällaisten korpusten käyttöä ei ole käytetty vain syntaktisen analyysin yhteydessä, vaan myös useissa muissa tehtävissä, mukaan lukien leksikaalisen polysemian erottelu , semanttinen analyysi jne. [1]

1990-luvun loppuun mennessä useimmille tärkeimmille eurooppalaisille kielille oli luotu huomautuksilla varustetut korpust , kun taas venäjän kielelle ei todellisuudessa ollut olemassa [2] . Lisäksi edes tuolloin olemassa olleet merkitsemättömät korpust (esimerkiksi Uppsalan venäläisten tekstien korpus ) eivät olleet julkisesti saatavilla [3] .

Näistä syistä vuodesta 1998 [4] lähtien alkoi ensimmäisen venäjän kielen annotoidun SinTagRus-korpuksen [2] [5] kehittäminen , josta tuli myöhemmin standardi syntaktisilla merkinnöillä varustetuissa korpusissa [6] . Samaan aikaan kehittäjät osallistuivat myös Venäjän kielen kansalliskokouksen luomiseen; erityisesti SynTagRus (join rajoituksin) on ollut olennainen, mutta täysin itsenäinen osa NCRP :tä viimeksi mainitun luomisesta lähtien [7] [8] . NKRY:ssä SinTagRusille (alikorpusena) käytetään myös nimeä "syvästi merkitty korpus" [9] .

SinTagRusin kehittämisestä vastaa IPTP RAS :n laskennallisen lingvistiikan laboratorio yhteistyössä IRL RAS :n teoreettisen semantiikan sektorin kanssa [10] .

Joukkokunnan kokoonpano

SinTagRusin lähdemateriaalina oli Uppsalan venäläisten tekstien korpus: noin 10 000 lausetta poimittiin kaunokirjallisuuden teksteistä. Korpukseen lisättiin myöhemmin lyhyitä (enintään 30 lausetta) tekstejä, jotka oli otettu suosittujen uutisjulkaisujen ( yandex.ru , rbc.ru , polit.ru , lenta.ru , strana.ru , news.ru ) verkkosivuilta [ 2] [11] .

SynTagRus kehittyy jatkuvasti, ja vuonna 2020 siinä on noin 77 tuhatta lausetta (yli 1,1 miljoonaa sanankäyttöä) [12] , jotka on otettu seuraavien genrejen teksteistä [13] [8] [14] :

Merkintätyypit ja -muoto

SynTagRusin erottuva piirre muihin venäjän kielen annotoituihin korpuihin verrattuna on useiden eri syvyyksien merkintätasojen läsnäolo, jotka voidaan poimia itsenäisesti korpusesta, ja näiden tasojen lukumäärä on mahdollisesti rajaton. Korpuksen merkintäkieli on XML ja merkintämuoto on yhteensopiva TEI formalismin kanssa, lukuun ottamatta joitain lisäksi lisättyjä elementtejä ja attribuutteja [2] . Periaatteessa vapaan tekstin merkintä tehdään kahdessa vaiheessa [11] :

  1. Tekstin alustava merkintä automaattitilassa ETAP-kieliprosessorin avulla, joka on Meaning-Text -mallin käytännön toteutus .
  2. Ammattitaitoisen lingvistin suorittama merkinnän tarkistaminen ja tarvittaessa korjaaminen .

Seuraavassa luetellaan korpuksessa käytettävissä olevat merkintätyypit.

Tekstin jakaminen lauseisiin ja sanastoon

Jokainen teksti SinTagRusissa on jaettu lauseisiin. Jokainen lause on elementti nimeltä S , ja jokaisella sellaisella elementillä on ID - attribuutti, jonka arvo on tekstissä olevan lauseen sarjanumero. Vastaavasti jokainen lause on jaettu leksikaalisiin elementteihin nimeltä W ja jokaisella sellaisella elementillä on ID - attribuutti , jonka arvo on tämän lauseen sanan järjestysnumero [11] . Välimerkit on muotoiltu lausetunnisteen tekstiksi ( säilyttäen niiden suhteellisen aseman lähdetekstissä), eikä niitä ilmaista omilla tageilla [15] .

Morfologinen merkintä

Sanamuodon morfologinen rakenne on lekseemin eli lemman nimi , jolle liitetään osa puhetta ja morfologisia ominaisuuksia eli vastaavien morfologisten kategorioiden merkityksiä . Vastaavalle sanamuodolle lemma on LEMMA -attribuutin arvo, ja puheosa ja morfologiset ominaisuudet yhdessä ovat FEAT [8] [16] attribuutin arvo .

Morfologisen merkinnän kuvaus [17] Käytetyt puheenosat Käytetyt morfologiset ominaisuudet

Syntaktinen merkintä

Korpuslauseiden syntaktinen merkintä suoritetaan riippuvuuskieliopin puitteissa : syntaktinen rakenne on suuntautunut puu , jonka solmut ovat sanoja ja jokainen reuna on suunnattu pääsanasta palvelijanaan ja vastaa jotakin syntaktista suhdetta . . Puun juurta vastaavaa sanaa kutsutaan lauseen huipuksi, ja toisin kuin lauseen muut sanat, se ei ole syntaktisesti riippuvainen mistään muusta. Syntaktiset ryhmät on järjestetty lähdepuun alipuiden muotoon: kussakin sellaisessa alipuussa yksi ryhmän jäsenistä edustaa sitä ulkosuhteissa ja alistaa muut ryhmän jäsenet [18] . SinTagRusissa erotetaan kaikkiaan noin 70 tyyppistä syntaktista suhdetta [13] .

Käytetyt syntaktiset suhteet [17] Aktanttien syntaktiset suhteet Määrittele syntaktiset suhteet Syntaktisten suhteiden koordinointi Palvelusyntaktiset suhteet

Tiedon tallentamiseen lauseen syntaktisesta rakenteesta SynTagRusissa käytetään lauseen kunkin sanan kahta attribuuttia: DOM , jonka arvo on isäntäsanan tunnus ja LINK , jonka arvo on lauseen nimi. vastaava syntaktinen suhde [16] . Virkkeen yläosassa on _root DOM -attribuutin erikoisarvo [19] .

Leksiko-semanttinen merkintä

Jokaiselle sanamuodolle on lemman lisäksi määritetty KSNAME- attribuutti , jonka arvo on ETAP-kieliprosessorin selittävä-kombinatorisessa sanakirjassa olevan vastaavan merkinnän nimi . Tästä johtuen toisaalta määritellään polysemanttisten ja homonyymien sanojen merkitys ja toisaalta muodostetaan yhteys ETAP-prosessorin käyttämän sanakirjan merkintöihin ja näiden sisältämiin tietoihin. Sanojen semanttisia ominaisuuksia koskevat merkinnät tulevat saataville [10] .

Leksikofunktionaalinen merkintä

Lauseet on merkitty lauseilla, jotka voidaan tulkita leksikaalisilla funktioilla . Tällaisten lauseiden merkitsemiseksi lauseen sisällä luodaan lisäelementtejä itse sanamuodoista [13] .

Mikrosyntaktinen merkintä

Mikrosyntaktiset yksiköt SynTagRusissa ymmärretään fraseologisina yksiköinä , joilla on syntaktinen spesifisyys [20] . Esimerkki on voimassa oleva yhdisteprepositio . Toisaalta se on syntaktisesti lähellä primitiivisiä prepositioita. On todellakin mahdotonta lisätä pronominaalista määritelmää substantiiville tämän preposition elementtien väliin, kuten muissa tyypin prepositiorakenteissa muodossa , case jne. Lisäksi, jos kolmannen henkilön henkilöpronomini on subjekti tähän lauseen prepositioon, niin useimmissa tapauksissa alkuteksti n- , kuten primitiivisten prepositioiden tapauksessa. Toisaalta joidenkin konjunktioiden pariliitosten ensimmäinen osa sekä partikkeli , voiko tai sijaita voimassa olevan preposition ja siitä riippuvan substantiivin välissä, mikä tekee mahdottomaksi liittää tätä prepositiota primitiivien ansioksi [21] .

Jos korpuksen jossain lauseessa esiintyy mikrosyntaktinen yksikkö, lisätään uusi lauseattribuutti - MICROSYNT , jonka arvo on vastaavan mikrosyntaktisen yksikön nimi ja sen lineaariset rajat [20] .

Anaforinen merkintä

Tekstissä esiintyvälle anaforiselle pronominille ilmoitetaan sen edeltäjä eli ilmaus, johon tämä pronomini viittaa. Lauseessa, josta löytyy anaforinen pronomini, on ylimääräinen COREF- attribuutti, jonka arvo on luettelo annettua pronominia vastaavista pronomini-antecedent-pareista. Jokaiselle anaforiselle pronominille ilmoitetaan sen lineaarinen sijainti lauseessa, ja edeltäjälle ilmoitetaan lisäksi, missä lauseessa se sijaitsee suhteessa tarkasteltavaan (kolmen lauseen sisällä molempiin suuntiin) [4] .

Elliptisten rakenteiden käsittely

SynTagRusissa elliptisten lauseiden pois jätetyt fragmentit palautetaan eksplisiittisesti. Vastaava palautettu sanamuoto merkitään samalla tavalla kuin muut sanamuodot; erityisesti kaikki tarvittavat syntaktiset linkit vedetään tällaisista "haamu" sanoista. Tälle sanamuodolle on määritetty attribuutti NODETYPE arvolla FANTOM [2] [22] .

Rungon käyttäminen

SynTagRusia käytetään useilla aloilla. Toisaalta sen pohjalta tehdään puhtaasti kielellistä tutkimusta, sekä teoreettista että käytännöllistä (erityisesti leksikografian alalla ). Toisaalta korpus löytää sovelluksensa laskennallisen lingvistiikan tehtävissä kielitiedon lähteenä, esimerkiksi jäsentimiä luotaessa . Nämä tehtävät voidaan ratkaista käyttämällä erilaisia ​​​​merkintämuotoja. Samalla useiden eri merkinnöillä varustettujen rakennusten yhdistäminen yhdeksi tekee jälkimmäisestä edustavamman. Nämä olosuhteet johtavat korpuskonversion ongelmaan [4] .

SynTagRus on yritetty kääntää muihin merkintäformaatteihin toistuvasti: tiedetään kokeilujen muuntamiseksi korpus HPSG ja PDT [13] muotoihin . Lisäksi SynTagRus muutettiin onnistuneesti CoNLL-U [22] , PTB [23] ja SD [24] muotoihin . Konversio , ensinnäkin, koski kuitenkin vain morfologisia ja syntaktisia merkintöjä, ja toiseksi se suoritettiin automaattisesti, mikä tuli esteeksi täysimittaiselle muunnokselle. Joten esimerkiksi NID-puheenosaa ei voitu yksiselitteisesti kääntää CoNLL-U -muotoon (jossa sellaista sanan osaa ei ole) automaattisesti, joten kaikissa SinTagRus-lauseissa, joissa vähintään yksi sanamuoto oli sellainen osa puheesta jätettiin pois korpusesta ennen muuntamista [22] .

Pääsy

SynTagRus jaetaan maksutta ei-kaupallisella lisenssillä [25] . Lisäksi korpuksen versio ilman tietyntyyppisiä merkintöjä on saatavilla ei-kaupalliseen käyttöön tutkimus- ja opetustarkoituksiin Venäjän kielen kansalliskorpuksen alikorpusena ja on julkisessa käytössä [13] , samoin kuin versiot. CoNLL -U -muodoissa (lisenssi CC BY-NC-SA 4.0 ) [22] ja PTB (vain muuntaja saatavilla) [23] .

Muistiinpanot

  1. Eric Brill , Raymond J. Mooney. Yleiskatsaus empiiriseen luonnollisen kielen käsittelyyn  //  AI Magazine. - AAAI, 1997. - Voi. 18 , ei. 4 . - s. 13-24 .
  2. 1 2 3 4 5 Boguslavsky I. M. , Grigoriev N. V. , Grigoryeva S. A. , Kreydlin L. G. , Frid N. E. Annotated korpus venäläisiä tekstejä: käsite, merkintätyökalut, tiedon tyypit  // Proceedings Kansainvälinen seminaari laskennallisesta sovelluksesta "20ialogiikka lingvistinen ". - Protvino, 2000. Arkistoitu 31. heinäkuuta 2019.
  3. Reznikova T. I. , Kopotev M. V. Kielellisesti merkityt venäjän kielen aineistot (julkisten resurssien katsaus)  // Venäjän kielen kansallinen korpus: 2003-2005. - M .: Indrik , 2005. - S. 31-61 . Arkistoitu alkuperäisestä 31. heinäkuuta 2019.
  4. 1 2 3 Inshakova E. S. , Iomdin L. L. , Mityushin L. G. , Sizov V. G. , Frolova T. I. , Tsinman L. L. SinTagRus tänään  // Proceedings of the Institute of the Russian Language. V. V. Vinogradova. - M . : "Nestor-History", 2019. - Numero. 21 . - S. 14-40 . Arkistoitu 26. maaliskuuta 2020.
  5. Moskvina A. D. , Orlova D. , Panicheva P. V. , Mitrofanova O. A. Venäjän kielen jäsennysytimen kehittäminen NLTK-kirjastojen perusteella  // Yhdistyneen tieteellisen konferenssin "Internet ja moderni yhteiskunta" julkaisut. - 2016. - S. 44-54 . Arkistoitu alkuperäisestä 10. lokakuuta 2019.
  6. Kibrik A.E. , Fedorova O.V., Tatevosov S.G. , Lyutikova E.A., Kibrik A.A. , Kobozeva I.M. , Falikman M.V., Chenki A., Sekerina I., Nikolaeva Yu.V., Beltov B., Alpo V., Daniel' M. A. , Bergel O. M.a. S. Yu., Bonch-Osmolovskaya A. A. , Podlesskaya V. I., Krivnova O. F. Corpus lingvistics // Johdatus kielitieteeseen / toim. O. V. Fedorova ja S. G. Tatevosov. - M. : Buki Vedi, 2019. - S. 420. - 672 s. — ISBN 978-5-4465-2188-3 .
  7. Sichinava D.V. Venäjän kielen kansallinen korpus: esihistorian hahmotelma  // Venäjän kielen kansallinen korpus: 2003-2005. - M. : Indrik, 2005. - S. 21-30 . Arkistoitu alkuperäisestä 31. heinäkuuta 2019.
  8. 1 2 3 Apresyan Yu. D. , Boguslavsky I. M. , Iomdin B. L. , Iomdin L. L. , Sannikov A. V. , Sannikov V. Z. , Sizov V. G. , Tsinman L. L. Syntaktisesti ja semanttisesti annotoitu korpus:  kansallisen ja venäjän kielen nykyinen tila Venäjän kieli: 2003-2005. - M. : Indrik, 2005. - S. 193-214 . Arkistoitu alkuperäisestä 31. heinäkuuta 2019.
  9. Zakharov V.P. , Bogdanova S.Yu. Corpus linguistics . - 3. painos, tarkistettu. - Pietari. : St. Petersburg University Press, 2020. - s. 47. - 234 s. - ISBN 978-5-288-05997-1 .
  10. 1 2 Apresyan Yu. D. , Iomdin L. L. , Sannikov A. V. , Sizov V. G. Semanttinen merkintä syvästi annotoidussa venäjän kielen korpusessa  // Proceedings of the International Conference "Corpus Linguistics-2004". - Pietari. : St. Petersburg State University, 2004. - S. 41-54 . Arkistoitu alkuperäisestä 31. heinäkuuta 2019.
  11. 1 2 3 Boguslavsky I. M. , Grigoriev N. V. , Iomdin L. L. , Kreydlin L. G. , Frid N. E. , Chardin I. S. Venäjän kielen syntaktisesti merkittyjen korpusten kehitys  // Tieteellisen konferenssin "Corpus Linguistics and Linguistic Databases" raportit. - Pietari. : St. Petersburg State University, 2002. - S. 40-50 . Arkistoitu alkuperäisestä 31. heinäkuuta 2019.
  12. Corpus Linguistics . Laboratory of Computational Linguistics IPTP RAS (11.2.2020). Haettu 12. helmikuuta 2020. Arkistoitu alkuperäisestä 22. helmikuuta 2020.
  13. 1 2 3 4 5 Dyachenko P. V. , Iomdin L. L. , Lazursky A. V. , Mityushin L. G. , Podlesskaya O. Yu. , Sizov V. G. , Frolova T. I. , Tsinman L L. Venäjän kielen nykytila ​​(syvästi tekstin teksti )  // Kokoelma "Venäjän kielen kansallinen korpus: 10 vuotta projektista." - M . : Venäjän kielen instituutin julkaisut. V. V. Vinogradova, 2015. - Numero. 6 . - S. 272-299 . Arkistoitu alkuperäisestä 31. heinäkuuta 2019.
  14. Boguslavsky I. , Iomdin L. , Sizov V. , Tsinman L. , Petrotšenkov V. Sääntöpohjainen riippuvuusjäsennin jalostettu ja empiirinen korpustilasto  //  Proceedings of the International Conference on Dependency Linguistics. - 2011. - s. 318-327 . Arkistoitu alkuperäisestä 31. heinäkuuta 2019.
  15. Droganova K. , Lyashevskaya O. , Zeman D. Yksikielisten korpusten tietojen muuntaminen ja johdonmukaisuus: Russian UD treebanks  (englanti)  // Proceedings of the 17th International Workshop on Treebanks and Linguistic Theories (TLT 2018). - Oslon yliopisto, Norja: Linköping University Electronic Press, 2018. - P. 52-65 . Arkistoitu 19. maaliskuuta 2020.
  16. 1 2 Igor Boguslavsky , Ivan Chardin , Svetlana Grigorjeva , Nikolai Grigoriev , Leonid Iomdin , Leonid Kreydlin , Nadezhda Frid. Venäjän riippuvuuspuupankin kehittäminen ja sen mahdolliset sovellukset NLP:ssä  (englanniksi)  // Kolmannen kansainvälisen kieliresursseja ja arviointia käsittelevän konferenssin (LREC-2002) julkaisuja. - Las Palmas, 2002. - Voi. III . - s. 852-856 . Arkistoitu alkuperäisestä 10. elokuuta 2017.
  17. 1 2 Syntaktisesti merkitty venäjän kielen korpus: tietoa käyttäjille . Venäjän kielen kansallinen korpus . Haettu 29. maaliskuuta 2020. Arkistoitu alkuperäisestä 25. maaliskuuta 2020.
  18. Apresyan Y. D. , Boguslavsky I. M. , Iomdin L. L. , Lazursky A. V. , Mityushin L. G. , Sannikov V. Z. , Tsinman L. L. Kielellinen prosessori monimutkaisille tietojärjestelmille. - M .: Science , 1992. - S. 32-40, 56-73. — 256 s.
  19. Leonid Iomdin , Victor Sizov. Rakenneeditori: tehokas ympäristö tunnistekorjauksille  //  Digitaalisen leksikografian tutkimusinfrastruktuuri. - Ljubljana: Jožef Stefan Institute, 2009. - P. 1-12 .
  20. 1 2 Iomdin L. L. Mikrosyntaktinen merkintä venäläisten tekstien korpusissa  // Kansainvälisen tieteellisen konferenssin "Corpus Linguistics - 2017" aineisto. - Pietari. : St. Petersburg State University, 2017. - S. 188-194 . Arkistoitu alkuperäisestä 20. marraskuuta 2021.
  21. Iomdin L. L. Mikrosyntaksin syvyyksissä: yksi syntaktisten lauseiden leksikaalinen luokka  // Computer Linguistics and Intelligent Technologies. - M. : RGGU, 2008. - S. 178-184 . Arkistoitu alkuperäisestä 29. elokuuta 2019.
  22. 1 2 3 4 Droganova K. , Zeman D. SynTagRusin (Venäjän riippuvuuspuupankin) muuntaminen Universal Dependenciesiksi  (englanniksi)  // Tekninen raportti. — Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University, 2016. Arkistoitu alkuperäisestä 8.6.2021.
  23. 1 2 Luu A. , Malamud SA , Xue N. SynTagRus-riippuvuuspuupankin muuntaminen Penn-puupankkityyliin  //  Proceedings of the 10th Linguistic Annotation Workshop, joka järjestetään ACL 2016:n yhteydessä (LAW-X 2016). - 2016. - s. 16-21 . Arkistoitu alkuperäisestä 27. helmikuuta 2019.
  24. Lipenkova J. , Souček M. Converting Russian dependency treebank to Stanford typed dependencies representation  (englanniksi)  // Proceedings of the 14th Conference of the European Chapter of Computational Linguistics. - 2014. - Vol. 2 . - s. 143-147 . Arkistoitu alkuperäisestä 8. kesäkuuta 2018.
  25. Lyashevskaya O. N. Korpusinstrumentit venäjän kielen kieliopin tutkimuksissa. - M . : Kustantaja YASK, 2016. - S. 193. - 520 s.

Linkit