Korpuslingvistiikka

Corpus [1] lingvistiikka  on kielitieteen ala , joka käsittelee tekstikorpujen kehittämistä, luomista ja käyttöä . Termi otettiin käyttöön 1960- luvulla tapausten luomiskäytännön kehittymisen yhteydessä, jota 1980- luvulta lähtien on edesauttanut tietotekniikan kehitys.

Kielellinen tai kielellinen tekstikokonaisuus  on suuri, koneellisesti luettava muoto, yhtenäinen, jäsennelty, merkitty, filologisesti pätevä joukko kielellistä tietoa, joka on suunniteltu ratkaisemaan tiettyjä kielellisiä ongelmia [2] . Nykykorpuksen pääpiirteet ovat koneellisesti luettava muoto, edustavuus ja metalingvistisen tiedon läsnäolo [2] . Edustavuus saavutetaan erityisellä tekstien valintamenettelyllä.

Kielellinen korpus on kokoelma tekstejä , jotka on koottu tiettyjen periaatteiden mukaisesti, merkitty tietyn standardin mukaan ja varustettu erikoishakukoneella . . Joskus korpukseksi ("ensimmäisen asteen korpus") kutsutaan yksinkertaisesti mitä tahansa tekstikokoelmaa, jota yhdistää jokin yhteinen piirre (kieli, genre , kirjoittaja, tekstin luomisaika).

Tekstikorpujen luomisen tarkoituksenmukaisuutta selittää:

Historia

Brown Corpus (BK, englanniksi  Brown Corpus , BC), joka luotiin 1960- luvulla Brownin yliopistossa ja sisälsi 500 fragmenttia kussakin 2000-sanaisesta tekstistä, jotka julkaistiin englanniksi Yhdysvalloissa vuonna 1961. Tämän seurauksena hän asetti 1 miljoonan sanan käytön standardin edustavien korpusten luomiseen muilla kielillä. BK:ta läheisen mallin mukaan 1970-luvulla luotiin venäjän kielen Zasorina - frekvenssisanakirja , joka rakennettiin tekstikorpuksen pohjalta, jonka volyymi on myös miljoona sanaa ja joka sisältää suunnilleen yhtä suuret osuudet yhteiskuntapoliittisia tekstejä. , kaunokirjallisuutta, tieteellisiä ja populaaritieteellisiä tekstejä eri alueilta ja dramaturgiaa. Myös 1980-luvulla Uppsalan yliopistoon Ruotsiin perustettu venäläinen joukko rakennettiin samanlaisen mallin mukaan.

Miljoonan sanan koko riittää vain yleisimpien sanojen leksikografiseen kuvaukseen , koska keskimääräiset sanat ja kieliopilliset rakenteet esiintyvät useita kertoja miljoonaa sanaa kohden (tilastollisesti katsottuna kieli on suuri joukko harvinaisia ​​tapahtumia ). Joten jokainen sellaisista tavallisista sanoista kuin englanti.  kohtelias (kohtelias) tai eng.  sunshine (sunshine) esiintyy eKr. vain 7 kertaa, ilmaus on englanti.  kohtelias kirje vain kerran, ja sellaiset vakaat ilmaisut kuin englanti.  kohtelias keskustelu, hymy, pyyntö  - ei koskaan.

Näistä syistä ja suuren tekstimäärän kanssa työskentelyyn kykenevän tietokonetehon kasvun yhteydessä 1980- luvulla ympäri maailmaa yritettiin useaan otteeseen luoda suurempia korpuja. Yhdistyneessä kuningaskunnassa tällaisia ​​hankkeita olivat Bank of English (Bank of English) Birminghamin yliopistossa ja British National Corpus ( British National Corpus , BNC). Neuvostoliitossa tällainen projekti oli Venäjän kielen konerahasto , joka perustettiin A. P. Ershovin aloitteesta .

Nykyinen tila

Suuri määrä sähköisessä muodossa olevia tekstejä helpotti suuresti suurten, kymmenien ja satojen miljoonien sanojen edustavien korpusten luomista, mutta ei poistanut ongelmia: kerättiin tuhansia tekstejä, poistettiin tekijänoikeusongelmia, tuotiin kaikki tekstit yhteen yksittäinen muoto, rungon tasapainottaminen aiheen ja genren mukaan vie paljon aikaa. Edustava korpus on olemassa (tai kehitteillä) saksan, puolan, tšekin, slovenian, suomen, nykykreikan, armenian, kiinan, japanin, bulgaria ja muille kielille.

Venäjän tiedeakatemiassa luotu venäjän kielen kansallinen korpus sisältää tällä hetkellä yli 500 miljoonaa sanankäyttöä [4] .

Laajan genrejä ja toiminnallisia tyylejä kattavien edustavien korpusten ohella lingvistisessä tutkimuksessa käytetään usein opportunistisia tekstikokoelmia, kuten sanomalehtiä (usein The Wall Street Journal ja The New York Times ), uutissyötteitä ( Reuters ), kokoelmia fiktiota ( Maxim Moshkovin kirjasto tai Gutenberg-projekti ).

Ongelmia

Edustavuusongelma

Korpus koostuu rajallisesta määrästä tekstejä, mutta se on suunniteltu heijastamaan riittävästi leksikogrammaattisia ilmiöitä, jotka ovat tyypillisiä koko vastaavan kielen (tai alikielen ) tekstimäärälle. Edustavuuden kannalta sekä tapauksen koko että rakenne ovat tärkeitä. Edustava koko riippuu tehtävästä, koska sen määrää se, kuinka monta esimerkkiä tutkittavista ilmiöistä löytyy. Koska tilastollisesta näkökulmasta katsottuna kieli sisältää suuren määrän suhteellisen harvinaisia ​​sanoja ( Zipfin laki ), viiden tuhannen ensimmäisen yleisimmän sanan tutkimiseksi (esim. menetys, anteeksi ), runsas noin Vaaditaan 10-20 miljoonaa sanankäyttöä, kun taas ensimmäisten kahdenkymmenentuhannen sanan kuvaileminen ( vaatimaton, syke, parvi ) vaatii jo yli sadan miljoonan sanan käytön.

Merkintäongelma

Tekstien ensisijainen merkintä sisältää kullekin korpuselle vaadittavat vaiheet:

Esitysongelma

Suurissa korpusissa syntyy ongelma, joka ei ollut aiemmin merkityksellinen: kyselyhaku voi tuottaa satoja ja jopa tuhansia tuloksia (käyttökonteksteja), joita on yksinkertaisesti fyysisesti mahdoton tarkastella rajoitetussa ajassa. Tämän ongelman ratkaisemiseksi kehitetään järjestelmiä, jotka mahdollistavat hakutulosten ryhmittelyn ja automaattisen jakamisen osajoukkoon ( hakutulosklusterointi ) tai vakaimpien lauseiden ( kollokaatioiden ) antamisen ja niiden merkityksen tilastollisen arvioinnin .

Verkko korpusena

Hakukoneiden käyttö

Monia Internetistä saatavilla olevia tekstejä voidaan käyttää korpusena (eli miljardeja sanankäyttöjä tärkeimmillä maailman kielillä). Kielitieteilijöille yleisin tapa työskennellä Internetin kanssa on edelleen tehdä kyselyjä hakukoneeseen ja tulkita tuloksia joko löydettyjen sivujen lukumäärän tai ensimmäisten palautettujen linkkien perusteella. Tätä menetelmää kutsutaan  Googleologia [5] . On huomattava, että tämä lähestymistapa soveltuu rajoitetun luokan ongelmien ratkaisemiseen, koska verkossa käytetyt tekstinmerkintätyökalut eivät kuvaa useita tekstin kielellisiä piirteitä (osoittaen painotuksia , kielioppiluokkia, lauserajoja jne.) . Lisäksi asiaa mutkistaa semanttisen asettelun alhainen esiintyvyys .

Käytännössä tämän lähestymistavan rajoitukset johtavat siihen, että on helpointa tarkistaa esimerkiksi kahden sanan yhteensopivuus kyselyllä, kuten "sana1 sana2". Saatujen tulosten perusteella voidaan arvioida, kuinka yleinen tämä yhdistelmä on ja missä teksteissä se on yleisempi. Katso myös kyselytilastot .

Web-sivujen käyttäminen

Toinen tapa on poimia automaattisesti suuri määrä sivuja Internetistä ja käyttää niitä sitten tavallisena korpusena, mikä mahdollistaa sen merkitsemisen ja kielellisten parametrien käyttämisen kyselyissä. Tällä menetelmällä voidaan nopeasti luoda edustava korpus mille tahansa Internetissä riittävästi edustettuna olevalle kielelle, mutta sen genre ja temaattinen monimuotoisuus heijastavat Internetin käyttäjien etuja [6] .

Wikipedian käyttö tekstinä on saamassa yhä enemmän suosiota tiedeyhteisössä [7] .

Tatoeba-projekti

Vuonna 2006 ilmestyi sivusto Tatoeba (Tatoeba), jonka avulla voit vapaasti lisätä uusia ja muuttaa olemassa olevia lauseita eri kielillä, jotka liittyvät merkitykseltään. Se perustui vain anglo-japanilaiseen korpukseen, ja jo nyt kieliä on yli 80 ja lauseiden määrä on 600 000 [8] . Kuka tahansa voi lisätä uusia lauseita ja niiden käännöksiä sekä tarvittaessa ladata kokonaan tai osan kaikista kielikorjauksista ilmaiseksi.

Russian Open Corpus

Mielenkiintoinen on venäjän kielen avoin korpus -projekti , jossa ei käytetä vain ilmaisilla lisensseillä julkaistuja tekstejä, vaan myös kuka tahansa haluaa osallistua korpuksen kielelliseen merkintään. Tämän muodon joukkoistaminen on mahdollista jakamalla merkintätehtävä pieniin tehtäviin, joista suurin osa voi hoitaa henkilö ilman erityistä kielikoulutusta [9] . Korpusta päivitetään jatkuvasti, kaikki siihen liittyvät tekstit ja ohjelmistot ovat saatavilla GNU GPL v2 ja CC-BY-SA lisensseillä .

Katso myös

Muistiinpanot

  1. Sekä ensimmäisessä että toiseksi viimeisessä tavussa on painotuksia. "...adjektiivi tulee lausua painotuksella ensimmäisellä tavulla -" corps "(Big Explanatory Dictionary of the Russian Language, St. Petersburg, 1998). Samanaikaisesti asiantuntijoiden tähänastisen käytön analyysi todistaa usein käytettyjen muotojen "joukko", "joukko", "joukko" puolesta, joten voimme ilmeisesti varoen sanoa, että tällä hetkellä tämä kysymys jää avoimeksi. Korpuslingvistiikassa ei ole olemassa sääntöjä, jotka säätelevät yhden tai toisen muodon käyttöä, vaikka näyttää siltä, ​​että muunnelman "korpussit" pitäisi voittaa, koska se erottaa sanan terminologisen merkityksen sen yleisesti käytetystä merkityksestä. Oppikirjassa kirjoittajat käyttävät tätä vaihtoehtoa. Zakharov V.P., Bogdanova S.Yu. Corpus linguistics Arkistoitu 3. heinäkuuta 2019 Wayback Machinessa . Pietari, 2013
  2. 1 2 Zakharov, Bogdanova, 2013 , s. 5.
  3. Dovnar P.Yu., Vorontsov A.V. Kiinan kielen kielellinen prosessori. Kehitysominaisuudet  // Kansainvälinen informatiikkakongressi: tietojärjestelmät ja teknologiat: kansainvälisen tieteellisen kongressin julkaisut 31. lokakuuta. – 3.11. 2011 – Minsk: BGU: BGU, 2011.
  4. Tilastot. Venäjän kielen kansallinen korpus . www.ruscorpora.ru Haettu 27. joulukuuta 2019. Arkistoitu alkuperäisestä 29. joulukuuta 2019.
  5. Kilgarriff A. Googleologia on huonoa tiedettä. Arkistoitu 8. syyskuuta 2008 osoitteessa Wayback Machine Computational Linguistics, , 33(1), 2007.
  6. Baroni M. ja Bernardini S. (toimittajat). Hassu! Työpaperit verkossa Corpus-muodossa. Arkistoitu 31. maaliskuuta 2022 Wayback Machine Geditissä, Bolognassa, 2006.
  7. Katso teoksia: Wikipedia akateemisissa tutkimuksissa
  8. Ehdotusluettelo kielittäin . Käyttöpäivä: 16. joulukuuta 2010. Arkistoitu alkuperäisestä 11. maaliskuuta 2011.
  9. Bocharov V.V., Granovski D.V. Ohjelmistot korpuksen morfologisen merkinnän kollektiiviseen työhön  // Kansainvälisen Corpus Linguistics - 2011 -konferenssin aineistoa. - Pietari: Pietari: Pietarin valtionyliopisto. Yliopisto, Filologinen tiedekunta, 2011.

Kirjallisuus

Linkit