Korpuslingvistiikka

Corpus [1] lingvistiikka on kielitieteen ala , joka käsittelee tekstikorpujen kehittämistä, luomista ja käyttöä . Termi otettiin käyttöön 1960- luvulla tapausten luomiskäytännön kehittymisen yhteydessä, jota 1980- luvulta lähtien on edesauttanut tietotekniikan kehitys.

Kielellinen tai kielellinen tekstikokonaisuus on suuri, koneellisesti luettava muoto, yhtenäinen, jäsennelty, merkitty, filologisesti pätevä joukko kielellistä tietoa, joka on suunniteltu ratkaisemaan tiettyjä kielellisiä ongelmia [2] . Nykykorpuksen pääpiirteet ovat koneellisesti luettava muoto, edustavuus ja metalingvistisen tiedon läsnäolo [2] . Edustavuus saavutetaan erityisellä tekstien valintamenettelyllä.

Kielellinen korpus on kokoelma tekstejä , jotka on koottu tiettyjen periaatteiden mukaisesti, merkitty tietyn standardin mukaan ja varustettu erikoishakukoneella . . Joskus korpukseksi ("ensimmäisen asteen korpus") kutsutaan yksinkertaisesti mitä tahansa tekstikokoelmaa, jota yhdistää jokin yhteinen piirre (kieli, genre , kirjoittaja, tekstin luomisaika).

Tekstikorpujen luomisen tarkoituksenmukaisuutta selittää:

kielellisen tiedon esittäminen todellisessa kontekstissa;
riittävän suuri tietojen edustavuus (suurella kappalemäärällä);
mahdollisuus käyttää kerran luotua korpusta useaan otteeseen erilaisten kielellisten ongelmien ratkaisemiseen, kuten esimerkiksi grafemaattisen ja leksiko-grammatiikan tekstianalyysin toteuttamiseen jne. [3]

Historia

Brown Corpus (BK, englanniksi Brown Corpus , BC), joka luotiin 1960- luvulla Brownin yliopistossa ja sisälsi 500 fragmenttia kussakin 2000-sanaisesta tekstistä, jotka julkaistiin englanniksi Yhdysvalloissa vuonna 1961. Tämän seurauksena hän asetti 1 miljoonan sanan käytön standardin edustavien korpusten luomiseen muilla kielillä. BK:ta läheisen mallin mukaan 1970-luvulla luotiin venäjän kielen Zasorina - frekvenssisanakirja , joka rakennettiin tekstikorpuksen pohjalta, jonka volyymi on myös miljoona sanaa ja joka sisältää suunnilleen yhtä suuret osuudet yhteiskuntapoliittisia tekstejä. , kaunokirjallisuutta, tieteellisiä ja populaaritieteellisiä tekstejä eri alueilta ja dramaturgiaa. Myös 1980-luvulla Uppsalan yliopistoon Ruotsiin perustettu venäläinen joukko rakennettiin samanlaisen mallin mukaan.

Miljoonan sanan koko riittää vain yleisimpien sanojen leksikografiseen kuvaukseen , koska keskimääräiset sanat ja kieliopilliset rakenteet esiintyvät useita kertoja miljoonaa sanaa kohden (tilastollisesti katsottuna kieli on suuri joukko harvinaisia tapahtumia ). Joten jokainen sellaisista tavallisista sanoista kuin englanti. kohtelias (kohtelias) tai eng. sunshine (sunshine) esiintyy eKr. vain 7 kertaa, ilmaus on englanti. kohtelias kirje vain kerran, ja sellaiset vakaat ilmaisut kuin englanti. kohtelias keskustelu, hymy, pyyntö - ei koskaan.

Näistä syistä ja suuren tekstimäärän kanssa työskentelyyn kykenevän tietokonetehon kasvun yhteydessä 1980- luvulla ympäri maailmaa yritettiin useaan otteeseen luoda suurempia korpuja. Yhdistyneessä kuningaskunnassa tällaisia hankkeita olivat Bank of English (Bank of English) Birminghamin yliopistossa ja British National Corpus ( British National Corpus , BNC). Neuvostoliitossa tällainen projekti oli Venäjän kielen konerahasto , joka perustettiin A. P. Ershovin aloitteesta .

Nykyinen tila

Suuri määrä sähköisessä muodossa olevia tekstejä helpotti suuresti suurten, kymmenien ja satojen miljoonien sanojen edustavien korpusten luomista, mutta ei poistanut ongelmia: kerättiin tuhansia tekstejä, poistettiin tekijänoikeusongelmia, tuotiin kaikki tekstit yhteen yksittäinen muoto, rungon tasapainottaminen aiheen ja genren mukaan vie paljon aikaa. Edustava korpus on olemassa (tai kehitteillä) saksan, puolan, tšekin, slovenian, suomen, nykykreikan, armenian, kiinan, japanin, bulgaria ja muille kielille.

Venäjän tiedeakatemiassa luotu venäjän kielen kansallinen korpus sisältää tällä hetkellä yli 500 miljoonaa sanankäyttöä [4] .

Laajan genrejä ja toiminnallisia tyylejä kattavien edustavien korpusten ohella lingvistisessä tutkimuksessa käytetään usein opportunistisia tekstikokoelmia, kuten sanomalehtiä (usein The Wall Street Journal ja The New York Times ), uutissyötteitä ( Reuters ), kokoelmia fiktiota ( Maxim Moshkovin kirjasto tai Gutenberg-projekti ).

Ongelmia

Edustavuusongelma

Korpus koostuu rajallisesta määrästä tekstejä, mutta se on suunniteltu heijastamaan riittävästi leksikogrammaattisia ilmiöitä, jotka ovat tyypillisiä koko vastaavan kielen (tai alikielen ) tekstimäärälle. Edustavuuden kannalta sekä tapauksen koko että rakenne ovat tärkeitä. Edustava koko riippuu tehtävästä, koska sen määrää se, kuinka monta esimerkkiä tutkittavista ilmiöistä löytyy. Koska tilastollisesta näkökulmasta katsottuna kieli sisältää suuren määrän suhteellisen harvinaisia sanoja ( Zipfin laki ), viiden tuhannen ensimmäisen yleisimmän sanan tutkimiseksi (esim. menetys, anteeksi ), runsas noin Vaaditaan 10-20 miljoonaa sanankäyttöä, kun taas ensimmäisten kahdenkymmenentuhannen sanan kuvaileminen ( vaatimaton, syke, parvi ) vaatii jo yli sadan miljoonan sanan käytön.

Merkintäongelma

Tekstien ensisijainen merkintä sisältää kullekin korpuselle vaadittavat vaiheet:

tokenointi (jaettu oikeinkirjoitussanoihin)
lemmatisointi (sanamuotojen tuominen sanakirjamuotoon)
morfologinen analyysi

Esitysongelma

Suurissa korpusissa syntyy ongelma, joka ei ollut aiemmin merkityksellinen: kyselyhaku voi tuottaa satoja ja jopa tuhansia tuloksia (käyttökonteksteja), joita on yksinkertaisesti fyysisesti mahdoton tarkastella rajoitetussa ajassa. Tämän ongelman ratkaisemiseksi kehitetään järjestelmiä, jotka mahdollistavat hakutulosten ryhmittelyn ja automaattisen jakamisen osajoukkoon ( hakutulosklusterointi ) tai vakaimpien lauseiden ( kollokaatioiden ) antamisen ja niiden merkityksen tilastollisen arvioinnin .

Verkko korpusena

Hakukoneiden käyttö

Monia Internetistä saatavilla olevia tekstejä voidaan käyttää korpusena (eli miljardeja sanankäyttöjä tärkeimmillä maailman kielillä). Kielitieteilijöille yleisin tapa työskennellä Internetin kanssa on edelleen tehdä kyselyjä hakukoneeseen ja tulkita tuloksia joko löydettyjen sivujen lukumäärän tai ensimmäisten palautettujen linkkien perusteella. Tätä menetelmää kutsutaan Googleologia [5] . On huomattava, että tämä lähestymistapa soveltuu rajoitetun luokan ongelmien ratkaisemiseen, koska verkossa käytetyt tekstinmerkintätyökalut eivät kuvaa useita tekstin kielellisiä piirteitä (osoittaen painotuksia , kielioppiluokkia, lauserajoja jne.) . Lisäksi asiaa mutkistaa semanttisen asettelun alhainen esiintyvyys .

Käytännössä tämän lähestymistavan rajoitukset johtavat siihen, että on helpointa tarkistaa esimerkiksi kahden sanan yhteensopivuus kyselyllä, kuten "sana1 sana2". Saatujen tulosten perusteella voidaan arvioida, kuinka yleinen tämä yhdistelmä on ja missä teksteissä se on yleisempi. Katso myös kyselytilastot .

Web-sivujen käyttäminen

Toinen tapa on poimia automaattisesti suuri määrä sivuja Internetistä ja käyttää niitä sitten tavallisena korpusena, mikä mahdollistaa sen merkitsemisen ja kielellisten parametrien käyttämisen kyselyissä. Tällä menetelmällä voidaan nopeasti luoda edustava korpus mille tahansa Internetissä riittävästi edustettuna olevalle kielelle, mutta sen genre ja temaattinen monimuotoisuus heijastavat Internetin käyttäjien etuja [6] .

Wikipedian käyttö tekstinä on saamassa yhä enemmän suosiota tiedeyhteisössä [7] .

Tatoeba-projekti

Vuonna 2006 ilmestyi sivusto Tatoeba (Tatoeba), jonka avulla voit vapaasti lisätä uusia ja muuttaa olemassa olevia lauseita eri kielillä, jotka liittyvät merkitykseltään. Se perustui vain anglo-japanilaiseen korpukseen, ja jo nyt kieliä on yli 80 ja lauseiden määrä on 600 000 [8] . Kuka tahansa voi lisätä uusia lauseita ja niiden käännöksiä sekä tarvittaessa ladata kokonaan tai osan kaikista kielikorjauksista ilmaiseksi.

Russian Open Corpus

Mielenkiintoinen on venäjän kielen avoin korpus -projekti , jossa ei käytetä vain ilmaisilla lisensseillä julkaistuja tekstejä, vaan myös kuka tahansa haluaa osallistua korpuksen kielelliseen merkintään. Tämän muodon joukkoistaminen on mahdollista jakamalla merkintätehtävä pieniin tehtäviin, joista suurin osa voi hoitaa henkilö ilman erityistä kielikoulutusta [9] . Korpusta päivitetään jatkuvasti, kaikki siihen liittyvät tekstit ja ohjelmistot ovat saatavilla GNU GPL v2 ja CC-BY-SA lisensseillä .

Katso myös

Muistiinpanot

↑ Sekä ensimmäisessä että toiseksi viimeisessä tavussa on painotuksia. "...adjektiivi tulee lausua painotuksella ensimmäisellä tavulla -" corps "(Big Explanatory Dictionary of the Russian Language, St. Petersburg, 1998). Samanaikaisesti asiantuntijoiden tähänastisen käytön analyysi todistaa usein käytettyjen muotojen "joukko", "joukko", "joukko" puolesta, joten voimme ilmeisesti varoen sanoa, että tällä hetkellä tämä kysymys jää avoimeksi. Korpuslingvistiikassa ei ole olemassa sääntöjä, jotka säätelevät yhden tai toisen muodon käyttöä, vaikka näyttää siltä, että muunnelman "korpussit" pitäisi voittaa, koska se erottaa sanan terminologisen merkityksen sen yleisesti käytetystä merkityksestä. Oppikirjassa kirjoittajat käyttävät tätä vaihtoehtoa. Zakharov V.P., Bogdanova S.Yu. Corpus linguistics Arkistoitu 3. heinäkuuta 2019 Wayback Machinessa . Pietari, 2013
↑ 1 2 Zakharov, Bogdanova, 2013 , s. 5.
↑ Dovnar P.Yu., Vorontsov A.V. Kiinan kielen kielellinen prosessori. Kehitysominaisuudet // Kansainvälinen informatiikkakongressi: tietojärjestelmät ja teknologiat: kansainvälisen tieteellisen kongressin julkaisut 31. lokakuuta. – 3.11. 2011 – Minsk: BGU: BGU, 2011. (Venäjän kieli)
↑ Tilastot. Venäjän kielen kansallinen korpus . www.ruscorpora.ru Haettu 27. joulukuuta 2019. Arkistoitu alkuperäisestä 29. joulukuuta 2019. (määrätön)
↑ Kilgarriff A. Googleologia on huonoa tiedettä. Arkistoitu 8. syyskuuta 2008 osoitteessa Wayback Machine Computational Linguistics, , 33(1), 2007.
↑ Baroni M. ja Bernardini S. (toimittajat). Hassu! Työpaperit verkossa Corpus-muodossa. Arkistoitu 31. maaliskuuta 2022 Wayback Machine Geditissä, Bolognassa, 2006.
↑ Katso teoksia: Wikipedia akateemisissa tutkimuksissa
↑ Ehdotusluettelo kielittäin . Käyttöpäivä: 16. joulukuuta 2010. Arkistoitu alkuperäisestä 11. maaliskuuta 2011. (määrätön)
↑ Bocharov V.V., Granovski D.V. Ohjelmistot korpuksen morfologisen merkinnän kollektiiviseen työhön // Kansainvälisen Corpus Linguistics - 2011 -konferenssin aineistoa. - Pietari: Pietari: Pietarin valtionyliopisto. Yliopisto, Filologinen tiedekunta, 2011. (Venäjän kieli)

Kirjallisuus

Zakharov V.P., Bogdanova S.Yu. Korpuslingvistiikka: Oppikirja "Kielitieteen"-suunnan opiskelijoille . - 2. painos, tarkistettu. ja ylimääräistä - Pietari. : Pietarin valtionyliopisto . RIO. Filologinen tiedekunta ., 2013. - 148 s.

Linkit

Korpuskielitieteen oppikirja [1]
Venäjän kansallinen korpus
Venäjän kielen avoin korpus
Venäjän tiedeakatemian kielentutkimuksen instituutissa pidetyn korpus- ja laskennallista lingvistiikkaa käsittelevän seminaarin verkkosivusto
Korpuskokoelma osoitteessa corpus.leeds.ac.uk
Corpus Collections David Leen verkkosivuilla
Uppsalan joukko
HANKO Corps: hakulomake
Special Interest Group on Web Corpus
Corpora-List-postituslista- arkisto
Tatoeba-projektin verkkosivusto
Merkityt kokoelmat tiedon poimintaa varten (Tekoälyn tutkimuskeskuksen sivuilla)

Korpuslingvistiikka
Englanninkieliset corporat	Amerikan englannin kansallinen korpus Englannin pankki Bergen Corpus of London Teenage Language brittiläinen joukko Ruskea Corpus Buckeye Corpus Cambridge English Corpus Modernin amerikkalaisen englannin runko Enron Corpus Kansainvälinen englanninkielinen korpus Lancaster-Oslo-Bergen Corpus Oxford English Corpus Prop Pankki Puhuttu englanti korpus AIKA VerbNet Uuden-Seelannin puhutun englannin Wellington Corpus
Venäjänkieliset corporit	Venäjän kielen yleinen Internet-korpus Venäjän kansallinen korpus Venäjän kielen avoin korpus SinTagRus Tübingenin venäjän kielen korpus Uppsalan venäläisten tekstien korpus Helsinki Annotated Corpus of the Russian Language
Corpora muilla kielillä	Bijankhan Corpus LAPSET Korpus Kroatian Kroatian kansallinen korpus Europarl Corpus Mannheim Corpus German Hamshahrin joukko Puolan kansallinen korpus Uusassyrialainen tekstikorpusprojekti Koraani korpus Scottish National Corpus Slovenian kansallinen korpus keskustelupankki Tatoeba Teheran Monolingual Corpus Tekstaro de Esperanto Thesaurus Linguae Graecae
Organisaatiot	BNC-konsortio YHTEISKUNTA