Corpus [1] lingvistiikka on kielitieteen ala , joka käsittelee tekstikorpujen kehittämistä, luomista ja käyttöä . Termi otettiin käyttöön 1960- luvulla tapausten luomiskäytännön kehittymisen yhteydessä, jota 1980- luvulta lähtien on edesauttanut tietotekniikan kehitys.
Kielellinen tai kielellinen tekstikokonaisuus on suuri, koneellisesti luettava muoto, yhtenäinen, jäsennelty, merkitty, filologisesti pätevä joukko kielellistä tietoa, joka on suunniteltu ratkaisemaan tiettyjä kielellisiä ongelmia [2] . Nykykorpuksen pääpiirteet ovat koneellisesti luettava muoto, edustavuus ja metalingvistisen tiedon läsnäolo [2] . Edustavuus saavutetaan erityisellä tekstien valintamenettelyllä.
Kielellinen korpus on kokoelma tekstejä , jotka on koottu tiettyjen periaatteiden mukaisesti, merkitty tietyn standardin mukaan ja varustettu erikoishakukoneella . . Joskus korpukseksi ("ensimmäisen asteen korpus") kutsutaan yksinkertaisesti mitä tahansa tekstikokoelmaa, jota yhdistää jokin yhteinen piirre (kieli, genre , kirjoittaja, tekstin luomisaika).
Tekstikorpujen luomisen tarkoituksenmukaisuutta selittää:
Brown Corpus (BK, englanniksi Brown Corpus , BC), joka luotiin 1960- luvulla Brownin yliopistossa ja sisälsi 500 fragmenttia kussakin 2000-sanaisesta tekstistä, jotka julkaistiin englanniksi Yhdysvalloissa vuonna 1961. Tämän seurauksena hän asetti 1 miljoonan sanan käytön standardin edustavien korpusten luomiseen muilla kielillä. BK:ta läheisen mallin mukaan 1970-luvulla luotiin venäjän kielen Zasorina - frekvenssisanakirja , joka rakennettiin tekstikorpuksen pohjalta, jonka volyymi on myös miljoona sanaa ja joka sisältää suunnilleen yhtä suuret osuudet yhteiskuntapoliittisia tekstejä. , kaunokirjallisuutta, tieteellisiä ja populaaritieteellisiä tekstejä eri alueilta ja dramaturgiaa. Myös 1980-luvulla Uppsalan yliopistoon Ruotsiin perustettu venäläinen joukko rakennettiin samanlaisen mallin mukaan.
Miljoonan sanan koko riittää vain yleisimpien sanojen leksikografiseen kuvaukseen , koska keskimääräiset sanat ja kieliopilliset rakenteet esiintyvät useita kertoja miljoonaa sanaa kohden (tilastollisesti katsottuna kieli on suuri joukko harvinaisia tapahtumia ). Joten jokainen sellaisista tavallisista sanoista kuin englanti. kohtelias (kohtelias) tai eng. sunshine (sunshine) esiintyy eKr. vain 7 kertaa, ilmaus on englanti. kohtelias kirje vain kerran, ja sellaiset vakaat ilmaisut kuin englanti. kohtelias keskustelu, hymy, pyyntö - ei koskaan.
Näistä syistä ja suuren tekstimäärän kanssa työskentelyyn kykenevän tietokonetehon kasvun yhteydessä 1980- luvulla ympäri maailmaa yritettiin useaan otteeseen luoda suurempia korpuja. Yhdistyneessä kuningaskunnassa tällaisia hankkeita olivat Bank of English (Bank of English) Birminghamin yliopistossa ja British National Corpus ( British National Corpus , BNC). Neuvostoliitossa tällainen projekti oli Venäjän kielen konerahasto , joka perustettiin A. P. Ershovin aloitteesta .
Suuri määrä sähköisessä muodossa olevia tekstejä helpotti suuresti suurten, kymmenien ja satojen miljoonien sanojen edustavien korpusten luomista, mutta ei poistanut ongelmia: kerättiin tuhansia tekstejä, poistettiin tekijänoikeusongelmia, tuotiin kaikki tekstit yhteen yksittäinen muoto, rungon tasapainottaminen aiheen ja genren mukaan vie paljon aikaa. Edustava korpus on olemassa (tai kehitteillä) saksan, puolan, tšekin, slovenian, suomen, nykykreikan, armenian, kiinan, japanin, bulgaria ja muille kielille.
Venäjän tiedeakatemiassa luotu venäjän kielen kansallinen korpus sisältää tällä hetkellä yli 500 miljoonaa sanankäyttöä [4] .
Laajan genrejä ja toiminnallisia tyylejä kattavien edustavien korpusten ohella lingvistisessä tutkimuksessa käytetään usein opportunistisia tekstikokoelmia, kuten sanomalehtiä (usein The Wall Street Journal ja The New York Times ), uutissyötteitä ( Reuters ), kokoelmia fiktiota ( Maxim Moshkovin kirjasto tai Gutenberg-projekti ).
Korpus koostuu rajallisesta määrästä tekstejä, mutta se on suunniteltu heijastamaan riittävästi leksikogrammaattisia ilmiöitä, jotka ovat tyypillisiä koko vastaavan kielen (tai alikielen ) tekstimäärälle. Edustavuuden kannalta sekä tapauksen koko että rakenne ovat tärkeitä. Edustava koko riippuu tehtävästä, koska sen määrää se, kuinka monta esimerkkiä tutkittavista ilmiöistä löytyy. Koska tilastollisesta näkökulmasta katsottuna kieli sisältää suuren määrän suhteellisen harvinaisia sanoja ( Zipfin laki ), viiden tuhannen ensimmäisen yleisimmän sanan tutkimiseksi (esim. menetys, anteeksi ), runsas noin Vaaditaan 10-20 miljoonaa sanankäyttöä, kun taas ensimmäisten kahdenkymmenentuhannen sanan kuvaileminen ( vaatimaton, syke, parvi ) vaatii jo yli sadan miljoonan sanan käytön.
Tekstien ensisijainen merkintä sisältää kullekin korpuselle vaadittavat vaiheet:
Suurissa korpusissa syntyy ongelma, joka ei ollut aiemmin merkityksellinen: kyselyhaku voi tuottaa satoja ja jopa tuhansia tuloksia (käyttökonteksteja), joita on yksinkertaisesti fyysisesti mahdoton tarkastella rajoitetussa ajassa. Tämän ongelman ratkaisemiseksi kehitetään järjestelmiä, jotka mahdollistavat hakutulosten ryhmittelyn ja automaattisen jakamisen osajoukkoon ( hakutulosklusterointi ) tai vakaimpien lauseiden ( kollokaatioiden ) antamisen ja niiden merkityksen tilastollisen arvioinnin .
Monia Internetistä saatavilla olevia tekstejä voidaan käyttää korpusena (eli miljardeja sanankäyttöjä tärkeimmillä maailman kielillä). Kielitieteilijöille yleisin tapa työskennellä Internetin kanssa on edelleen tehdä kyselyjä hakukoneeseen ja tulkita tuloksia joko löydettyjen sivujen lukumäärän tai ensimmäisten palautettujen linkkien perusteella. Tätä menetelmää kutsutaan Googleologia [5] . On huomattava, että tämä lähestymistapa soveltuu rajoitetun luokan ongelmien ratkaisemiseen, koska verkossa käytetyt tekstinmerkintätyökalut eivät kuvaa useita tekstin kielellisiä piirteitä (osoittaen painotuksia , kielioppiluokkia, lauserajoja jne.) . Lisäksi asiaa mutkistaa semanttisen asettelun alhainen esiintyvyys .
Käytännössä tämän lähestymistavan rajoitukset johtavat siihen, että on helpointa tarkistaa esimerkiksi kahden sanan yhteensopivuus kyselyllä, kuten "sana1 sana2". Saatujen tulosten perusteella voidaan arvioida, kuinka yleinen tämä yhdistelmä on ja missä teksteissä se on yleisempi. Katso myös kyselytilastot .
Toinen tapa on poimia automaattisesti suuri määrä sivuja Internetistä ja käyttää niitä sitten tavallisena korpusena, mikä mahdollistaa sen merkitsemisen ja kielellisten parametrien käyttämisen kyselyissä. Tällä menetelmällä voidaan nopeasti luoda edustava korpus mille tahansa Internetissä riittävästi edustettuna olevalle kielelle, mutta sen genre ja temaattinen monimuotoisuus heijastavat Internetin käyttäjien etuja [6] .
Wikipedian käyttö tekstinä on saamassa yhä enemmän suosiota tiedeyhteisössä [7] .
Vuonna 2006 ilmestyi sivusto Tatoeba (Tatoeba), jonka avulla voit vapaasti lisätä uusia ja muuttaa olemassa olevia lauseita eri kielillä, jotka liittyvät merkitykseltään. Se perustui vain anglo-japanilaiseen korpukseen, ja jo nyt kieliä on yli 80 ja lauseiden määrä on 600 000 [8] . Kuka tahansa voi lisätä uusia lauseita ja niiden käännöksiä sekä tarvittaessa ladata kokonaan tai osan kaikista kielikorjauksista ilmaiseksi.
Mielenkiintoinen on venäjän kielen avoin korpus -projekti , jossa ei käytetä vain ilmaisilla lisensseillä julkaistuja tekstejä, vaan myös kuka tahansa haluaa osallistua korpuksen kielelliseen merkintään. Tämän muodon joukkoistaminen on mahdollista jakamalla merkintätehtävä pieniin tehtäviin, joista suurin osa voi hoitaa henkilö ilman erityistä kielikoulutusta [9] . Korpusta päivitetään jatkuvasti, kaikki siihen liittyvät tekstit ja ohjelmistot ovat saatavilla GNU GPL v2 ja CC-BY-SA lisensseillä .
Korpuslingvistiikka | |
---|---|
Englanninkieliset corporat |
|
Venäjänkieliset corporit |
|
Corpora muilla kielillä |
|
Organisaatiot |