Kielitieteessä korpus (tässä mielessä monikko on corpus , ei corpus [1] ) on joukko tiettyjen sääntöjen mukaan valittuja ja käsiteltyjä tekstejä, joita käytetään kielen opiskelun perustana. Niitä käytetään tilastolliseen analyysiin ja tilastollisiin hypoteesien testaamiseen , joilla vahvistetaan tietyn kielen kielisäännöt. Korpuslingvistiikassa tutkitaan tekstikorpusta .
Korpuksen monista määritelmistä voidaan erottaa sen tärkeimmät ominaisuudet :
Korpuset voidaan luokitella useiden kriteerien mukaan: korpuksen luomisen tarkoitus, kielidatan tyyppi, "kirjallisuus", genre, dynaamisuus, merkintätyyppi, tekstien määrä ja niin edelleen. Esimerkiksi rinnakkaisuuden kriteerin mukaan korput voidaan jakaa yksikielisiin, kaksikielisiin ja monikielisiin. Monikielinen ja kaksikielinen jaetaan kahteen tyyppiin:
Merkintä koostuu erityisten tunnisteiden määrittämisestä teksteihin ja niiden komponentteihin : kielellisiin ja ulkoisiin (ekstralingvistisiin). Seuraavat kielelliset merkintätyypit erotellaan: morfologinen, semanttinen, syntaktinen, anaforinen, prosodinen, diskurssi jne. Joihinkin korpuihin sovelletaan muita rakenteellisia analyysin tasoja. Erityisesti jotkin pienet korpust voidaan merkitä kokonaan syntaktisesti. Tällaisia korpuja kutsutaan yleensä syvämerkinnöiksi tai syntaktisiksi korpusiksi , ja syntaktinen rakenne itsessään on riippuvuuspuu .
Tekstien manuaalinen merkintä (merkintä) on kallis ja aikaa vievä tehtävä. Tällä hetkellä julkisessa käytössä on erilaisia ohjelmistotyökaluja korpusten merkitsemiseen [3] . Perinteisesti ne voidaan jakaa erillisiin (erillisinä) ja verkkopohjaisiin (verkkopohjaisiin) . Samaan aikaan kehittäjien painopiste on viime vuosina siirtynyt web-sovelluksiin. Näillä järjestelmillä on useita etuja:
Nykyaikaiset tekniikat mahdollistavat "web corporien" eli Internet-lähteitä prosessoimalla saatujen korpujen luomisen:
Verkkokorpus on erityinen kielellinen korpus, joka luodaan lataamalla asteittain tekstejä Internetistä automaattisilla menetelmillä, jotka määrittävät yksittäisten verkkosivujen kielen ja koodauksen lennossa, poistavat malleja, navigointielementtejä, linkkejä ja mainoksia ( ns. boilerplate), suorittaa vastaanotettujen asiakirjojen muuntamisen tekstiksi, suodatuksen, normalisoinnin ja duplikoinnin, jotka voidaan sitten käsitellä perinteisillä korpuslingvistiikan työkaluilla (tokenointi, mirphosyntaktinen ja syntaktinen annotaatio) ja toteuttaa hakukorpusjärjestelmässä. Verkkokorpuksen luominen ei ole vain paljon halvempaa, vaan ennen kaikkea sen koko voi olla jopa suuruusluokkaa suurempi kuin perinteinen korpus [4] .
— Vladimir Benko ARANEA — MILJONIEN VERKKOKORPSIEN PERHECorpus on korpuslingvistiikan pääkäsite ja tietokanta. Erityyppisten korpujen analysointi ja käsittely on useimpien laskennallisen lingvistiikan (esim. avainsanojen poiminta ), puheentunnistuksen ja konekäännöstyön kohteena , joissa korpuja käytetään usein piilotettujen Markov -mallien luomiseen puheosan merkintä- ja muita tehtäviä. Korpus- ja taajuussanakirjat voivat olla hyödyllisiä vieraiden kielten opetuksessa.
luonnollisen kielen käsittely | |
---|---|
Yleiset määritelmät | |
Tekstianalyysi |
|
Viittaus |
|
Konekäännös |
|
Tunnistaminen ja tiedonkeruu | |
Temaattinen malli | |
Vertaisarviointi |
|
Luonnollisen kielen käyttöliittymä |