Tekstien runko

Kielitieteessä korpus (tässä mielessä monikko on corpus , ei corpus [1] ) on joukko tiettyjen sääntöjen mukaan valittuja ja käsiteltyjä tekstejä, joita käytetään kielen opiskelun perustana. Niitä käytetään tilastolliseen analyysiin ja tilastollisiin hypoteesien testaamiseen , joilla vahvistetaan tietyn kielen kielisäännöt. Korpuslingvistiikassa tutkitaan tekstikorpusta .

Rungon perusominaisuudet

Korpuksen monista määritelmistä voidaan erottaa sen tärkeimmät ominaisuudet :

elektroninen - nykyisessä mielessä korpus on oltava sähköisessä muodossa
edustaja - sen tulisi hyvin "edustaa" mallintavaa kohdetta
merkitty - tärkein ero korpusen ja tekstikokoelman välillä
pragmaattisesti suuntautunut - tulisi luoda tiettyä tehtävää varten

Tapausluokitus

Korpuset voidaan luokitella useiden kriteerien mukaan: korpuksen luomisen tarkoitus, kielidatan tyyppi, "kirjallisuus", genre, dynaamisuus, merkintätyyppi, tekstien määrä ja niin edelleen. Esimerkiksi rinnakkaisuuden kriteerin mukaan korput voidaan jakaa yksikielisiin, kaksikielisiin ja monikielisiin. Monikielinen ja kaksikielinen jaetaan kahteen tyyppiin:

rinnakkais - joukko tekstejä ja niiden käännöksiä yhdelle tai useammalle kielelle.
vertailukelpoiset (pseudo-rinnakkaiset) - alkuperäiset tekstit kahdella tai useammalla kielellä.

Rungon merkinnät

Merkintä koostuu erityisten tunnisteiden määrittämisestä teksteihin ja niiden komponentteihin : kielellisiin ja ulkoisiin (ekstralingvistisiin). Seuraavat kielelliset merkintätyypit erotellaan: morfologinen, semanttinen, syntaktinen, anaforinen, prosodinen, diskurssi jne. Joihinkin korpuihin sovelletaan muita rakenteellisia analyysin tasoja. Erityisesti jotkin pienet korpust voidaan merkitä kokonaan syntaktisesti. Tällaisia korpuja kutsutaan yleensä syvämerkinnöiksi tai syntaktisiksi korpusiksi , ja syntaktinen rakenne itsessään on riippuvuuspuu .

Tekstien manuaalinen merkintä (merkintä) on kallis ja aikaa vievä tehtävä. Tällä hetkellä julkisessa käytössä on erilaisia ohjelmistotyökaluja korpusten merkitsemiseen [3] . Perinteisesti ne voidaan jakaa erillisiin (erillisinä) ja verkkopohjaisiin (verkkopohjaisiin) . Samaan aikaan kehittäjien painopiste on viime vuosina siirtynyt web-sovelluksiin. Näillä järjestelmillä on useita etuja:

mahdollisuus merkitä asiakirjaan usealta henkilöltä samanaikaisesti
eivät vaadi muiden lisäohjelmistojen asentamista selaimen lisäksi
käyttöoikeuksien joustava eriyttäminen
näyttää merkintäprosessin nykyisen edistymisen
mahdollisuus muokata merkittyä runkoa

Internet korpusena

Nykyaikaiset tekniikat mahdollistavat "web corporien" eli Internet-lähteitä prosessoimalla saatujen korpujen luomisen:

Verkkokorpus on erityinen kielellinen korpus, joka luodaan lataamalla asteittain tekstejä Internetistä automaattisilla menetelmillä, jotka määrittävät yksittäisten verkkosivujen kielen ja koodauksen lennossa, poistavat malleja, navigointielementtejä, linkkejä ja mainoksia ( ns. boilerplate), suorittaa vastaanotettujen asiakirjojen muuntamisen tekstiksi, suodatuksen, normalisoinnin ja duplikoinnin, jotka voidaan sitten käsitellä perinteisillä korpuslingvistiikan työkaluilla (tokenointi, mirphosyntaktinen ja syntaktinen annotaatio) ja toteuttaa hakukorpusjärjestelmässä. Verkkokorpuksen luominen ei ole vain paljon halvempaa, vaan ennen kaikkea sen koko voi olla jopa suuruusluokkaa suurempi kuin perinteinen korpus [4] .

— Vladimir Benko ARANEA — MILJONIEN VERKKOKORPSIEN PERHE

Sovellus

Corpus on korpuslingvistiikan pääkäsite ja tietokanta. Erityyppisten korpujen analysointi ja käsittely on useimpien laskennallisen lingvistiikan (esim. avainsanojen poiminta ), puheentunnistuksen ja konekäännöstyön kohteena , joissa korpuja käytetään usein piilotettujen Markov -mallien luomiseen puheosan merkintä- ja muita tehtäviä. Korpus- ja taajuussanakirjat voivat olla hyödyllisiä vieraiden kielten opetuksessa.

Venäjänkieliset tekstikortit

Katso myös

Muistiinpanot

↑ GRAMOTA.RU - viite- ja tiedotusportaali "venäjän kieli" | Sanakirjat | Sanan tarkistus . gramota.ru. Haettu 26. joulukuuta 2019. Arkistoitu alkuperäisestä 17. syyskuuta 2019. (määrätön)
↑ Kaavio luotiin kirjan "Zakharov V.P., Bogdanova S.Yu. Corpus linguistics: oppikirja. 3. painos, tarkistettu - St. Petersburg: Publishing House of St. Petersburg University, 2020. - 234 s." materiaalien perusteella. "
↑ Vanyushkin, Grashchenko, 2017 .
↑ ARANEA: MILJONIEN VERKKOTAPAUKSIEN PERHE - Kirjoitettu perintöyhteisö . textualheritage.org. Haettu 26. joulukuuta 2019. Arkistoitu alkuperäisestä 9. elokuuta 2020. (määrätön)
↑ Glazkova, A. (2018), Biografisia tietoja sisältävien fragmenttien automaattinen haku luonnollisen kielen tekstissä , Proceedings of Institute for System Programming RAS T. 30(6): 221-236, doi : 10.15514/ISPRAS-2018-30( 6 )-12 , < https://www.researchgate.net/publication/330689783_Automatic_search_for_fragments_containing_biographical_information_in_a_natural_language_text >
↑ Rubtsova, Y. (2015), Tekstikorpuksen rakentaminen sävelluokittajan määrittämistä varten , Ohjelmistotuotteet ja järjestelmät T. 1(109): 72-78, doi : 10.15827/0236-235x.109.072-078 , < http: //www .swsys.ru/index.php?page=article&id=3962&lang= > Arkistoitu 7. elokuuta 2020 Wayback Machinessa

Kirjallisuus

Vanyushkin A.S., Grashchenko L.A. Avainsanojen poiminta-algoritmien arviointi: työkalut ja resurssit // Uudet tietotekniikat automatisoiduissa järjestelmissä. - 2017. - Ongelma. 20 . — ISSN 2227-0973 .
Nikolaev I. S., Mitrenina O. V., Lando T. M. Applied and Computational Linguistics. - M. : URSS, 2016. - 320 s.

luonnollisen kielen käsittely
Yleiset määritelmät	Tekstien runko puhekorpus Lopeta sanat pussi sanoja AI täydellisyys N-grammaa Biggramin salaus trigrammi
Tekstianalyysi	Tekstin segmentointi Osittainen merkintä Pinnan jäsennys Yhdistetty tekstinkäsittely Kollokaatioiden purkaminen johdettu Lemmatisaatio Nimetyn kokonaisuuden tunnistus Resoluutio Tekstin tunneanalyysi Käsitteen purkaminen jäsentäminen Leksikaalisen polysemian ratkaisu Pura terminologia Tietojen talteenotto Kielen tunnistaminen Tapauksen määritelmä
Viittaus	lauseiden purkaminen Abstrakti sukupolvi Usean asiakirjan viittaus Tekstin yksinkertaistaminen
Konekäännös	automatisoitu Hybridi Interlingual Sääntöön perustuva Esimerkkien perusteella Sanakirjapohjainen Perustuu muunnokseen hermostoa Tilastollinen Synkroninen
Tunnistaminen ja tiedonkeruu	Puheentunnistus puhesynteesi Optinen hahmon tunnistus Tekstin luominen
Temaattinen malli	Pachinkon sijoitus Piilevä Dirichlet-sijoitus Piilevä semanttinen analyysi
Vertaisarviointi	Esseiden automaattinen arviointi Konkordanssi Ennustava tekstinsyöttö Kieliopin tarkistus Oikoluvun tarkistus Syntaksin arvaus
Luonnollisen kielen käyttöliittymä	virtuaalinen avustaja Virtuaalinen keskustelukumppani Kysymys ja vastaus järjestelmä Äänikäyttöliittymä Interaktiivinen kirjallisuus