Amerikan englannin kansallinen korpus

American National Corpus ( ANC) on amerikkalaisen englanninkielisten tekstien kokoelma,  joka sisältää 22 miljoonaa sanaa kirjallisista ja suullisista lähteistä, jotka on julkaistu vuodesta 1990 lähtien. ANC sisältää useita tekstejä uusista lähteistä, mukaan lukien sähköpostit , tweetit ja verkkosivujen tekstit , joita ei ole sisällytetty aikaisempiin englanninkielisiin aineistoihin, kuten British National Corpukseen . Se toteuttaa puheosan yhteensopivuuden lemmatisoinnin kanssa , mukaan lukien erisnimet ja pinnallinen jäsennys .

ANC on Linguistic Data Consortiumin jäsenten saatavilla . Resurssi (alikorpus), joka sisältää 15 miljoonaa korpuksen sanaa, on nimeltään Open American National Corpus (OANC) ja on julkisesti saatavilla ANC:n verkkosivustolta [1] .

Korpuksen tekstit on muotoiltu teknisen komitean ISO/TC 37 "Linguistic Annotation Framework" vaatimusten mukaisesti. Julkisesti saatavilla olevan ANC2Go-transduktiotyökalun ansiosta käyttäjien luomat korpusfragmentit ja huomautukset esitetään useissa muodoissa, kuten CoNLL IOB, XCES -koodausstandardin mukainen XML -muoto (jota voidaan käyttää British National Corpus XAIRAssa hakukone ) , UIMA -yhteensopiva muoto ja tiedostomuodot, jotka sopivat monenlaisiin yhteensopivuusohjelmiin. Lisäosat ovat myös saatavilla merkintöjen tuomiseksi luonnollisen kielen GATE -käsittelyjärjestelmään .

ANC eroaa muista englanninkielisistä korpuista laajoissa huomautuksissaan, mukaan lukien erilaiset puheosan tagit (Penn-tunnisteet, CLAWS5- ja CLAWS7-tunnisteet), matalat jäsennysmerkinnät ja huomautukset useille nimetyille objekteille. Ylimääräisiä huomautuksia lisätään koko korpukseen tai sen osiin sitä mukaa, kun se tulee saataville, usein muiden projektien seurauksena. Toisin kuin online-tekstikorjaukset, jotka tekijänoikeusrajoitusten vuoksi mahdollistavat pääsyn vain yksittäisiin lauseisiin, koko ANC-korpusus on tutkittavissa, mukaan lukien tilastollisten kielimallien ja kokotekstien kielellisten huomautusten kehittäminen.

ANC-merkinnät luodaan automaattisesti, eikä niitä vahvisteta. OANC:n 500 000 sanan osa, joka tunnetaan nimellä käsinkirjoitettu ANC -alikorpus (MASC), on merkitty noin 20 erilaiselle kielelliselle huomautukselle, jotka tarkistetaan tai luodaan manuaalisesti. Näitä ovat Penn Treebank -syntaktinen huomautus, WordNet- ja FrameNet- semanttiset verkot ja muut. Kuten OANC, MASC on vapaasti saatavilla mihin tahansa käyttöön, ja sen voi ladata ANC:n verkkosivustolta tai Linguistic Data Consortiumista. Sitä jaetaan myös Natural Language Toolkit - paketin kanssa , joka sisältää kirjastoja ja ohjelmia luonnollisen kielen symboliseen ja tilastolliseen käsittelyyn .

ANC ja sen alakorporat eroavat vastaavista tekstikorpuksista lähinnä kielellisten huomautusten ominaisuuksien ja tekstien sisällyttämisen nykylajeihin, joita ei löydy lähteistä, kuten esimerkiksi British National Corpuksesta . Lisäksi, koska ANC:n alkuperäinen tarkoitus on kehittää tilastollisia kielimalleja, täydelliset tiedot ja kaikki huomautukset ovat ANC:n käyttäjien saatavilla, toisin kuin Corpus of Modern American English (COCA), jonka tekstit ovat vain valikoivasti saatavilla verkkoselaimen kautta.

OANC - ja MASC - tekstikantojen kasvu jatkuu laskennallisen lingvistiikan ja korpuslingvistiikkayhteisöjen tuottaman datan ja merkintöjen lisäämisen myötä .

Muistiinpanot

  1. Open American National Corpus . Haettu 7. huhtikuuta 2018. Arkistoitu alkuperäisestä 24. helmikuuta 2018.

Kirjallisuus

Linkit