Amerikan englannin kansallinen korpus

American National Corpus ( ANC) on amerikkalaisen englanninkielisten tekstien kokoelma, joka sisältää 22 miljoonaa sanaa kirjallisista ja suullisista lähteistä, jotka on julkaistu vuodesta 1990 lähtien. ANC sisältää useita tekstejä uusista lähteistä, mukaan lukien sähköpostit , tweetit ja verkkosivujen tekstit , joita ei ole sisällytetty aikaisempiin englanninkielisiin aineistoihin, kuten British National Corpukseen . Se toteuttaa puheosan yhteensopivuuden lemmatisoinnin kanssa , mukaan lukien erisnimet ja pinnallinen jäsennys .

ANC on Linguistic Data Consortiumin jäsenten saatavilla . Resurssi (alikorpus), joka sisältää 15 miljoonaa korpuksen sanaa, on nimeltään Open American National Corpus (OANC) ja on julkisesti saatavilla ANC:n verkkosivustolta [1] .

Korpuksen tekstit on muotoiltu teknisen komitean ISO/TC 37 "Linguistic Annotation Framework" vaatimusten mukaisesti. Julkisesti saatavilla olevan ANC2Go-transduktiotyökalun ansiosta käyttäjien luomat korpusfragmentit ja huomautukset esitetään useissa muodoissa, kuten CoNLL IOB, XCES -koodausstandardin mukainen XML -muoto (jota voidaan käyttää British National Corpus XAIRAssa hakukone ) , UIMA -yhteensopiva muoto ja tiedostomuodot, jotka sopivat monenlaisiin yhteensopivuusohjelmiin. Lisäosat ovat myös saatavilla merkintöjen tuomiseksi luonnollisen kielen GATE -käsittelyjärjestelmään .

ANC eroaa muista englanninkielisistä korpuista laajoissa huomautuksissaan, mukaan lukien erilaiset puheosan tagit (Penn-tunnisteet, CLAWS5- ja CLAWS7-tunnisteet), matalat jäsennysmerkinnät ja huomautukset useille nimetyille objekteille. Ylimääräisiä huomautuksia lisätään koko korpukseen tai sen osiin sitä mukaa, kun se tulee saataville, usein muiden projektien seurauksena. Toisin kuin online-tekstikorjaukset, jotka tekijänoikeusrajoitusten vuoksi mahdollistavat pääsyn vain yksittäisiin lauseisiin, koko ANC-korpusus on tutkittavissa, mukaan lukien tilastollisten kielimallien ja kokotekstien kielellisten huomautusten kehittäminen.

ANC-merkinnät luodaan automaattisesti, eikä niitä vahvisteta. OANC:n 500 000 sanan osa, joka tunnetaan nimellä käsinkirjoitettu ANC -alikorpus (MASC), on merkitty noin 20 erilaiselle kielelliselle huomautukselle, jotka tarkistetaan tai luodaan manuaalisesti. Näitä ovat Penn Treebank -syntaktinen huomautus, WordNet- ja FrameNet- semanttiset verkot ja muut. Kuten OANC, MASC on vapaasti saatavilla mihin tahansa käyttöön, ja sen voi ladata ANC:n verkkosivustolta tai Linguistic Data Consortiumista. Sitä jaetaan myös Natural Language Toolkit - paketin kanssa , joka sisältää kirjastoja ja ohjelmia luonnollisen kielen symboliseen ja tilastolliseen käsittelyyn .

ANC ja sen alakorporat eroavat vastaavista tekstikorpuksista lähinnä kielellisten huomautusten ominaisuuksien ja tekstien sisällyttämisen nykylajeihin, joita ei löydy lähteistä, kuten esimerkiksi British National Corpuksesta . Lisäksi, koska ANC:n alkuperäinen tarkoitus on kehittää tilastollisia kielimalleja, täydelliset tiedot ja kaikki huomautukset ovat ANC:n käyttäjien saatavilla, toisin kuin Corpus of Modern American English (COCA), jonka tekstit ovat vain valikoivasti saatavilla verkkoselaimen kautta.

OANC - ja MASC - tekstikantojen kasvu jatkuu laskennallisen lingvistiikan ja korpuslingvistiikkayhteisöjen tuottaman datan ja merkintöjen lisäämisen myötä .

Muistiinpanot

↑ Open American National Corpus . Haettu 7. huhtikuuta 2018. Arkistoitu alkuperäisestä 24. helmikuuta 2018. (määrätön)

Kirjallisuus

Ide, N. (2008). American National Corpus: Silloin, nyt ja huomenna . Teoksessa Michael Haugh, Kate Burridge, Jean Mulder ja Pam Peters (toim.), Selected Proceedings of the 2008 HCSNet Workshop on Designing the Australian National Corpus: Mustering Languages, Cascadilla Proceedings Project, Sommerville, MA.
Ide, N., Suderman, K. (2004). American National Corpusin ensimmäinen julkaisu . Proceedings of the Fourth Language Resources and Evaluation Conference (LREC), Lissabon, 1681-84.
Ide, N., Baker, C., Fellbaum, C., Passonneau, R. (2010). Manuaalisesti merkitty alakorpus: Yhteisön resurssi ihmisille ja ihmisten toimesta

Linkit

Korpuslingvistiikka
Englanninkieliset corporat	Amerikan englannin kansallinen korpus Englannin pankki Bergen Corpus of London Teenage Language brittiläinen joukko Ruskea Corpus Buckeye Corpus Cambridge English Corpus Modernin amerikkalaisen englannin runko Enron Corpus Kansainvälinen englanninkielinen korpus Lancaster-Oslo-Bergen Corpus Oxford English Corpus Prop Pankki Puhuttu englanti korpus AIKA VerbNet Uuden-Seelannin puhutun englannin Wellington Corpus
Venäjänkieliset corporit	Venäjän kielen yleinen Internet-korpus Venäjän kansallinen korpus Venäjän kielen avoin korpus SinTagRus Tübingenin venäjän kielen korpus Uppsalan venäläisten tekstien korpus Helsinki Annotated Corpus of the Russian Language
Corpora muilla kielillä	Bijankhan Corpus LAPSET Korpus Kroatian Kroatian kansallinen korpus Europarl Corpus Mannheim Corpus German Hamshahrin joukko Puolan kansallinen korpus Uusassyrialainen tekstikorpusprojekti Koraani korpus Scottish National Corpus Slovenian kansallinen korpus keskustelupankki Tatoeba Teheran Monolingual Corpus Tekstaro de Esperanto Thesaurus Linguae Graecae
Organisaatiot	BNC-konsortio YHTEISKUNTA