American National Corpus ( ANC) on amerikkalaisen englanninkielisten tekstien kokoelma, joka sisältää 22 miljoonaa sanaa kirjallisista ja suullisista lähteistä, jotka on julkaistu vuodesta 1990 lähtien. ANC sisältää useita tekstejä uusista lähteistä, mukaan lukien sähköpostit , tweetit ja verkkosivujen tekstit , joita ei ole sisällytetty aikaisempiin englanninkielisiin aineistoihin, kuten British National Corpukseen . Se toteuttaa puheosan yhteensopivuuden lemmatisoinnin kanssa , mukaan lukien erisnimet ja pinnallinen jäsennys .
ANC on Linguistic Data Consortiumin jäsenten saatavilla . Resurssi (alikorpus), joka sisältää 15 miljoonaa korpuksen sanaa, on nimeltään Open American National Corpus (OANC) ja on julkisesti saatavilla ANC:n verkkosivustolta [1] .
Korpuksen tekstit on muotoiltu teknisen komitean ISO/TC 37 "Linguistic Annotation Framework" vaatimusten mukaisesti. Julkisesti saatavilla olevan ANC2Go-transduktiotyökalun ansiosta käyttäjien luomat korpusfragmentit ja huomautukset esitetään useissa muodoissa, kuten CoNLL IOB, XCES -koodausstandardin mukainen XML -muoto (jota voidaan käyttää British National Corpus XAIRAssa hakukone ) , UIMA -yhteensopiva muoto ja tiedostomuodot, jotka sopivat monenlaisiin yhteensopivuusohjelmiin. Lisäosat ovat myös saatavilla merkintöjen tuomiseksi luonnollisen kielen GATE -käsittelyjärjestelmään .
ANC eroaa muista englanninkielisistä korpuista laajoissa huomautuksissaan, mukaan lukien erilaiset puheosan tagit (Penn-tunnisteet, CLAWS5- ja CLAWS7-tunnisteet), matalat jäsennysmerkinnät ja huomautukset useille nimetyille objekteille. Ylimääräisiä huomautuksia lisätään koko korpukseen tai sen osiin sitä mukaa, kun se tulee saataville, usein muiden projektien seurauksena. Toisin kuin online-tekstikorjaukset, jotka tekijänoikeusrajoitusten vuoksi mahdollistavat pääsyn vain yksittäisiin lauseisiin, koko ANC-korpusus on tutkittavissa, mukaan lukien tilastollisten kielimallien ja kokotekstien kielellisten huomautusten kehittäminen.
ANC-merkinnät luodaan automaattisesti, eikä niitä vahvisteta. OANC:n 500 000 sanan osa, joka tunnetaan nimellä käsinkirjoitettu ANC -alikorpus (MASC), on merkitty noin 20 erilaiselle kielelliselle huomautukselle, jotka tarkistetaan tai luodaan manuaalisesti. Näitä ovat Penn Treebank -syntaktinen huomautus, WordNet- ja FrameNet- semanttiset verkot ja muut. Kuten OANC, MASC on vapaasti saatavilla mihin tahansa käyttöön, ja sen voi ladata ANC:n verkkosivustolta tai Linguistic Data Consortiumista. Sitä jaetaan myös Natural Language Toolkit - paketin kanssa , joka sisältää kirjastoja ja ohjelmia luonnollisen kielen symboliseen ja tilastolliseen käsittelyyn .
ANC ja sen alakorporat eroavat vastaavista tekstikorpuksista lähinnä kielellisten huomautusten ominaisuuksien ja tekstien sisällyttämisen nykylajeihin, joita ei löydy lähteistä, kuten esimerkiksi British National Corpuksesta . Lisäksi, koska ANC:n alkuperäinen tarkoitus on kehittää tilastollisia kielimalleja, täydelliset tiedot ja kaikki huomautukset ovat ANC:n käyttäjien saatavilla, toisin kuin Corpus of Modern American English (COCA), jonka tekstit ovat vain valikoivasti saatavilla verkkoselaimen kautta.
OANC - ja MASC - tekstikantojen kasvu jatkuu laskennallisen lingvistiikan ja korpuslingvistiikkayhteisöjen tuottaman datan ja merkintöjen lisäämisen myötä .
Korpuslingvistiikka | |
---|---|
Englanninkieliset corporat |
|
Venäjänkieliset corporit |
|
Corpora muilla kielillä |
|
Organisaatiot |