Corpus of Contemporary American English ( COCA ) on Brigham Youngin yliopiston korpuslingvistiikan professori Mark Davis vuosina 2000-2003 luoma elektroninen tekstikokoelma , joka perustuu Time-lehden vuodesta 1923 kirjoitettuihin teksteihin [1] .
Se on suurin (450 miljoonaa sanaa) amerikanenglanninkielinen tekstikokoelma ja ainoa tällä kielellä vapaasti saatavilla oleva korpus, joka sisältää laajan valikoiman eri tyylilajeja olevia tekstejä . Se koostuu yli 160 000 tekstistä, mukaan lukien 20 miljoonaa sanaa vuosittain vuosina 1990–2011. Se on laajimmin käytetty strukturoitu tekstikokoelma, jolla on noin 10 000 käyttäjää kuukausittain.
Korpus koostuu yli 275 000 artikkelista TIME-lehden arkistosta . Arkistoitu 20. lokakuuta 2013 Wayback Machineen ja sisältää yli 100 miljoonaa sanaa vuosina 1923–2006 kirjoitetuista teksteistä. TIME Magazine Corpus on integroitu muiden Mark Davisin luomien korpusten yhteiseen järjestelmään (johon sisältyy myös Corpus of Historical American English (COHA), Corpus del Español tai Corpus of American Soap Operas -tietokannat) [2] .
Korpuksen arkkitehtuuri on rakennettu muiden Mark Davisin projektien, kuten Corpus of Contemporary American English (COCA) periaatteella . On olemassa keskeinen n-grammitietokanta , joka sisältää tietoa jokaisesta sadasta miljoonasta korpuksen sanasta. Ne on linkitetty taulukoihin, jotka mahdollistavat tapausten analysoinnin, sekä erillisiin taulukoihin synonyymeille, lemmille ja muodoille, jotka esiintyvät sanan kanssa ajan myötä.
Tekstit merkittiin CLAWS-taggerilla (Constituent Likelihood Automatic Word-tagging System) [3] . Samaa ohjelmaa käytettiin muiden Mark Davis Corpsin sekä British National Corpsin luomisessa .
Korpuksen laitteisto on valittu tarjoamaan äärimmäisen nopeat haut - yleensä alle sekunti jopa monimutkaisimmilla kyselyillä, jotka sisältävät sanamuodon, puheosan, taajuuden ja kirjainkoon.
TIME Magazine Corpuksen avulla voit etsiä sekä yksittäisiä sanoja ja lauseita että tiettyjä kieliopillisia muotoja tai synonyymisarjoja sekä nähdä niiden käytön kontekstin ja käyttötiheyden muutoksen.
Korpuksen avulla voit tutkia:
Pääsy rakennukseen on maksuton.
Rekisteröityminen vaaditaan antamalla sähköpostiosoite tai tiedot käyttäjän organisaatiosta ja tilasta vaaditusta käyttöoikeustasosta riippuen. Pääsytasoja on viisi kolmessa kategoriassa: ei tutkija, puolitutkija, tutkija. Ne kaikki eroavat vuorokaudessa annettavan tiedon määrässä (jos aloittelija voi tehdä 100 pyyntöä päivässä, niin tutkijaksi rekisteröitynyt professori tai jatko-opiskelija voi hakea 600 kertaa samassa ajassa).
Korpuslingvistiikka | |
---|---|
Englanninkieliset corporat |
|
Venäjänkieliset corporit |
|
Corpora muilla kielillä |
|
Organisaatiot |