Modernin amerikkalaisen englannin runko

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 6.9.2021 tarkistetusta versiosta . tarkastukset vaativat 3 muokkausta .

Corpus of Contemporary American English  ( COCA ) on Brigham Youngin yliopiston korpuslingvistiikan professori Mark Davis vuosina 2000-2003 luoma elektroninen tekstikokoelma , joka perustuu Time-lehden vuodesta 1923 kirjoitettuihin teksteihin [1] .

Se on suurin (450 miljoonaa sanaa) amerikanenglanninkielinen tekstikokoelma ja ainoa tällä kielellä vapaasti saatavilla oleva korpus, joka sisältää laajan valikoiman eri tyylilajeja olevia tekstejä . Se koostuu yli 160 000 tekstistä, mukaan lukien 20 miljoonaa sanaa vuosittain vuosina 1990–2011. Se on laajimmin käytetty strukturoitu tekstikokoelma, jolla on noin 10 000 käyttäjää kuukausittain.

Koostumus

Muut Davis Corps

TIME-lehden korpus

Korpus koostuu yli 275 000 artikkelista TIME-lehden arkistosta . Arkistoitu 20. lokakuuta 2013 Wayback Machineen ja sisältää yli 100 miljoonaa sanaa vuosina 1923–2006 kirjoitetuista teksteistä. TIME Magazine Corpus on integroitu muiden Mark Davisin luomien korpusten yhteiseen järjestelmään (johon sisältyy myös Corpus of Historical American English (COHA), Corpus del Español tai Corpus of American Soap Operas -tietokannat) [2] .

Kuinka se toimii

Korpuksen arkkitehtuuri on rakennettu muiden Mark Davisin projektien, kuten Corpus of Contemporary American English (COCA) periaatteella . On olemassa keskeinen n-grammitietokanta , joka sisältää tietoa jokaisesta sadasta miljoonasta korpuksen sanasta. Ne on linkitetty taulukoihin, jotka mahdollistavat tapausten analysoinnin, sekä erillisiin taulukoihin synonyymeille, lemmille ja muodoille, jotka esiintyvät sanan kanssa ajan myötä.

Tekstit merkittiin CLAWS-taggerilla (Constituent Likelihood Automatic Word-tagging System) [3] . Samaa ohjelmaa käytettiin muiden Mark Davis Corpsin sekä British National Corpsin luomisessa .

Korpuksen laitteisto on valittu tarjoamaan äärimmäisen nopeat haut - yleensä alle sekunti jopa monimutkaisimmilla kyselyillä, jotka sisältävät sanamuodon, puheosan, taajuuden ja kirjainkoon.

Käyttää

TIME Magazine Corpuksen avulla voit etsiä sekä yksittäisiä sanoja ja lauseita että tiettyjä kieliopillisia muotoja tai synonyymisarjoja sekä nähdä niiden käytön kontekstin ja käyttötiheyden muutoksen.

Korpuksen avulla voit tutkia:

Pääsy

Pääsy rakennukseen on maksuton.

Rekisteröityminen vaaditaan antamalla sähköpostiosoite tai tiedot käyttäjän organisaatiosta ja tilasta vaaditusta käyttöoikeustasosta riippuen. Pääsytasoja on viisi kolmessa kategoriassa: ei tutkija, puolitutkija, tutkija. Ne kaikki eroavat vuorokaudessa annettavan tiedon määrässä (jos aloittelija voi tehdä 100 pyyntöä päivässä, niin tutkijaksi rekisteröitynyt professori tai jatko-opiskelija voi hakea 600 kertaa samassa ajassa).

Katso myös

Muistiinpanot

  1. Kauhanen, Henri The Corpus of Contemporary American English: Background and History . VARIENG (21. maaliskuuta 2011). Haettu 13. lokakuuta 2011. Arkistoitu alkuperäisestä 12. tammikuuta 2012.
  2. Luettelo Mark Davisin luomista korpusista Arkistoitu 7. marraskuuta 2013 Wayback Machinessa . Google Analyticsin mukaan maaliskuussa 2012. Arkistoitu 6. marraskuuta 2013 Wayback Machinessa , yli 100 000 yksilöityä käyttäjää käyttää tätä tietokantaa joka kuukausi.
  3. CLAWS-puheosan tunnistin englanniksi . Haettu 27. lokakuuta 2013. Arkistoitu alkuperäisestä 2. huhtikuuta 2019.

Linkit