Brittiläinen joukko

brittiläinen joukko

URL-osoite	www.natcorp.ox.ac.uk
Sivuston tyyppi	Tieteellinen kirjallisuus
Kieli (kielet)	brittienglanti
Palvelimen sijainti
Tekijä	Oxford University Press , Longman , W. & R. Chambers
Työn alku	1994

British National Corpus ( BNC ) on 100 miljoonan sanan kirjoitettu ja puhuttu brittienglanti monista lähteistä [1] [2] [3] . Korpus kattaa 1900-luvun lopun brittiläisen englannin, jota edustaa laaja valikoima genrejä , ja sen on tarkoitus edustaa tyypillistä sen ajan puhuttua ja kirjoitettua brittiläistä englantia.

Historia

Kolme kustantajaa ( Oxford University Press pääavustajana ja Longman ja W. & R. Chambers ), kaksi yliopistoa ( Oxford ja Lancaster ) ja British Library [2] tekivät yhteistyötä BNC:n luomiseksi .

BNC:n luominen aloitettiin vuonna 1991 BNC-konsortion johdolla ja valmistui vuoteen 1994 mennessä. Vuoden 1994 jälkeen uusia esimerkkejä ei lisätty, mutta BNC:ssä tehtiin pieniä muutoksia ennen toisen (BNC World, 2001) ja kolmannen (BNC) julkaisua. XML Edition, 2007) versiot [4] .

Tausta

Laskennallisten lingvistien näkemyksen mukaan BNC:n piti olla kokoamishetkellä modernin korpus , joka esiintyy tosielämän kielellä , olipa se puhuttu tai kirjoitettu . Tämän seurauksena BNC on koottu tietokoneystävälliseen muotoon, jotta se mahdollistaa automaattisen haun ja käsittelyn korpuslingvististen menetelmien avulla . Yksi eroista BNC:n ja sen ajan olemassa olevien korpusten välillä oli tiedon avoimuus tieteellisen tutkimuksen lisäksi myös kaupallisiin ja koulutustarkoituksiin [3] .

Tekijät rajoittivat korpuksen vain brittiläiseen englannin kieleen , mutta eivät aikoneet sisällyttää esimerkkejä World English käytöstä . Tämä tapahtui osittain siksi, että Ison-Britannian hallitus maksoi merkittävän osan hankkeen kustannuksista, ja se oli luonnollisesti kiinnostunut tukemaan maansa kielellisen monimuotoisuuden dokumentointia [3] .

Ennennäkemättömän kokoisen BNC-korpuksen rakentaminen vaati rahoitusta sekä kaupallisilta että korkeakouluilta. BNC- tiedot puolestaan tulivat myöhemmin saataville kaupalliseen käyttöön ja tieteelliseen tutkimukseen [3] .

Kuvaus

BNC on yksikielinen korpus, koska se sisältää vain näytteitä brittiläisestä englannista, vaikka joskus teksteissä esiintyy sanoja ja lauseita muista kielistä. Tämä on synkroninen korpus, koska se sisältää esimerkkejä kielen käytöstä vain yhdeltä aikakaudelta - 1900-luvun lopulta. Tästä syystä BNC ei voi toimia tietolähteenä brittienglannin kehityksen historiasta [4] . Kirjoitetun tiedon keräämiseen osallistuneet pyrkivät alusta alkaen tekemään BNC:stä tasapainoisen korpuksen, minkä seurauksena haettiin ja sisällytettiin tietoa eri lähteistä [3] .

Komponentit ja sisältö

Kirjoituskorpus

Korpuksesta 90 % koostuu esimerkkejä kirjoitetun kielen käytöstä . Nämä esimerkit on otettu alueellisista ja valtakunnallisista sanomalehdistä, tieteellisistä aikakauslehdistä ja eri tieteenalojen aikakauslehdistä, kaunokirjallisuudesta ja journalismista , sekä julkaistuista että julkaisemattomista materiaaleista (esim. esitteet, kirjeet, opiskelijoiden esseet, käsikirjoitukset, puheet) sekä monista muista lähteet [5] .

Keskustelukorpus

Loput 10 % BNC-materiaalista on puhutun kielen käyttötapoja, jotka esiteltiin ja tallennettiin käytännöllisellä transkriptiolla .

Keskustelukorpus koostuu kahdesta osasta. Demografinen osa sisältää transkription spontaaneista keskusteluista, jotka käytiin todellisissa olosuhteissa, joihin osallistui vapaaehtoisia eri ikäryhmistä, alueista ja sosiaalisista kerroksista. Näitä keskusteluja käytiin erilaisissa tilanteissa, mukaan lukien yritysten tai hallitusten kokoukset ja keskustelut radiolähetyksistä tai puhelimitse [5] . Tässä otettiin huomioon sekä puhutun kielen demografinen jakautuminen että kontekstista johtuva kielellisesti merkittävä monimuotoisuus [6] .

Puhekielen toinen osa sisältää kontekstiherkkiä näytteitä, kuten erityiskokouksissa tai tilaisuuksissa tehtyjen tallenteiden transkriptioita.

Kaikki alkuperäiset tallenteet, jotka on litteroitu BNC:hen sisällytettäväksi, on sijoitettu British Library Sound Archiveen . Suurin osa kirjoituksista on saatavilla Oxfordin yliopiston foneettisen laboratorion verkkosivuilla.

Merkintä

BNC - pakkaus sisältää osittaisia merkintöjä . Tätä varten runkoa luotaessa käytettiin CLAWS-merkintäjärjestelmää. Tämä järjestelmä kävi läpi useita muutoksia ennen kuin viimeinen saatiin - CLAWS4, jota käytettiin tapauksessa. CLAWS1-järjestelmä perustui piilotettuun Markovin malliin ja pystyi merkitsemään oikein 96-97 % kaikesta tekstistä. Kun siirrytään CLAWS1:stä CLAWS2:een, manuaalisen tekstin valmistelun tarve ennen merkintäprosessin aloittamista on kadonnut. CLAWS4 sisältää parannuksia, kuten tehokkaamman leksikaalisen yksiselitteisyyden ja oikeinkirjoituksen vaihtelun. Merkintäjärjestelmän jatkotyössä on keskitytty lisäämään automaattisen merkinnän onnistumisastetta ja vähentämään manuaalista tekstien valmistelutyötä ennen merkinnän aloittamista ottamalla käyttöön lisäohjelmistoja, jotka korvaavat manuaalisen työn [2] [7] .

Myöhemmin merkinnät lisättiin osoittamaan tiettyjen sanojen ja ilmaisujen moniselitteisyyttä. Samaan aikaan huolimatta CLAWS4:n kyvystä määrittää automaattisesti puhetyypit ja sanojen merkitykset, manuaalisen merkinnän tarve säilyi, koska CLAWS4 ei tue muita kieliä kuin englantia [8] [9] .

Alakorpukset

Kaksi alikorporaa (BNC-tietoalajoukot) julkaistiin nimillä BNC Baby ja BNC Sampler. Molemmat näistä alikorpuksista saa tilaamalla ne BNC:n verkkosivuilta [10] .

BNC Baby on BNC:n alikorpus, joka koostuu neljästä miljoonan sanan näytejoukosta. Jokaisen sarjan sanat vastaavat tiettyä genreluokkaa . Yksi näytesarja sisältää keskustelujen transkriptioita, kun taas loput kolme sarjaa sisältävät näytteitä tietokirjallisuudesta, kaunokirjallisuudesta ja sanomalehdistä kirjoitetuista teksteistä . Samanaikaisesti BNC:ssä [11] käytettävissä oleva merkintä säilyy alikorpuksessa . Viimeisin (kolmas) painos julkaistiin XML-muodossa [12] .

BNC Sampler on alirunko, joka koostuu kahdesta osasta. Ensimmäinen osa sisältää kirjallista tietoa, toinen osa puhekieltä. Jokainen osa sisältää miljoona sanaa. BNC Sampleria käytettiin alun perin parantamaan BNC-merkintäprosessia, mikä lopulta johti BNC World -julkaisun julkaisemiseen. Projektin aikana BNC Sampler on kehittynyt, kun kokemus ja tietämys merkinnöistä ovat kasvaneet. Tämän seurauksena luotiin BNC Sampler, jonka tunnemme nykyään [13] .

Tekniset tiedot

Korpus on merkitty Text Encoding Initiative (TEI) -konsortion suositusten mukaisesti ja sisältää täydelliset kielelliset huomautukset ja kontekstuaaliset tiedot [14] .

Käytä ominaisuuksia

Jotta voit käyttää CLAWS4 Partial Marking Tool -runkoa, sinun on ostettava lisenssi [15] . Vaihtoehtoisesti voit käyttää Lancaster Universityn tarjoamaa merkintäpalvelua [16] .

Itse BNC:tä voi ostaa sekä henkilökohtaisella että kollektiivisella lisenssillä. BNC-versio on saatavana XML-muodossa, ja sen mukana tulee Xaira -hakukoneohjelmisto . Paketin voi tilata BNC:n verkkosivujen kautta [17] .

BNC:n XML-versiota varten kehitettiin corpus manager BNCweb, joka on saatavilla verkossa. Sen käyttöliittymä on helppokäyttöinen ja tukee korpusmateriaalien kyselyä ja analysointia [18] .

Materiaalin lupaongelmat

BNC oli ensimmäinen kokonsa laajalle yleisölle saatavilla oleva korpus. Ehkä tämä johtui toisaalta tekijänoikeuksien haltijoiden ja konsortion välisistä vakiomuotoisista sopimuksista ja toisaalta korpuksen käyttäjien ja konsortion välillä. Korpuksen luojat pyrkivät solmimaan immateriaalioikeuksien omistajien kanssa vakiolisenssisopimuksen , jonka yhtenä määräyksenä oli materiaalin sisällyttäminen aineistoon ilman rahallisia maksuja. Tällaista sopimusta helpotti tapauksen omaperäisyys ja ainutlaatuisuus [6] .

On kuitenkin osoittautunut vaikeaksi säilyttää kirjoittajien nimettömyys vähättelemättä heidän työnsä merkitystä. Kaikki läpinäkymätön viittaus tekijän henkilöllisyyteen poistettiin korpusmateriaalista. Samalla harkittiin mahdollisuutta korvata oikeat nimet muilla nimillä anonymiteetin säilyttämiseksi, mitä pidettiin kuitenkin sopimattomana [6] .

Lisäksi tekijöiltä pyydettiin alun perin lupaa sisällyttää puheestaan vain litteroitu versio, mutta ei itse puhetta. Vaikka lupa voitaisiin pyytää uudelleen, alkuperäisten kirjoittajien etsiminen voi vaikeutua meneillään olevan anonymisointiprosessin vuoksi. Samalla tuli selväksi tekijöitä, jotka pahensivat tekijänoikeuksien haltijoiden haluttomuutta lahjoittaa aineistoaan korpukselle: kokonaiset tekstit jätettiin pois korpusesta, mikä johti tekijänoikeuksien haltijoiden motivaation puutteeseen levittää tietoa korpuksen kautta (erityisesti sen ei-kaupallinen perusta) [6] .

Haitat ja rajoitukset

Liian yleinen tekstien luokittelu

Vuodesta 2001 lähtien BNC:ltä puuttui vielä kirjoitettujen tekstien luokittelu muiden kuin sfäärien mukaan (sanomalehdet, kaunokirjallisuus jne.) eikä puhuttujen tekstien luokitus muulla tavoin kuin keskustelun osallistujien kontekstin ja demografisen tai sosioekonomisen luokan mukaan. Korpukseen sisältyi esimerkiksi valtava määrä fiktiivisiä tekstinäytteitä ( romaaneja , novelleja , runoja jne.) , mutta tiedot niiden alalajeista puuttuivat näyteotsikoista ja BNC-dokumentaatiosta. Siten tutkijoille genren monimuotoisuuden tuntemus oli käytännössä hyödytöntä, koska heidän ei ollut helppoa saada halutun alalajin teoksia [19] .

Vuonna 2002, kun korpusesta julkaistiin uusi versio - BNC World Edition, luokitusongelmaa yritettiin ratkaista. Puhutun ja kirjoitetun tekstin sfäärien lisäksi tunnistettiin 70 luokkaa, joiden avulla tutkijat pystyivät poimimaan korpuksesta tietyn genren tekstejä [20] .

Näidenkin innovaatioiden jälkeen luokittelun toteuttamisessa on kuitenkin edelleen ongelmia, koska genren tai alalajin osoittamista tekstiin monimutkaistavat erilaiset hienovaraisuudet. Puhutun datan jako luokkiin on vähemmän ilmeinen kuin kirjoitetun datan, koska keskusteluissa on paljon enemmän erilaisia aiheita. Myös minkä tahansa genren alalajin määrittelyssä on ongelmia ja epäselvyyksiä, koska korpuksen alalajeihin jakaminen oli ennalta määrätty standardointitarkoituksiin [20] .

Luokitteluvirheet ja harhaanjohtavat otsikot

Korpusta luotaessa osa teksteistä oli luokiteltu väärin, usein harhaanjohtavien otsikoiden vuoksi. Esimerkiksi monet tekstit, joiden otsikossa on sana "luento", ovat itse asiassa luokkahuonekeskusteluja tai koulutusseminaareja, joihin osallistuu pieniä ihmisryhmiä, tai suosittuja luentoja, jotka on suunnattu suurelle yleisölle (eikä luentoja yliopisto-opiskelijoille ) [ 19] . Yksi syy luokitteluvirheeseen on se, että genre ja alalaji voidaan määrittää useimmille teksteille, mutta ei kaikille. Lisäksi teksti voi koko pituudeltaan viitata eri alalajeihin, kuulua eri genren määritelmän alle [20] .

Puhemateriaalin puute

BNC:ssä kirjoitetun ja puhutun materiaalin suhde on 10:1 [6] . Tämä johtuu siitä, että miljoonan todellisen puheen sanan keräämisen, litteroinnin ja digitoinnin kustannukset ovat vähintään 10 kertaa suuremmat kuin miljoonan sanomalehtien lisäämisen kustannukset. Kuitenkin ollaan sitä mieltä, että koska suullinen ja kirjallinen puhe ovat yhtä tärkeitä, ne tulisi esittää yhtä suuressa suhteessa korpusessa [6] .

BNC ei ole kovin hyödyllinen puhutun kielen joidenkin ominaisuuksien tutkimisessa, koska siihen sisältyy vain käytännön transkriptioita ja viestinnän paralingvistiset piirteet on osoitettu erittäin pinnallisesti [21] .

Rajoitetut mahdollisuudet leksikaalisten suhteiden tutkimiseen

Joidenkin leksikaalisten yksiköiden väliset suhteet ovat liian moniselitteisiä, jotta ne löydettäisiin tehokkaasti hakukyselyillä. Kaikki yritykset etsiä attribuuttilauseita antavat käyttäjälle virheellisiä tietoja, jotka tarjoavat esimerkkejä kyselypronominien ja sanan "se" käytöstä. Lisäksi ei yleensä ole mahdollista ohjelmallisesti tunnistaa alalauseita, joissa pronominit jätetään pois (kuten esimerkiksi "mies, jonka näin"). Samasta syystä on vaikea määrittää joidenkin semanttisten ja pragmaattisten kategorioiden käyttöä (epäily, erimielisyys, tunnustaminen) [21] .

Rajoitettu kuvaus tilanteista

Korpuksen materiaalien mukaan on mahdollista määrittää, pitääkö puheen mies vai nainen, mutta niistä on mahdotonta saada selville, puhuuko puhuja miehelle vai naiselle [21] .

Ei sovellu erikoistekstien tutkimiseen

BNC on hyvin monipuolinen ja sekalainen korpus, joten se ei sovellu kovinkaan tietyntyyppisten tai -tyyppisten tekstien tutkimiseen, koska tällainen tyyppi tai genre on todennäköisesti erittäin rajallinen ja tämän tyyppisiä tekstejä ei ole helppo löytää. korpuksessa. Esimerkiksi liikekirjeitä tai tallennettuja hallituksen kokouksia on BNC:ssä hyvin vähän, joten niiden erityispiirteiden tutkimiseksi on toivottavaa kerätä pienempi vain tämäntyyppisistä teksteistä koostuva korpus [21] .

BNC:n käyttö

Englannin opetus

Korpusta voidaan käyttää kieltenopetuksessa pääasiassa kahdella tavalla: metodologisen materiaalin luominen ja analyysin kautta oppiminen [21] .

Oppimateriaalit

Kustantajat ja tutkijat voivat käyttää korpuksen näytteitä kieltenoppimissuositusten, opetussuunnitelmien ja muiden opetusmateriaalien luomiseen.

Esimerkiksi joukko japanilaisia tutkijoita käytti BNC:tä työkaluna web-pohjaisen järjestelmän kehittämisessä englannin oppimiseen tietyillä aloilla (liiketoiminta, lääketiede) [22] . Järjestelmä tarjosi opiskelijoille pääsyn yleisimmin käytettyihin lausemalleihin, jotta he voivat oppia näistä esimerkeistä. Tällaisten ehdotusten lähde järjestelmässä oli BNC (ehdotuksiin liitettiin viittaukset BNC:hen hakemuksen todenperäisyyden osoittamiseksi).

Oppiminen analyysin avulla

Korpusanalyysi voidaan liittää suoraan kieltenopetusmenetelmiin. Tällöin opiskelijat saavat mahdollisuuden itsenäisesti luokitella korpusen kielitietoa ja muodostaa siten käsityksen tutkittavan kielen malleista ja kyvyistä tämän luokituksen perusteella. Tässä opetusmenetelmässä käytetyt korpustiedot ovat suhteellisen pieniä ja voivat siksi johtaa opiskelua koskevaan kieleen liittyvien käsitysten yleistymiseen, jolla ei voi olla juurikaan tekemistä todellisen asioiden kanssa [21] .

Muut

BNC:tä voidaan käyttää lähteenä tekstien luomisessa ja jäsentelyssä, esimerkiksi tutkittaessa yksittäisten sanojen käyttöä eri yhteyksissä. Näin voit tutustua samojen sanojen eri käyttötapoihin [21] .

Kieleen liittyvän tiedon lisäksi BNC voi toimia myös tietosanakirjan lähteenä, kuten brittiläisen kulttuurin ja Isossa-Britanniassa suosittujen stereotypioiden lähteenä [21] .

Käännössanakirjat

Intiassa vuonna 2012 yli 12 000 BNC:n sanaa ja ilmausta käytettiin kehittämään 22 käännössanakirjaa paikallisista kielistä englanniksi. Kehitys toteutettiin osana koulutusjärjestelmän uudistamista ja Intian pienten kansojen kielten säilyttämistä [23] .

Testaus ja arviointi

BNC soveltuu kokonsa vuoksi erinomaisesti käytettäväksi ohjelmistojen testauksen materiaalina [24] . Sitä käytettiin esimerkiksi tekstinkoodausaloitteen (TEI) Markup Language Specifications -testauksessa. Lisäksi 20 miljoonaa sanaa BNC:stä käytettiin alakategorioiden määritysjärjestelmän arvioimiseen Senseval [25] sanamerkitysanalyysiprojektissa .

Tieteellinen tutkimus

Yhteiset todisteet British National Corpuksesta [26]

Hofmannin ja Lehmannin vuonna 2000 tekemä tutkimus, jossa tarkasteltiin mekanismeja, jotka antavat ihmisille mahdollisuuden käsitellä vapaasti valtavaa kollokaatioiden joukkoa . Erityisesti on tutkittu kahta mekanismia, joista toinen mahdollistaa kollokaatioiden olevan aina käyttövalmiina ja toinen mahdollistaa kollokaatioiden helpon laajentamisen kieliopillisesti tai syntaktisesti sopeutuakseen tiettyyn tilanteeseen. Näitä tarkoituksia varten BNC:stä on poimittu harvinaisia sanayhdistelmiä [26] .

Ei-sentential Utterances: A Corpus Study [27]

Fernandezin ja Ginzburgin vuonna 2002 tekemä tutkimus, jossa tarkasteltiin dialogeja, jotka olivat täynnä puheita, jotka päättyivät vain intuitiivisesti ja jotka eivät sisältäneet kontekstin ulkopuolista tietoa. Pohjimmiltaan nämä ovat tyypillisiä lyhyitä vastauksia kysymyksiin. Tutkimuksen aikana BNC-tiedon fragmentteja käytettiin tällaisten lausuntojen täydellisen ja teoreettisen luotettavan luokituksen laatimiseen [27] .

Luonnollisen kielen käsittely

BNC:tä käytetään laajalti morfologisen käsittelyn alalla ( luonnollisen kielen prosessoinnin haara ). Erityisesti BNC:n dataa käytetään brittienglanniksi tarkoitettujen morfologisten merkkien käsittelytyökalujen tarkkuuden, luotettavuuden ja nopeuden testaamiseen [28] . Lisäksi BNC:n tietoja on käytetty laajan englanninkielisen morfologisten markkereiden tietovaraston luomiseen [28] .

Tunnustus

Laskennallisten ja korpuslingvistien keskuudessa on yleisesti hyväksyttyä, että BNC on erinomainen saavutus, valtavan kokoinen korpus. Valtavien ponnistelujen ansiosta suuren tietomäärän keräämiseksi ja edelleen käsittelemiseksi BNC:stä on tullut yksi arvokkaimmista aineistoista. BNC:tä pidetään mallikorpuksena, josta kehitetään myöhempiä korpuja (esim . Amerikan , Tšekin ja Puolan kansalliset corporat) [29] [30] .

BNC2014

Heinäkuussa 2014 Cambridge University Press ja Lancasterin yliopiston yhteiskuntatieteiden tutkimuskeskus ilmoittivat BNC:stä, että uuden British National Corpuksen luomiseksi oli meneillään [31] . Näiden kahden laitoksen yhteishankkeen ensimmäinen vaihe oli uuden brittienglannin puhekieliaineiston kokoaminen 2010-luvun alusta [32] .

Katso myös

Muistiinpanot

↑ Lou Burnard et ai, 1998 , XIII.
↑ 1 2 3 Geoffrey Leech et ai., 1994 , s. 47-63.
↑ 1 2 3 4 5 Geoffrey Leech, 1993 , s. 9-15.
↑ 1 2 Mikä on BNC? Arkistoitu 7. huhtikuuta 2022 Wayback Machinessa . Haettu 12. maaliskuuta 2012.
↑ 1 2 British National Corpus Arkistoitu 4. maaliskuuta 2016 Wayback Machinessa . Haettu 12. maaliskuuta 2012.
↑ 1 2 3 4 5 6 Lou Burnard, 2002 .
↑ Geoffrey Leech 1994, 1994 , s. 622-628.
↑ Leech, Geoffrey; Smith, Nicholas British National Corpus (versio 2) parannetulla sanaluokan merkinnällä . UCREL, Lancasterin yliopisto, Iso-Britannia (2000). Haettu 17. maaliskuuta 2012. Arkistoitu alkuperäisestä 5. huhtikuuta 2016. (määrätön)
↑ Leech, Geoffrey; Smith, Nicholas Korpuksen automaattinen POS-koodaus . UCREL, Lancasterin yliopisto, Iso-Britannia (2000). Haettu 17. maaliskuuta 2012. Arkistoitu alkuperäisestä 5. huhtikuuta 2016. (määrätön)
↑ BNC-tuotteet . Haettu 18. maaliskuuta 2012. Arkistoitu alkuperäisestä 24. maaliskuuta 2016. (määrätön)
↑ Burnard, Lou Reference Guide for BNC-baby (2003). Käyttöpäivä: 18. maaliskuuta 2012. Arkistoitu alkuperäisestä 4. maaliskuuta 2016. (määrätön)
↑ Uusi BNC Baby -versio saatavilla . Haettu 19. maaliskuuta 2012. Arkistoitu alkuperäisestä 4. kesäkuuta 2016. (määrätön)
↑ BNC Sampler: XML-versio (2008). Käyttöpäivä: 18. maaliskuuta 2012. Arkistoitu alkuperäisestä 4. maaliskuuta 2016. (määrätön)
↑ Burnard, Lou British National Corpuksen käyttäjien viiteopas (1995). Käyttöpäivä: 18. maaliskuuta 2012. Arkistoitu alkuperäisestä 2. huhtikuuta 2016. (määrätön)
↑ Lisenssin hankkiminen CLAWS-taggerille . UCREL, Lancasterin yliopisto, Iso-Britannia. Haettu 17. maaliskuuta 2012. Arkistoitu alkuperäisestä 5. maaliskuuta 2016. (määrätön)
↑ CLAWS-merkintäpalvelu . UCREL, Lancasterin yliopisto, Iso-Britannia. Haettu 17. maaliskuuta 2012. Arkistoitu alkuperäisestä 7. huhtikuuta 2016. (määrätön)
↑ Kuinka tilata . Haettu 17. maaliskuuta 2012. Arkistoitu alkuperäisestä 23. lokakuuta 2015. (määrätön)
↑ Peter Lang, 2008 .
↑ 12. David Lee , 2001 .
↑ 1 2 3 Lee, David BNC WORLD EDITION (BIBLIOGRAAFISEN) HAKEMISTOON LIITTYVÄT HUOMAUTUKSET (linkki ei saatavilla) (2002). Haettu 17. maaliskuuta 2012. Arkistoitu alkuperäisestä 26. syyskuuta 2012. (määrätön)
↑ 1 2 3 4 5 6 7 8 Guy Aston, 1998 .
↑ Danny Minn et al, 2005 .
↑ Kaksikieliset sanakirjat Intian äidinkielten edistämiseksi (14. maaliskuuta 2012). Arkistoitu alkuperäisestä 31. joulukuuta 2010. Haettu 17. maaliskuuta 2012.
↑ Mitä voin tehdä BNC:llä? . Haettu 18. maaliskuuta 2012. Arkistoitu alkuperäisestä 13. maaliskuuta 2016. (määrätön)
↑ Korhonen, Anna ARVIOINTIRESURSSIT englannin kielen alakategoriaation hankintajärjestelmille (inaccessible link) (2002). Haettu 18. maaliskuuta 2012. Arkistoitu alkuperäisestä 13. joulukuuta 2012. (määrätön)
↑ 1 2 Sebastian Hoffmann & Hans-Martin Lehmann, 2000 .
↑ 1 2 Raquel Fernandez & Jonathan Ginzburg, 2002 .
↑ 12 Guido Minnen et al, 2001 .
↑ František Čermák, 2003 .
↑ Richard Xiao, 2008 .
↑ Tony McEnery Twitterissä Arkistoitu 5. maaliskuuta 2016 Wayback Machinessa . Haettu 17. maaliskuuta 2015.
↑ "Center for Corpus Approaches to Social Science" Arkistoitu 15. syyskuuta 2016 Wayback Machinessa . Haettu 17. maaliskuuta 2015.

Kirjallisuus

Lou Burnard, Guy Aston. BNC-käsikirja: tutustuminen British National Corpukseen. - Edinburgh: Edinburgh University Press, 1998. - P. xiii. - ISBN 0-7486-1055-3 .

Geoffrey Leech, Roger Garside, Michael Bryant. Tekstin laajamittainen kieliopillinen taggaus: Kokemuksia British National Corpuksesta // Korpuspohjainen kielentutkimus. - Amsterdam: Radopi, 1994. - P. 47-63 . — ISSN 90-5183-588-4 .

Geoffrey Leech. 100 miljoonaa sanaa englantia // English Today. - 1993. - T. 9 , nro 1 . - s. 9-15 . - doi : 10.1017/S0266078400006854 .

Lou Burnard. Missä teimme virheen? retrospektiivinen katsaus British National Corpukseen // Opetus ja oppiminen tekemällä korpusanalyysi. - 2002. - s. 51-71 .

Geoffrey Leech, Roger Garside, Michael Bryant. Claws4: The Tagging Of The British National Corpus // Proceedings of the 15th International Conference on Computational Linguistics. - 1994. - S. 622-628 .

Peter Lang. Korpuslingvistiikka BNCwebin avulla: käytännön opas. - Peter Lang Publishing Group, 2008. - ISBN 978-3-631-56315-1 .

David Lee. TYYPIT, REKISTERIT, TEKSTITYYPIT, DOMAINIT JA TYYLIT (englanniksi) // Language Learning & Technology. - 2001. - Voi. 5 , ei. 3 . — s. 37–72 .

Guy Aston. Englannin oppiminen British National Corpuksen kanssa // Paperi esitelty 6. Jornada de Corpus -konferenssissa Barcelonassa: UPF. – 1998.

Danny Minn, Hiroshi Sano, Marie Ino, Takahiro Nakamura. BNC:n käyttö oppimateriaalien ja verkkosivuston luomiseen ja kehittämiseen englannin kielen opiskelijoille // ICAME Journal. - 2005. - Ei. 29 . — s. 99–113 .

Sebastian Hoffmann, Hans-Martin Lehmann. Collocational Evidence from British National Corpus // Corpora Galore: Analyzes and Techniques in Describing English. - 2000. - s. 17-33 . — ISSN 90-420-0419-3 .

Raquel Fernandez, Jonathan Ginzburg. Ei-sentential Utterances: A corpus study // Proceedings of the Third SIGdial Workshop on Discourse and Dialogue. - 2002. - s. 15-26 .

Guido Minnen, John Carrol, Darren Pearce. Englannin sovellettu morfologinen käsittely (englanti) // Natural Language Engineering. - 2001. - Voi. 7 , ei. 3 . — s. 207–223 . - doi : 10.1017/s1351324901002728 .

František Cermak. Tämän päivän Corpus Linguistics: joitakin avoimia kysymyksiä // International Journal of Corpus Linguistics. - 2003. - Voi. 7 , ei. 2 . — s. 265–282 . - doi : 10.1075/ijcl.7.2.06cer .

Richard Xiao. Tunnetut ja vaikutusvaltaiset korpust: Tutkimus (englanniksi) // Corpus Linguistics: An International Handbook. - Berliini: Mouton de Gruyter, 2008. - Voi. 1 . - s. 383-457 . — ISSN 978-3-11-021142-9 . Arkistoitu alkuperäisestä 25. huhtikuuta 2016.

Linkit

Korpuslingvistiikka
Englanninkieliset corporat	Amerikan englannin kansallinen korpus Englannin pankki Bergen Corpus of London Teenage Language brittiläinen joukko Ruskea Corpus Buckeye Corpus Cambridge English Corpus Modernin amerikkalaisen englannin runko Enron Corpus Kansainvälinen englanninkielinen korpus Lancaster-Oslo-Bergen Corpus Oxford English Corpus Prop Pankki Puhuttu englanti korpus AIKA VerbNet Uuden-Seelannin puhutun englannin Wellington Corpus
Venäjänkieliset corporit	Venäjän kielen yleinen Internet-korpus Venäjän kansallinen korpus Venäjän kielen avoin korpus SinTagRus Tübingenin venäjän kielen korpus Uppsalan venäläisten tekstien korpus Helsinki Annotated Corpus of the Russian Language
Corpora muilla kielillä	Bijankhan Corpus LAPSET Korpus Kroatian Kroatian kansallinen korpus Europarl Corpus Mannheim Corpus German Hamshahrin joukko Puolan kansallinen korpus Uusassyrialainen tekstikorpusprojekti Koraani korpus Scottish National Corpus Slovenian kansallinen korpus keskustelupankki Tatoeba Teheran Monolingual Corpus Tekstaro de Esperanto Thesaurus Linguae Graecae
Organisaatiot	BNC-konsortio YHTEISKUNTA