brittiläinen joukko | |
---|---|
URL-osoite | www.natcorp.ox.ac.uk |
Sivuston tyyppi | Tieteellinen kirjallisuus |
Kieli (kielet) | brittienglanti |
Palvelimen sijainti | |
Tekijä | Oxford University Press , Longman , W. & R. Chambers |
Työn alku | 1994 |
British National Corpus ( BNC ) on 100 miljoonan sanan kirjoitettu ja puhuttu brittienglanti monista lähteistä [1] [2] [3] . Korpus kattaa 1900-luvun lopun brittiläisen englannin, jota edustaa laaja valikoima genrejä , ja sen on tarkoitus edustaa tyypillistä sen ajan puhuttua ja kirjoitettua brittiläistä englantia.
Kolme kustantajaa ( Oxford University Press pääavustajana ja Longman ja W. & R. Chambers ), kaksi yliopistoa ( Oxford ja Lancaster ) ja British Library [2] tekivät yhteistyötä BNC:n luomiseksi .
BNC:n luominen aloitettiin vuonna 1991 BNC-konsortion johdolla ja valmistui vuoteen 1994 mennessä. Vuoden 1994 jälkeen uusia esimerkkejä ei lisätty, mutta BNC:ssä tehtiin pieniä muutoksia ennen toisen (BNC World, 2001) ja kolmannen (BNC) julkaisua. XML Edition, 2007) versiot [4] .
Laskennallisten lingvistien näkemyksen mukaan BNC:n piti olla kokoamishetkellä modernin korpus , joka esiintyy tosielämän kielellä , olipa se puhuttu tai kirjoitettu . Tämän seurauksena BNC on koottu tietokoneystävälliseen muotoon, jotta se mahdollistaa automaattisen haun ja käsittelyn korpuslingvististen menetelmien avulla . Yksi eroista BNC:n ja sen ajan olemassa olevien korpusten välillä oli tiedon avoimuus tieteellisen tutkimuksen lisäksi myös kaupallisiin ja koulutustarkoituksiin [3] .
Tekijät rajoittivat korpuksen vain brittiläiseen englannin kieleen , mutta eivät aikoneet sisällyttää esimerkkejä World English käytöstä . Tämä tapahtui osittain siksi, että Ison-Britannian hallitus maksoi merkittävän osan hankkeen kustannuksista, ja se oli luonnollisesti kiinnostunut tukemaan maansa kielellisen monimuotoisuuden dokumentointia [3] .
Ennennäkemättömän kokoisen BNC-korpuksen rakentaminen vaati rahoitusta sekä kaupallisilta että korkeakouluilta. BNC- tiedot puolestaan tulivat myöhemmin saataville kaupalliseen käyttöön ja tieteelliseen tutkimukseen [3] .
BNC on yksikielinen korpus, koska se sisältää vain näytteitä brittiläisestä englannista, vaikka joskus teksteissä esiintyy sanoja ja lauseita muista kielistä. Tämä on synkroninen korpus, koska se sisältää esimerkkejä kielen käytöstä vain yhdeltä aikakaudelta - 1900-luvun lopulta. Tästä syystä BNC ei voi toimia tietolähteenä brittienglannin kehityksen historiasta [4] . Kirjoitetun tiedon keräämiseen osallistuneet pyrkivät alusta alkaen tekemään BNC:stä tasapainoisen korpuksen, minkä seurauksena haettiin ja sisällytettiin tietoa eri lähteistä [3] .
Korpuksesta 90 % koostuu esimerkkejä kirjoitetun kielen käytöstä . Nämä esimerkit on otettu alueellisista ja valtakunnallisista sanomalehdistä, tieteellisistä aikakauslehdistä ja eri tieteenalojen aikakauslehdistä, kaunokirjallisuudesta ja journalismista , sekä julkaistuista että julkaisemattomista materiaaleista (esim. esitteet, kirjeet, opiskelijoiden esseet, käsikirjoitukset, puheet) sekä monista muista lähteet [5] .
KeskustelukorpusLoput 10 % BNC-materiaalista on puhutun kielen käyttötapoja, jotka esiteltiin ja tallennettiin käytännöllisellä transkriptiolla .
Keskustelukorpus koostuu kahdesta osasta. Demografinen osa sisältää transkription spontaaneista keskusteluista, jotka käytiin todellisissa olosuhteissa, joihin osallistui vapaaehtoisia eri ikäryhmistä, alueista ja sosiaalisista kerroksista. Näitä keskusteluja käytiin erilaisissa tilanteissa, mukaan lukien yritysten tai hallitusten kokoukset ja keskustelut radiolähetyksistä tai puhelimitse [5] . Tässä otettiin huomioon sekä puhutun kielen demografinen jakautuminen että kontekstista johtuva kielellisesti merkittävä monimuotoisuus [6] .
Puhekielen toinen osa sisältää kontekstiherkkiä näytteitä, kuten erityiskokouksissa tai tilaisuuksissa tehtyjen tallenteiden transkriptioita.
Kaikki alkuperäiset tallenteet, jotka on litteroitu BNC:hen sisällytettäväksi, on sijoitettu British Library Sound Archiveen . Suurin osa kirjoituksista on saatavilla Oxfordin yliopiston foneettisen laboratorion verkkosivuilla.
BNC - pakkaus sisältää osittaisia merkintöjä . Tätä varten runkoa luotaessa käytettiin CLAWS-merkintäjärjestelmää. Tämä järjestelmä kävi läpi useita muutoksia ennen kuin viimeinen saatiin - CLAWS4, jota käytettiin tapauksessa. CLAWS1-järjestelmä perustui piilotettuun Markovin malliin ja pystyi merkitsemään oikein 96-97 % kaikesta tekstistä. Kun siirrytään CLAWS1:stä CLAWS2:een, manuaalisen tekstin valmistelun tarve ennen merkintäprosessin aloittamista on kadonnut. CLAWS4 sisältää parannuksia, kuten tehokkaamman leksikaalisen yksiselitteisyyden ja oikeinkirjoituksen vaihtelun. Merkintäjärjestelmän jatkotyössä on keskitytty lisäämään automaattisen merkinnän onnistumisastetta ja vähentämään manuaalista tekstien valmistelutyötä ennen merkinnän aloittamista ottamalla käyttöön lisäohjelmistoja, jotka korvaavat manuaalisen työn [2] [7] .
Myöhemmin merkinnät lisättiin osoittamaan tiettyjen sanojen ja ilmaisujen moniselitteisyyttä. Samaan aikaan huolimatta CLAWS4:n kyvystä määrittää automaattisesti puhetyypit ja sanojen merkitykset, manuaalisen merkinnän tarve säilyi, koska CLAWS4 ei tue muita kieliä kuin englantia [8] [9] .
Kaksi alikorporaa (BNC-tietoalajoukot) julkaistiin nimillä BNC Baby ja BNC Sampler. Molemmat näistä alikorpuksista saa tilaamalla ne BNC:n verkkosivuilta [10] .
BNC Baby on BNC:n alikorpus, joka koostuu neljästä miljoonan sanan näytejoukosta. Jokaisen sarjan sanat vastaavat tiettyä genreluokkaa . Yksi näytesarja sisältää keskustelujen transkriptioita, kun taas loput kolme sarjaa sisältävät näytteitä tietokirjallisuudesta, kaunokirjallisuudesta ja sanomalehdistä kirjoitetuista teksteistä . Samanaikaisesti BNC:ssä [11] käytettävissä oleva merkintä säilyy alikorpuksessa . Viimeisin (kolmas) painos julkaistiin XML-muodossa [12] .
BNC Sampler on alirunko, joka koostuu kahdesta osasta. Ensimmäinen osa sisältää kirjallista tietoa, toinen osa puhekieltä. Jokainen osa sisältää miljoona sanaa. BNC Sampleria käytettiin alun perin parantamaan BNC-merkintäprosessia, mikä lopulta johti BNC World -julkaisun julkaisemiseen. Projektin aikana BNC Sampler on kehittynyt, kun kokemus ja tietämys merkinnöistä ovat kasvaneet. Tämän seurauksena luotiin BNC Sampler, jonka tunnemme nykyään [13] .
Korpus on merkitty Text Encoding Initiative (TEI) -konsortion suositusten mukaisesti ja sisältää täydelliset kielelliset huomautukset ja kontekstuaaliset tiedot [14] .
Jotta voit käyttää CLAWS4 Partial Marking Tool -runkoa, sinun on ostettava lisenssi [15] . Vaihtoehtoisesti voit käyttää Lancaster Universityn tarjoamaa merkintäpalvelua [16] .
Itse BNC:tä voi ostaa sekä henkilökohtaisella että kollektiivisella lisenssillä. BNC-versio on saatavana XML-muodossa, ja sen mukana tulee Xaira -hakukoneohjelmisto . Paketin voi tilata BNC:n verkkosivujen kautta [17] .
BNC:n XML-versiota varten kehitettiin corpus manager BNCweb, joka on saatavilla verkossa. Sen käyttöliittymä on helppokäyttöinen ja tukee korpusmateriaalien kyselyä ja analysointia [18] .
BNC oli ensimmäinen kokonsa laajalle yleisölle saatavilla oleva korpus. Ehkä tämä johtui toisaalta tekijänoikeuksien haltijoiden ja konsortion välisistä vakiomuotoisista sopimuksista ja toisaalta korpuksen käyttäjien ja konsortion välillä. Korpuksen luojat pyrkivät solmimaan immateriaalioikeuksien omistajien kanssa vakiolisenssisopimuksen , jonka yhtenä määräyksenä oli materiaalin sisällyttäminen aineistoon ilman rahallisia maksuja. Tällaista sopimusta helpotti tapauksen omaperäisyys ja ainutlaatuisuus [6] .
On kuitenkin osoittautunut vaikeaksi säilyttää kirjoittajien nimettömyys vähättelemättä heidän työnsä merkitystä. Kaikki läpinäkymätön viittaus tekijän henkilöllisyyteen poistettiin korpusmateriaalista. Samalla harkittiin mahdollisuutta korvata oikeat nimet muilla nimillä anonymiteetin säilyttämiseksi, mitä pidettiin kuitenkin sopimattomana [6] .
Lisäksi tekijöiltä pyydettiin alun perin lupaa sisällyttää puheestaan vain litteroitu versio, mutta ei itse puhetta. Vaikka lupa voitaisiin pyytää uudelleen, alkuperäisten kirjoittajien etsiminen voi vaikeutua meneillään olevan anonymisointiprosessin vuoksi. Samalla tuli selväksi tekijöitä, jotka pahensivat tekijänoikeuksien haltijoiden haluttomuutta lahjoittaa aineistoaan korpukselle: kokonaiset tekstit jätettiin pois korpusesta, mikä johti tekijänoikeuksien haltijoiden motivaation puutteeseen levittää tietoa korpuksen kautta (erityisesti sen ei-kaupallinen perusta) [6] .
Vuodesta 2001 lähtien BNC:ltä puuttui vielä kirjoitettujen tekstien luokittelu muiden kuin sfäärien mukaan (sanomalehdet, kaunokirjallisuus jne.) eikä puhuttujen tekstien luokitus muulla tavoin kuin keskustelun osallistujien kontekstin ja demografisen tai sosioekonomisen luokan mukaan. Korpukseen sisältyi esimerkiksi valtava määrä fiktiivisiä tekstinäytteitä ( romaaneja , novelleja , runoja jne.) , mutta tiedot niiden alalajeista puuttuivat näyteotsikoista ja BNC-dokumentaatiosta. Siten tutkijoille genren monimuotoisuuden tuntemus oli käytännössä hyödytöntä, koska heidän ei ollut helppoa saada halutun alalajin teoksia [19] .
Vuonna 2002, kun korpusesta julkaistiin uusi versio - BNC World Edition, luokitusongelmaa yritettiin ratkaista. Puhutun ja kirjoitetun tekstin sfäärien lisäksi tunnistettiin 70 luokkaa, joiden avulla tutkijat pystyivät poimimaan korpuksesta tietyn genren tekstejä [20] .
Näidenkin innovaatioiden jälkeen luokittelun toteuttamisessa on kuitenkin edelleen ongelmia, koska genren tai alalajin osoittamista tekstiin monimutkaistavat erilaiset hienovaraisuudet. Puhutun datan jako luokkiin on vähemmän ilmeinen kuin kirjoitetun datan, koska keskusteluissa on paljon enemmän erilaisia aiheita. Myös minkä tahansa genren alalajin määrittelyssä on ongelmia ja epäselvyyksiä, koska korpuksen alalajeihin jakaminen oli ennalta määrätty standardointitarkoituksiin [20] .
Korpusta luotaessa osa teksteistä oli luokiteltu väärin, usein harhaanjohtavien otsikoiden vuoksi. Esimerkiksi monet tekstit, joiden otsikossa on sana "luento", ovat itse asiassa luokkahuonekeskusteluja tai koulutusseminaareja, joihin osallistuu pieniä ihmisryhmiä, tai suosittuja luentoja, jotka on suunnattu suurelle yleisölle (eikä luentoja yliopisto-opiskelijoille ) [ 19] . Yksi syy luokitteluvirheeseen on se, että genre ja alalaji voidaan määrittää useimmille teksteille, mutta ei kaikille. Lisäksi teksti voi koko pituudeltaan viitata eri alalajeihin, kuulua eri genren määritelmän alle [20] .
BNC:ssä kirjoitetun ja puhutun materiaalin suhde on 10:1 [6] . Tämä johtuu siitä, että miljoonan todellisen puheen sanan keräämisen, litteroinnin ja digitoinnin kustannukset ovat vähintään 10 kertaa suuremmat kuin miljoonan sanomalehtien lisäämisen kustannukset. Kuitenkin ollaan sitä mieltä, että koska suullinen ja kirjallinen puhe ovat yhtä tärkeitä, ne tulisi esittää yhtä suuressa suhteessa korpusessa [6] .
BNC ei ole kovin hyödyllinen puhutun kielen joidenkin ominaisuuksien tutkimisessa, koska siihen sisältyy vain käytännön transkriptioita ja viestinnän paralingvistiset piirteet on osoitettu erittäin pinnallisesti [21] .
Joidenkin leksikaalisten yksiköiden väliset suhteet ovat liian moniselitteisiä, jotta ne löydettäisiin tehokkaasti hakukyselyillä. Kaikki yritykset etsiä attribuuttilauseita antavat käyttäjälle virheellisiä tietoja, jotka tarjoavat esimerkkejä kyselypronominien ja sanan "se" käytöstä. Lisäksi ei yleensä ole mahdollista ohjelmallisesti tunnistaa alalauseita, joissa pronominit jätetään pois (kuten esimerkiksi "mies, jonka näin"). Samasta syystä on vaikea määrittää joidenkin semanttisten ja pragmaattisten kategorioiden käyttöä (epäily, erimielisyys, tunnustaminen) [21] .
Korpuksen materiaalien mukaan on mahdollista määrittää, pitääkö puheen mies vai nainen, mutta niistä on mahdotonta saada selville, puhuuko puhuja miehelle vai naiselle [21] .
BNC on hyvin monipuolinen ja sekalainen korpus, joten se ei sovellu kovinkaan tietyntyyppisten tai -tyyppisten tekstien tutkimiseen, koska tällainen tyyppi tai genre on todennäköisesti erittäin rajallinen ja tämän tyyppisiä tekstejä ei ole helppo löytää. korpuksessa. Esimerkiksi liikekirjeitä tai tallennettuja hallituksen kokouksia on BNC:ssä hyvin vähän, joten niiden erityispiirteiden tutkimiseksi on toivottavaa kerätä pienempi vain tämäntyyppisistä teksteistä koostuva korpus [21] .
Korpusta voidaan käyttää kieltenopetuksessa pääasiassa kahdella tavalla: metodologisen materiaalin luominen ja analyysin kautta oppiminen [21] .
OppimateriaalitKustantajat ja tutkijat voivat käyttää korpuksen näytteitä kieltenoppimissuositusten, opetussuunnitelmien ja muiden opetusmateriaalien luomiseen.
Esimerkiksi joukko japanilaisia tutkijoita käytti BNC:tä työkaluna web-pohjaisen järjestelmän kehittämisessä englannin oppimiseen tietyillä aloilla (liiketoiminta, lääketiede) [22] . Järjestelmä tarjosi opiskelijoille pääsyn yleisimmin käytettyihin lausemalleihin, jotta he voivat oppia näistä esimerkeistä. Tällaisten ehdotusten lähde järjestelmässä oli BNC (ehdotuksiin liitettiin viittaukset BNC:hen hakemuksen todenperäisyyden osoittamiseksi).
Oppiminen analyysin avullaKorpusanalyysi voidaan liittää suoraan kieltenopetusmenetelmiin. Tällöin opiskelijat saavat mahdollisuuden itsenäisesti luokitella korpusen kielitietoa ja muodostaa siten käsityksen tutkittavan kielen malleista ja kyvyistä tämän luokituksen perusteella. Tässä opetusmenetelmässä käytetyt korpustiedot ovat suhteellisen pieniä ja voivat siksi johtaa opiskelua koskevaan kieleen liittyvien käsitysten yleistymiseen, jolla ei voi olla juurikaan tekemistä todellisen asioiden kanssa [21] .
MuutBNC:tä voidaan käyttää lähteenä tekstien luomisessa ja jäsentelyssä, esimerkiksi tutkittaessa yksittäisten sanojen käyttöä eri yhteyksissä. Näin voit tutustua samojen sanojen eri käyttötapoihin [21] .
Kieleen liittyvän tiedon lisäksi BNC voi toimia myös tietosanakirjan lähteenä, kuten brittiläisen kulttuurin ja Isossa-Britanniassa suosittujen stereotypioiden lähteenä [21] .
Intiassa vuonna 2012 yli 12 000 BNC:n sanaa ja ilmausta käytettiin kehittämään 22 käännössanakirjaa paikallisista kielistä englanniksi. Kehitys toteutettiin osana koulutusjärjestelmän uudistamista ja Intian pienten kansojen kielten säilyttämistä [23] .
BNC soveltuu kokonsa vuoksi erinomaisesti käytettäväksi ohjelmistojen testauksen materiaalina [24] . Sitä käytettiin esimerkiksi tekstinkoodausaloitteen (TEI) Markup Language Specifications -testauksessa. Lisäksi 20 miljoonaa sanaa BNC:stä käytettiin alakategorioiden määritysjärjestelmän arvioimiseen Senseval [25] sanamerkitysanalyysiprojektissa .
Hofmannin ja Lehmannin vuonna 2000 tekemä tutkimus, jossa tarkasteltiin mekanismeja, jotka antavat ihmisille mahdollisuuden käsitellä vapaasti valtavaa kollokaatioiden joukkoa . Erityisesti on tutkittu kahta mekanismia, joista toinen mahdollistaa kollokaatioiden olevan aina käyttövalmiina ja toinen mahdollistaa kollokaatioiden helpon laajentamisen kieliopillisesti tai syntaktisesti sopeutuakseen tiettyyn tilanteeseen. Näitä tarkoituksia varten BNC:stä on poimittu harvinaisia sanayhdistelmiä [26] .
Fernandezin ja Ginzburgin vuonna 2002 tekemä tutkimus, jossa tarkasteltiin dialogeja, jotka olivat täynnä puheita, jotka päättyivät vain intuitiivisesti ja jotka eivät sisältäneet kontekstin ulkopuolista tietoa. Pohjimmiltaan nämä ovat tyypillisiä lyhyitä vastauksia kysymyksiin. Tutkimuksen aikana BNC-tiedon fragmentteja käytettiin tällaisten lausuntojen täydellisen ja teoreettisen luotettavan luokituksen laatimiseen [27] .
Luonnollisen kielen käsittelyBNC:tä käytetään laajalti morfologisen käsittelyn alalla ( luonnollisen kielen prosessoinnin haara ). Erityisesti BNC:n dataa käytetään brittienglanniksi tarkoitettujen morfologisten merkkien käsittelytyökalujen tarkkuuden, luotettavuuden ja nopeuden testaamiseen [28] . Lisäksi BNC:n tietoja on käytetty laajan englanninkielisen morfologisten markkereiden tietovaraston luomiseen [28] .
Laskennallisten ja korpuslingvistien keskuudessa on yleisesti hyväksyttyä, että BNC on erinomainen saavutus, valtavan kokoinen korpus. Valtavien ponnistelujen ansiosta suuren tietomäärän keräämiseksi ja edelleen käsittelemiseksi BNC:stä on tullut yksi arvokkaimmista aineistoista. BNC:tä pidetään mallikorpuksena, josta kehitetään myöhempiä korpuja (esim . Amerikan , Tšekin ja Puolan kansalliset corporat) [29] [30] .
Heinäkuussa 2014 Cambridge University Press ja Lancasterin yliopiston yhteiskuntatieteiden tutkimuskeskus ilmoittivat BNC:stä, että uuden British National Corpuksen luomiseksi oli meneillään [31] . Näiden kahden laitoksen yhteishankkeen ensimmäinen vaihe oli uuden brittienglannin puhekieliaineiston kokoaminen 2010-luvun alusta [32] .
Korpuslingvistiikka | |
---|---|
Englanninkieliset corporat |
|
Venäjänkieliset corporit |
|
Corpora muilla kielillä |
|
Organisaatiot |