Tataarin kielen kirjallinen korpus | |
---|---|
URL-osoite | corpus.tatar |
Sivuston tyyppi | tekstien runko |
Kieli (kielet) | tataari/venäläinen/englanti |
Palvelimen sijainti | Tatarstan |
Tekijä | Sayhunov M.R., Ibragimov T.I., Khusainov R.R. |
Työn alku | 2011 |
Nykyinen tila | Toimii ja kehittyy |
Tataarin kielen kirjallinen korpus on tataarin kielen sähköinen korpus, joka on saatavilla verkossa. Korpus on tarkoitettu tataarin kielen järjestelmästä, tilasta ja tulevaisuudennäkymistä kiinnostuneille. Se on välttämätön kielitieteilijöille, jotka opiskelevat tataarin kieltä korpuslingvistiikan puitteissa.
Sivusto avattiin 15.3.2012. Nykyinen osoite on http://corpus.tatar Arkistoitu 26. huhtikuuta 2016 Wayback Machinessa .
Saatavilla tatariksi, venäjäksi ja englanniksi.
Korpuksen määrässä on vuoden 2014 lopusta lähtien yli 116 miljoonaa sanaa, jotka muodostavat yli 10 miljoonaa lausetta, eri sanamuotojen määrä lähestyy 1,5 miljoonaa.
Korpuksen tekstit on tallennettu erillisiksi lauseiksi, jotta estää niiden kopioimisen.
Rakennuksen käyttöön on vapaa pääsy.
Tapauksen luominen aloitti vuonna 2010 ryhmä harrastajia. Sen saneli tarve kehittää järjestelmä tekstien konekääntämiseksi tatarista vieraalle kielelle ja päinvastoin, sekä järjestelmä tataripuheen automaattiseen synteesiin ja tunnistamiseen tietyssä aiheesta.
Korpusta voivat käyttää tataarin kieltä opiskelevat kielitieteilijät osana korpuskielitiedettä sekä kielen opetuksessa ja viitteenä erilaisten asiakirjojen kokoamisessa.
Korpuksen avulla voit tarkastella kontekstia, määrittää esiintymistiheyden ja etsiä sanoja, joilla on vaaditut ominaisuudet.
Tämäntyyppinen haku Arkistoitu 26. huhtikuuta 2016 Wayback Machinessa mahdollistaa haetun sanan oikean, vasemman ja semanttisen kontekstin tarkastelun tiheyden mukaan lajiteltuina.
Oikea konteksti - sanat, jotka sijaitsevat välittömästi nykyisen sanan jälkeen.
Vasen konteksti on sanat välittömästi ennen nykyistä sanaa.
Semanttinen konteksti - sanat, jotka sijaitsevat samassa lauseessa nykyisen sanan kanssa, eli joilla on semanttinen yhteys siihen jossain määrin.
Vuonna 2014 joukkoon tehtiin morfologinen merkintä. Kielioppimerkkien metakieli perustuu turkkilaisten kielten "tagi"-järjestelmään, jonka on kehittänyt kansainvälinen projekti Apertium Archived 14. huhtikuuta 2016 Wayback Machinessa . Osana tätä projektia luodaan konekäännösjärjestelmä useille kielille. Tärkeimmät perustelut Apertiumin morfologisen tunnisteen valitsemisen puolesta kirjallisen rungon merkitsemiseen ovat:
— morfologisen huomautuksen korkea laatu;
- Tämän projektin ehdoton avoimuus: kaikki lähdekoodit ja kehitystyöt ovat julkisesti kaikkien saatavilla ilmaiseksi.
Vuosina 2015-2016 kehittämämme monimutkainen morfologinen hakujärjestelmä , arkistoitu 26. huhtikuuta 2016 Wayback Machinella , mahdollistaa haun Corpuksesta erilaisten parametrien yhdistelmien perusteella, kuten sanamuoto, lemma, joukko morfologisia (kieliopillisia) tunnisteita, sanan alku, keskikohta ja loppu sekä mahdolliset lekseemien väliset etäisyydet.
Tataarin kielen kirjallisen rungon verkkosivuilla on mahdollista kuunnella sekä löydettyjä lauseita että vapaata tekstiä . Arkistoitu 26. huhtikuuta 2016 Wayback Machinessa .
Corpus-verkkosivustolla on erilaisia tilastotietoja Wayback Machinessa 26.4.2016 päivätty arkistokopio , jonka kirjoittajat saavat käsiteltäessä tietoja.
Korpuksen tekijöitä ovat:
Avustajana: