Tataarin kielen kirjallinen korpus

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 25. joulukuuta 2017 tarkistetusta versiosta . tarkastukset vaativat 2 muokkausta .
Tataarin kielen kirjallinen korpus
URL-osoite corpus.tatar
Sivuston tyyppi tekstien runko
Kieli (kielet) tataari/venäläinen/englanti
Palvelimen sijainti Tatarstan
Tekijä Sayhunov M.R., Ibragimov T.I., Khusainov R.R.
Työn alku 2011
Nykyinen tila Toimii ja kehittyy

Tataarin kielen kirjallinen korpus on tataarin kielen  sähköinen korpus, joka on saatavilla verkossa. Korpus on tarkoitettu tataarin kielen järjestelmästä, tilasta ja tulevaisuudennäkymistä kiinnostuneille. Se on välttämätön kielitieteilijöille, jotka opiskelevat tataarin kieltä korpuslingvistiikan puitteissa.
Sivusto avattiin 15.3.2012. Nykyinen osoite on http://corpus.tatar Arkistoitu 26. huhtikuuta 2016 Wayback Machinessa .
Saatavilla tatariksi, venäjäksi ja englanniksi.

Rungon tilavuus

Korpuksen määrässä on vuoden 2014 lopusta lähtien yli 116 miljoonaa sanaa, jotka muodostavat yli 10 miljoonaa lausetta, eri sanamuotojen määrä lähestyy 1,5 miljoonaa.
Korpuksen tekstit on tallennettu erillisiksi lauseiksi, jotta estää niiden kopioimisen.

Pääsy

Rakennuksen käyttöön on vapaa pääsy.

Tietoja joukkojen rakentamisesta

Tapauksen luominen aloitti vuonna 2010 ryhmä harrastajia. Sen saneli tarve kehittää järjestelmä tekstien konekääntämiseksi tatarista vieraalle kielelle ja päinvastoin, sekä järjestelmä tataripuheen automaattiseen synteesiin ja tunnistamiseen tietyssä aiheesta.

Käytännön merkitys ja käyttömahdollisuudet

Korpusta voivat käyttää tataarin kieltä opiskelevat kielitieteilijät osana korpuskielitiedettä sekä kielen opetuksessa ja viitteenä erilaisten asiakirjojen kokoamisessa.
Korpuksen avulla voit tarkastella kontekstia, määrittää esiintymistiheyden ja etsiä sanoja, joilla on vaaditut ominaisuudet.

Asiayhteyteen perustuva tilastohaku

Tämäntyyppinen haku Arkistoitu 26. huhtikuuta 2016 Wayback Machinessa mahdollistaa haetun sanan oikean, vasemman ja semanttisen kontekstin tarkastelun tiheyden mukaan lajiteltuina.
Oikea konteksti - sanat, jotka sijaitsevat välittömästi nykyisen sanan jälkeen.
Vasen konteksti on sanat välittömästi ennen nykyistä sanaa.
Semanttinen konteksti - sanat, jotka sijaitsevat samassa lauseessa nykyisen sanan kanssa, eli joilla on semanttinen yhteys siihen jossain määrin.

Monimutkainen morfologinen haku

Vuonna 2014 joukkoon tehtiin morfologinen merkintä. Kielioppimerkkien metakieli perustuu turkkilaisten kielten "tagi"-järjestelmään, jonka on kehittänyt kansainvälinen projekti Apertium Archived 14. huhtikuuta 2016 Wayback Machinessa . Osana tätä projektia luodaan konekäännösjärjestelmä useille kielille. Tärkeimmät perustelut Apertiumin morfologisen tunnisteen valitsemisen puolesta kirjallisen rungon merkitsemiseen ovat:
— morfologisen huomautuksen korkea laatu;
- Tämän projektin ehdoton avoimuus: kaikki lähdekoodit ja kehitystyöt ovat julkisesti kaikkien saatavilla ilmaiseksi.
Vuosina 2015-2016 kehittämämme monimutkainen morfologinen hakujärjestelmä , arkistoitu 26. huhtikuuta 2016 Wayback Machinella , mahdollistaa haun Corpuksesta erilaisten parametrien yhdistelmien perusteella, kuten sanamuoto, lemma, joukko morfologisia (kieliopillisia) tunnisteita, sanan alku, keskikohta ja loppu sekä mahdolliset lekseemien väliset etäisyydet.

Tataarin puhesynteesijärjestelmä

Tataarin kielen kirjallisen rungon verkkosivuilla on mahdollista kuunnella sekä löydettyjä lauseita että vapaata tekstiä . Arkistoitu 26. huhtikuuta 2016 Wayback Machinessa .

Tilastot

Corpus-verkkosivustolla on erilaisia ​​tilastotietoja Wayback Machinessa 26.4.2016 päivätty arkistokopio , jonka kirjoittajat saavat käsiteltäessä tietoja.

Haitat ja kehitysnäkymät

Kääntäjät

Korpuksen tekijöitä ovat:

Avustajana:

Kirjallisuus [1]

Muistiinpanot

  1. Tataarin kielen kirjallinen korpus . Haettu 22. huhtikuuta 2016. Arkistoitu alkuperäisestä 25. huhtikuuta 2016.

Linkit