Tatoeba projekti | |
---|---|
URL-osoite | tatoeba.org |
kaupallinen | Ei |
Sivuston tyyppi | Avaa monikielinen online-lausesanakirja |
Rekisteröinti | Vaaditaan vain muokkausta varten |
Kieli (kielet) | 19 käyttöliittymäkieltä, mukaan lukien venäjä ; sisältöä 130 kielellä (toukokuu 2013) |
Omistaja | Trang Ho |
Tekijä | Trang Ho |
Työn alku | 2006 |
Nykyinen tila | Todellinen [1] |
Mediatiedostot Wikimedia Commonsissa |
Tatoeba- projekti (japanin kielen sanasta tatoeba ( jap. 例えば, "esimerkiksi") on sivusto, jossa vaihdetaan esimerkkejä lauseista kaikilla maailman kielillä. Toisin kuin online-sanakirjat, jotka tallentavat sanojen käännöksiä, projekti keskittyy kiinteitä semanttisia rakenteita - lauseita, lauseita, sananlaskuja jne., niiden eri kielillä kertyneitä vastineita verrataan toisiinsa manuaalisesti tai automaattisesti. Projektin ominaisuus on sen avoimuus ja yleinen saatavuus: Tatoeba on julistettu ei-kaupalliseksi projekti [2] , ja kuka tahansa voi erikoisalasta ja kielitaustasta riippumatta tehdä muutoksia projektitietokantaan (lisätä ja joissain tapauksissa muokata olemassa olevia lauseita, korjata virheitä).
Näiden ominaisuuksien ansiosta Tatoeba-projekti on vähitellen saamassa tunnustusta ainutlaatuisena itseohjautuvan oppimisen välineenä [3] . Joulukuussa 2010 projekti tuki 81 kieltä ja tarjosi 11 kieliliittymävaihtoehtoa; marraskuussa 2011 nämä luvut olivat 94 ja 17; tammikuussa 2014—132 ja 19.
Projektin luoja ja johtaja on vietnamilaista alkuperää oleva ranskalainen Chang Ho ( Trang Ho ) [4] . Ensimmäiset esimerkit sivustosta on päivätty 30. syyskuuta 2007 [5] . Lause #1 on käyttäjältä sysko: se on kiinalainen lause "Katsotaan!" [6] .
Projektin periaatteena on kerätä ja linkittää tietyn lauseen käännökset tietyllä kielellä. Järjestelmä analysoi kaikki vastaanotetut tiedot. Jos konstruktio A käännetään toiselle kielelle konstruktina B ja se puolestaan konstruktina C, niin kaikki kolme näytetään suorien tai epäsuorien käännösten ketjuna, joka näytetään oletusarvoisesti haettaessa mitä tahansa fragmenteista. vastaavista lauseista A, B ja C (yksittäiset käyttäjät voivat rajoittaa näytettävien kielten määrää).
Kaikki voivat tarkastella kertynyttä materiaalia, vain rekisteröityneet voivat lisätä ja muokata sitä. Jäsenet, joilla on kokemusta, voivat saada tilan "luotettu" ("luotettu käyttäjä"). Se antaa pääsyn tunnisteisiin, ja sen avulla voit myös linkittää riittävät käännökset toisiinsa tai "leikata" riittämättömät. Rajoitetulla hankkeen osallistujien ryhmällä on "huoltajien" (korpuksen ylläpitäjien) asema, joilla on hallinnolliset valtuudet.
Toisin kuin oppikirjat, verkkosanakirjat ja foorumit, Tatoeba-projektia ei ole suunnattu tietylle kielelle tai ammattikäyttöön. Jokainen, jolla on peruslukutaidot, voi rekisteröidä ja täydentää lauseesimerkkejä äidinkielellään tai kohdekielellään [2] . Työssä käyttäjille tarjotaan täysi valikoima saatavilla olevia kieliä tai mahdollisuus lukea valikoivasti alkuperäisen kielen ja/tai käännöksen merkinnällä. Samaan aikaan omissa Tatoeba-käännöksissäsi on suositeltavaa keskittyä vain alkuperäiseen, koska siihen liittyvät käännökset voivat olla epätarkkoja [2] . Keskustelu käännöksen vivahteista on mahdollista siellä kunkin ehdotuksen kommenteissa.
Tällä tavalla kertynyttä materiaalia voidaan jakaa maksutta kaikenlaiseen käyttöön, mukaan lukien kaupalliseen käyttöön, kun se lähetetään lähteelle CC-BY-lisenssillä [7] . Sivustolla on linkkejä, joista voit ladata koko materiaalikokoelman [8] tai sen osia [9] . Ainoa sisältörajoitus on Ranskan lain mukaan tekijänoikeudella suojattujen lauseiden kielto.
Jokaiselle lauseelle annetaan sarjanumero, kun se lähetetään alustalle, mutta jotkin lisäykset (konekäännös, kaksoiskappaleet, keskeneräiset lauseet jne.) poistetaan myöhemmin. Poistoprosentti voidaan laskea vertaamalla viimeistä sarjanumeroa (avaa etusivun viimeisimpien kirjoitusten luettelon ylin lause) etusivun lauselaskuriin. Esimerkiksi 12.12. Vuonna 2011 ne olivat 1295340 ja 1241274.
Kieliopillisesti oikeat lauseet, jotka eivät täsmää hyvin käännösten kanssa, voidaan hajottaa (lakata näkymästä merkkijonona), mutta niitä ei voida poistaa. Ne tallennetaan projektikantaan uusien käännösten lähtökohtina. Jokaisen lauseen muutoshistoria sekä niiden väliset yhteydet / katkaisut on liitetty jokaiseen lauseeseen ja näkyvät kaikille käyttäjille.
Heinäkuusta 2019 lähtien sivusto tukee teknisesti 342 kieltä. [10] Sivuston alkuperäinen lähde oli prof. Yasuhiro Tanaka . Joulukuussa 2010 Tatoeba sisälsi yli 648 000 tuomiota; huhtikuussa 2012 tämä luku oli lähes 1,5 miljoonaa, tammikuun 12. päivänä se oli 2 037 379. Suurin määrä lauseita (laskevassa järjestyksessä, helmikuu 2013):
Lisäksi lauseita on yli tuhat seuraavilla kielillä: arabia , islanti , hindi , uiguuri , vietnam , norja ( bokmål ), valkovenäläinen , shanghailainen ja kantonilainen kiina.
Luonnollisten kielten ohella projektissa esiintyy keinotekoisia kieliä : Esperanto , Klingon , Interlingua , CycL , Tokipona .
Aluksi uuden kielen käyttöönottamiseksi riitti vain ottaa yhteyttä ylläpitäjiin ja kirjoittaa siihen viisi esimerkkiä. Myöhemmin käyttöönotetun kielen sertifioinnista ISO 639-3 -standardin mukaan tuli välttämätön vaatimus . Kun haet uuden kieliosion lisäämistä, voit tarjota lippusymbolin, joka osoittaa sen sivustolla; tämän graafisen merkin ei vaadita edustamaan tiettyä nykyaikaista tai olemassa olevaa tilaa [11] .
Lauseiden kirjallisen välittämisen lisäksi Tatoeba-alusta kerää niiden ääntämisen. (Siksi osallistujat eivät saa kirjoittaa lauseita, joissa on suluissa kieliopillisten ja leksikaalisten muotojen muunnelmia, jotka vaatisivat useamman kuin yhden lukuvaihtoehdon). Osallistuaksesi ääniosion täydentämiseen sinun on läpäistävä akkreditointi, joka todistaa tallennettujen esimerkkien laadun. [1] Tästä syystä Tatoeban ääniosat valmistuvat suhteellisen hitaasti.
Avoimuus ja saavutettavuus yhdistettynä sivuston käyttäjäystävällisyyteen ovat johtaneet sen suosion tasaiseen kasvuun. (Verkkosivuston aktiivisuuskaavio [12] tallentaa uusien kieliesimerkkien määrän 30. syyskuuta 2007 lähtien). Joulukuussa 2010 päivittäin kävijöitä oli n. 1800 [13] , jotka lisäsivät puolitoista kahteen tuhatta esimerkkiä päivässä. Vuoteen 2013 mennessä toinen luku oli noussut 2,5-3 tuhanteen.
Tatoeba edistää Internetin avoimuutta ja vapautta Mozilla Drumbeat -projektissa useiden sadan muun osallistuvan projektin joukossa.
Tatoeba tukee monia sähköisiä sanakirjoja ja kääntäjiä, kuten japanilaista sähköistä sanakirjaa WWWJDIC [14] . Tatoeba tekee yhteistyötä Shtooka -projektin kanssa, joka on ilmainen kokoelma sanoja, lauseita, sananlaskuja jne. eri kielillä [15] . Alustamateriaalia käytetään Glosben sähköisissä sanakirjoissa [16] .
Tatoeban pohjalta kehitettiin sovellus kielten itseopiskeluun käyttämällä tietokoneen flash-kortteja TaToTen [17] .
Korpuslingvistiikka | |
---|---|
Englanninkieliset corporat |
|
Venäjänkieliset corporit |
|
Corpora muilla kielillä |
|
Organisaatiot |