Wikisanakirja | |
---|---|
Englanti Wikisanakirja | |
URL-osoite | wiktionary.org |
kaupallinen | Ei |
Sivuston tyyppi | Verkko sanakirja |
Rekisteröinti | Valinnainen |
Kieli (kielet) | 170 |
Palvelimen sijainti | Miami |
Omistaja | Wikimedia Foundation |
Tekijä | Jimmy Wales |
Työn alku | 12. joulukuuta 2002 |
Mediatiedostot Wikimedia Commonsissa |
Wikisanakirja on vapaasti päivitettävä monikielinen monikielinen sanakirja ja tesaurus , joka perustuu wikimoottoriin . Yksi Wikimedia Foundationin projekteista . Ilmestyi alun perin englanniksi 12. joulukuuta 2002 .
Sanakirja sisältää kieliopillisia kuvauksia, sanojen tulkintoja ja käännöksiä . Lisäksi artikkelit voivat heijastaa tietoa sanojen etymologiasta , foneettisista ominaisuuksista ja semanttisista suhteista. Näin ollen Wikisanakirja on yritys yhdistää kielioppi- , selitys- , etymologiset ja monikieliset sanakirjat sekä tesaurus yhdeksi tuotteeksi.
Wikisanatietoa käytetään aktiivisesti erilaisten tekstin ja puheen koneelliseen käsittelyyn liittyvien ongelmien ratkaisemisessa .
Wikisanakirjan eri kieliosien sekä Wikimediasäätiön sanaston ja muiden projektien avustajien välisen keskinäisen suhteen ansiosta kunkin projektin osallistujat voivat käyttää muiden kielten puhujien luomia käsitteitä, työkaluja ja leksikografisia materiaaleja. Sanakirjan eri kieliosien työskentelyn aikana muodostui monimutkainen käsite universaalista leksikografisesta resurssista, joka tuli ensimmäistä kertaa mahdolliseksi sähköisten tekniikoiden ansiosta. Käsite olettaa viime kädessä täydellisen, kattavan kuvauksen kaikkien luonnollisten (ja keinotekoisten peruskielten) kaikista leksikaalisista yksiköistä, joilla on kirjoitettu kieli. Kuvauksen täydellisyys tarkoittaa tiedon saatavuutta leksikaalisen yksikön fonetiikasta, morfologiasta, syntaktisista ja semanttisista ominaisuuksista, sen etymologiasta, yhteensopivuudesta ja fraseologiasta. Tämän käsitteen toteutuksen täydellisyys ja johdonmukaisuus voivat vaihdella projektin eri kieliosissa.
Jokaisessa kieliosiossa "otsikkokieli" on keskeinen - kaikki artikkelit kirjoitetaan yksinomaan sillä, lisäksi tavoitteena on antaa tämän kielen sanojen ja muiden yksiköiden käännöksiä mahdollisimman monelle muille kielille. Muiden kielten sanat käännetään pääsääntöisesti vain tälle "nimikielelle". Joten venäjänkielisessä wikisanakirjassa venäjän sanoille annetaan tulkintoja ja käännöksiä vieraille kielille, vieraille sanoille annetaan tulkintojen sijasta käännökset venäjäksi .
Morfologiaa kuvattaessa käännöksestä pyritään antamaan mahdollisimman täydellinen kuva, mukaan lukien käännösluokan osoitus. Erityisesti venäläisten lekseemien morfologiset tiedot annetaan A. A. Zaliznyakin ehdottaman luokituksen mukaisesti .
Wikisanakirjan täydentämiseksi on luotu laaja bibliografia , ja englanninkielinen Wikisanakirja on kehittänyt säännöt termin sisällyttämiseksi sanakirjaan (katso Sisällytyksen kriteerit ). Toisin kuin venäläisessä Wikipediassa , jossa aineiston valinnassa etusija on arvovaltaisilla lähteillä [Note 1] , venäjän Wikisanakirjassa artikkelin toimittajan [Note 2] tekemä sanankäytön analyysi vallitsee .
Wikisanakirja sisältää seuraavat semanttiset suhteet: synonyymit , antonyymit , hypernyymit , hyponyymit , kohyponyymit , holonyymit , meronyymit , paronyymit .
Wikisanakirja ei sisällä yksityiskohtaisia kuvauksia tosiseikoista ja tietosanakirjasta. Wikisanakirjassa on kuitenkin ainutlaatuista tietoa, jota ei löydy Wikipediasta: kollokaatiot, sanonnat, lyhenteet, lyhenteet, kirjoitusvirheiden kuvaukset, yksinkertaistetut/korruptoituneet sanamuodot/ääntämiset, kiistanalaiset käyttötapaukset, protologismit , onomatopoeia , erilaiset tyylit (esim. alueet [1] . Näin ollen Wikipedia ja Wikisanakirja täydentävät toisiaan.
Wikisanakirja on samanlainen kuin Wikipedia siinä mielessä, että (1) Wikisanakirjassa on sisäisiä linkkejä sanoja koskeviin merkintöihin, (2) on luokkia, (3) interwikit linkittävät samaa sanaa koskeviin merkintöihin vieraan kielen sanakirjassa [1] .
Wikisanakirjan venäjänkielinen osio luotiin keväällä 2004 . Puolentoista vuoden ajan se ei käytännössä kehittynyt, vaan täydentyi satunnaisesti, pääasiassa heikkolaatuisella materiaalilla. Tilanne alkoi muuttua loppuvuodesta 2005 - alkuvuodesta 2006 .
Vuonna 2006 Schwallexin ensimmäinen ylläpitäjä nimitettiin , artikkelien määrä kasvoi lähes nelinkertaiseksi edelliseen vuoteen verrattuna, luotiin tehokkaat työkalut morfologian kuvaamiseen ja kehittynyt semanttisten kategorioiden järjestelmä alkoi muotoutua.
Syksyyn 2006 mennessä venäjänkielisen wikisanakirjan merkintöjen määrä oli saavuttanut 10 000; sitten, kiitos botin luomisen, joka käyttää Wikisanakirjan muiden osien sanakirjoja luomaan tyhjiä artikkeleita venäjänkieliseen osioon, noin 70 000 artikkelia lisättiin puolentoista kuukauden aikana. 7. marraskuuta 2006 Wikisanakirja ylitti 80 000 rajan, ja 10. joulukuuta 2006 saavutettiin 100 000 merkinnän virstanpylväs. 17.12.2018 artikkelien määrä ylitti 1 000 000. Aktiivisia osallistujia oli noin 230.
Toisin kuin perinteisten sanakirjojen kohdalla, Wikisanakirjan täydellisyyttä ei voida riittävästi arvioida muodollisella merkintöjen lukumäärällä. Automaattinen laskuri ei tee eroa puolityhjien levyjen ja todella informatiivisten artikkeleiden välillä, eikä se myöskään ota huomioon kieltensisäistä ja kieltenvälistä homonyymiaa. Esimerkiksi sanakirjamerkintä boori on lueteltu yhtenä merkintänä, sillä välin tässä artikkelissa kuvataan useita homonyymejä venäjän kielen lekseemejä sekä samannimiä lekseemejä muilla kielillä (bulgaria, tatari), - perinteisissä sanakirjoissa tämä aineisto järjestettäisiin ja otettaisiin huomioon usean merkinnän muodossa.
Elokuusta 2008 lähtien venäjänkielinen Wikisanakirja nousi tietokannan koon suhteen ykköseksi kaikkien wikisanakirjojen joukossa [3] . Samaan aikaan venäjänkielisen wikisanakirjan merkintöjen määrä ei ole suurin [4] . Tämä johtuu osittain siitä, että projekteissa, joissa on enemmän artikkeleita kuin venäjän wikisanakirjassa, artikkeleiden keskikoko voi olla pienempi, kuten voidaan nähdä tilastosivustolla [5] .
Lisäksi venäjänkielinen Wikisanakirja sisältää muihin Wikisanakirjan osioihin verrattuna suuremman määrän lisätietoa, mukaan lukien hakutaulukot, luettelot usein esiintyvistä sanoista jne. (toisin kuin sanakirjamerkinnät, jotka muodostavat ns. päänimitilan, tällaiset tiedot ovat sijoitettu osiin ”, “Indeksit” jne.). Merkittävä osa venäjän wikisanakirjan merkinnöistä on edelleen robottien luomia tyhjiä kohtia. Vaikka joskus voi kohdata kritiikkiä suuresta määrästä tyhjiä artikkeleita, tällaisella esimerkinnällä on monia etuja. Ensinnäkin se auttaa luomaan artikkeleita nopeammin sisällyttämällä valmiiksi joitain tietoja, kuten kuvattavan sanan puheosan. Toiseksi artikkelien rakennetta standardoidaan. Mallien laajan käytön ansiosta (jotka yleensä botit jättävät heti alas luodessaan artikkeleita automaattisesti), on mahdollista muuttaa keskitetysti useiden artikkelien ulkoasua kerralla. Suuri määrä malleja auttaa myös suorittamaan jo luotujen artikkeleiden automaattista lisämuokkausta - esimerkiksi laskemaan käännöksen automaattisesti valmiiksi valmistettujen sanakirjojen mukaan (koska robottien on helpompi navigoida artikkelin rakenteessa on jo merkitty erikoisrakenteilla, ei ihmiskielellä). Venäjän wikisanakirjan erottuva piirre on hyvin kehittynyt kehityskonsepti (joka löytyy pääsivulta). Hyvin kehittyneen konseptin ja mallipohjien laajan käytön ansiosta venäjän wikisanakirjan artikkelit näyttävät enemmän samantyyppisiltä kuin monissa muissa projekteissa (osien määrä, järjestys, jossa ne näkyvät, kunkin osion suunnittelu ovat pohjimmiltaan sama).
Kirjoittajat laskivat kahdessa Wikisanakirjassa (kuvitettu) venäjänkielisten sanojen sanakirjamerkintöjen määrän, tulkintojen kanssa ja ilman tulkintoja. Englanninkielisen wikisanakirjan toimittajien politiikka (ei luoda tyhjiä artikkeleita) vahvistettiin: vain 5,57% sanakirjamerkinnöistä venäjän sanoista ilman tulkintaa. Venäjän wikisanakirjassa on 60,39% tällaisista artikkeleista. Kuitenkin venäjänkielisessä Wikisanakirjassa (vuodesta 2011) on lähes 3,4 kertaa enemmän merkintöjä, joissa on tulkintoja venäjän sanoille kuin englanninkielisessä Wikisanakirjassa: 53,6 tuhatta vastaan 15,7 tuhatta [2] .
Wikisanakirjan leksikografisen tiedon käyttämiseksi automaattisen tekstin ja puheenkäsittelyn ongelmien ratkaisemisessa on välttämätöntä muuntaa sanakirjamerkintöjen tekstit ( puolistrukturoitu data [6] ) koneellisesti luettavaan muotoon [7] [8] [9] .
Tietojen poimiminen wikisanakirjoista ei ole helppo tehtävä. Seuraavat vaikeudet voidaan tunnistaa [10] : (1) säännölliset ja usein tapahtuvat muutokset sekä tiedoissa että artikkeleiden rakenteessa, (2) eri wikisanakirjoilla on erilainen artikkelien rakenne ja muoto [Huomio 3] , (3) wikitekniikka on alun perin keskittynyt helppokäyttöisyyteen ihmisten, ei koneellisesti.
Eri wikisanakirjoille on olemassa useita jäsentimiä [11] :
Wikisanakirjoilla ratkaistaan erilaisia tekstin ja puheen käsittelyyn liittyviä tehtäviä [19] :
Wikipedian artikkeleiden tulee perustua julkaistuihin arvovaltaisiin lähteisiin .
Jos jonkin kieliyksikön jostakin kuvatuista ominaisuuksista on erimielisyyksiä, etusija (todisteen suhteen) annetaan korpuslähteille.
Sosiaalisissa verkostoissa | |
---|---|
Sanakirjat ja tietosanakirjat |
Wikimedia Foundation | ||||||
---|---|---|---|---|---|---|
Ihmiset |
| |||||
Projektit |
| |||||
muu |
| |||||
Liittyvät |
|