Kielen tunnistaminen

Kielen tunnistaminen (eng. language identifikaatio ), luonnollisen kielen käsittelymenetelmässä - kielen määrittely . Kielentunnistusongelma on tekstin luokittelun erikoistapaus ja se ratkaistaan tilastollisilla menetelmillä .

Yleiskatsaus

Kielen tunnistamista varten PPRLM-arkkitehtuuri (parallel foneemien tunnistus + kielimalli) on toteutettu useilla kielillä koulutettujen foneettisten tunnistajien rinnakkaiskytkennällä. Foneettinen tunnistus perustuu piilotettuihin Markov-malleihin (HMM) Viterbi-algoritmia käyttäen .

Päätöksen tekemiseksi puheviestin kuulumisesta tiettyyn kohdekieleen toteutetaan lähestymistapa tukivektorikoneisiin (SVM - support vector machines) perustuvalla luokittimella.

Klassisen PPRLM:n pohjalta rakennetun järjestelmän toimintaperiaate on seuraava:

järjestelmässä on useita foneettisia tunnistimia;
Foneettiset tunnistimet tunnistavat jokaisen tuloäänitiedoston;
kunkin foneettisen tunnistimen tuloksena olevan foneemisekvenssin mukaisesti lasketaan tietyn kohdekielen n-gramm-mallin läheisyysmitat;
kieli, jolla on n-grammin mallin suurin läheisyysmitta, katsotaan voittajaksi .

Edistyneissä PPRLM-järjestelmissä kielentunnistus toteutetaan avoimena tehtävänä: kohdekielelle suoritetaan käsitellyn tiedoston "kuuluu" / "ei kuulu" -tarkistus, jonka jälkeen päätös tehdään automaattisesti ottaen huomioon ohjelman asettama kynnys. käyttäjä.

Seuraavat vaiheet lisätään perusalgoritmiin:

tuloksena saatu kunkin foneettisen tunnistimen foneemisekvenssi asetetaan päällekkäin yhden tai toisen "viitekielen" n-grammin mallin kanssa ja otetaan huomioon n-grammin mallin läheisyyden mittaa foneemisekvenssiin ;
n-gramm- mallien ja foneemisekvenssien läheisyyden mittausten täysi joukko on SVM- luokittimen syöttövektori ;
Luokittelutuloksen perusteella SVM-luokittaja tekee päätöksen kohdekieleen kuulumisesta vertaamalla kullekin kohdekielelle asetettuun kynnykseen erikseen.

Äänitiedosto puhutaan kohdekielellä, jos SVM-luokittajan antama pistemäärä on suurempi kuin kynnys. Tässä tapauksessa äänitiedosto voidaan määrittää yhdelle tai useammalle kielelle samanaikaisesti tai sitä ei ole kohdistettu millekään niistä.

Katso myös

Kirjallisuus

Joshua Goodman. Laajennettu kommentti kielipuista ja vetoketjuista . arXiv: cond-mat/0202383 [cond-mat.stat-mech]
Benedetto, D., E. Caglioti ja V. Loreto. Kielipuut ja vetoketju . Physical Review Letters , 88:4 (2002), Kompleksisuusteoria .
Cavnar, William B. ja John M. Trenkle. "N-Gram-pohjainen tekstin luokittelu". Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval (1994) [1] .
Cilibrasi, Rudi ja Paul M. B. Vitanyi. Klusterointi pakkaamalla . IEEE Transactions on Information Theory , 51(4), huhtikuu 2005, 1523-1545.
Dunning, T. (1994) "Kielen tilastollinen tunnistus". Technical Report MCCS 94-273, New Mexico State University, 1994.
Goodman, Joshua. (2002) Laajennettu kommentti aiheesta "Language Trees and Zipping" . Microsoft Research, 21. helmikuuta 2002. (Tämä on kritiikki tietojen pakkaamisesta Naive Bayes -menetelmän puolesta.)
Grafenstette, Gregory. (1995) Vertaamassa kahta kielentunnistusjärjestelmää. Kolmannen kansainvälisen tekstitiedon tilastollisen analyysin konferenssin julkaisuja (JADT 1995).
Poutsma, Arjen. (2001) Monte Carlo -tekniikoiden soveltaminen kielen tunnistamiseen. SmartHaven, Amsterdam. Esitelty CLIN 2001 :ssä .
Taloustieteilijä. (2002) " Tyylin elementit: Pakatun tiedon analysointi johtaa vaikuttaviin tuloksiin kielitieteessä "
Radim Řehůrek ja Milan Kolkus. (2009) " Kielentunnistus verkossa: Sanakirjamenetelmän laajentaminen (linkki ei saatavilla) " Laskennallinen lingvistiikka ja älykäs tekstinkäsittely

Linkit

Kirjastot

LID - Pythonin kielen tunnistus : algoritmi ja koodiesimerkki n-grammiin perustuvasta LID-työkalusta Pythonissa ja Scheme , Damir Cavar.
kansi Kielitunniste : Lingua-Systems; C / C++ -kirjasto ja Perl Extension ( online-demo ).
lc4j, kielten luokitus Java-kirjasto , kirjoittanut Marco Olivo.
Microsoft Extended Linguistic Services for Windows 7 : Microsoft Language Detection mukaan lukien.
Windows 7 API Code Pack for .NET : sisältäen yllä mainitut hallitut rajapinnat.
NTextCat - ilmainen Language Identification API for .NET (C#) : 280+ kieltä saatavilla heti. Tunnistaa tekstin kielen ja koodauksen ( UTF-8 , Windows-1252 , Big5 jne.). Mono yhteensopiva.
jsli on puhdas JavaScript-kielentunnistuskirjasto.
cldr -R-kirjasto Chromium-Author's Compact Language Detection -koodille.
Language-detection : avoimen lähdekoodin kielentunnistuskirjasto Javalle (haarukat: lang-guess ja language-detector ).
cld2 : Googlen avoimen lähdekoodin kielentunnistuskirjasto C++:lle
GuessLanguage : avoimen lähdekoodin kielentunnistuskirjasto javascriptille
GuessLanguage : avoimen lähdekoodin kielentunnistuskirjasto pythonille
Text LanguageDetect : päärynäkielen tunnistus (ei ylläpidetty tällä hetkellä)
datagrammi : avoimen lähdekoodin MIT JavaScript -luokituskirjasto. Luokittele ja tunnista syöttötietojen kielet automaattisesti. Sitä voidaan käyttää mihin tahansa luokitteluun, joka perustuu koulutettuun tietoon.

Verkkopalvelut

Language Identification Web Service : kielentunnistussovellusliittymä (JSON ja XML), joka tunnistaa yli 100 kieltä teksteistä, verkkosivustoista ja asiakirjoista
Language Detection API : yksinkertainen tunnistuskieli API
dataTXT-LI : kielentunnistus RESTful API, osa Dandelion dataTXT:n semanttista API-perhettä (nimen kokonaisuuden purkaminen, tekstin samankaltaisuus jne.)
AlchemyAPI : kielentunnistussovellusliittymä, saatavana SDK:na ja RESTfull API:n kautta ( verkkopohjainen esittely ).
PetaMem Language Identification : tarjoaa valinnan ngram-, nvect- ja älykkäiden menetelmien välillä.
Avaa Xerox LanguageIdentifier , saatavana verkkopohjaisessa muodossa tai API:n kautta.
GlobalNLP : verkkopohjainen tunnistuskieli
Kielentunnistin , online-tunnistus tekstistä tai URL-osoitteesta ja API kehittäjien käytettävissä.
Mikä kieli Tämä on? Online-kielitunniste : verkkopohjainen työkalu, jonka on kirjoittanut Henrik Falck.
Rosette Language Identifier : Basis Technologyn tuote.
Kielitunniste : Sematextin tuote; paljastaa Java API:n ja on saatavilla REST/Webservicen kautta.
G2LI (Global Information Infrastructure Laboratoryn kielitunnus) .
IMT Holdingsin Rosoka Cloud tarjoaa kielitunnuksen, kokonaisuuden ja suhteen purkamisen RESTfull-verkkopalvelut, jotka ovat saatavilla Amazon Web Services Marketplacen kautta.
Semantrian tunne- ja tekstianalytiikkasovellusliittymä, joka sisältää kielentunnistuksen
Loque.la Language Detection API : Verkkosivuston kielen tunnistaminen API:lla (json/XML)
Stel KS Kielentunnistus : Kielentunnistussovellusliittymä (11 kieltä)

luonnollisen kielen käsittely
Yleiset määritelmät	Tekstien runko puhekorpus Lopeta sanat pussi sanoja AI täydellisyys N-grammaa Biggramin salaus trigrammi
Tekstianalyysi	Tekstin segmentointi Osittainen merkintä Pinnan jäsennys Yhdistetty tekstinkäsittely Kollokaatioiden purkaminen johdettu Lemmatisaatio Nimetyn kokonaisuuden tunnistus Resoluutio Tekstin tunneanalyysi Käsitteen purkaminen jäsentäminen Leksikaalisen polysemian ratkaisu Pura terminologia Tietojen talteenotto Kielen tunnistaminen Tapauksen määritelmä
Viittaus	lauseiden purkaminen Abstrakti sukupolvi Usean asiakirjan viittaus Tekstin yksinkertaistaminen
Konekäännös	automatisoitu Hybridi Interlingual Sääntöön perustuva Esimerkkien perusteella Sanakirjapohjainen Perustuu muunnokseen hermostoa Tilastollinen Synkroninen
Tunnistaminen ja tiedonkeruu	Puheentunnistus puhesynteesi Optinen hahmon tunnistus Tekstin luominen
Temaattinen malli	Pachinkon sijoitus Piilevä Dirichlet-sijoitus Piilevä semanttinen analyysi
Vertaisarviointi	Esseiden automaattinen arviointi Konkordanssi Ennustava tekstinsyöttö Kieliopin tarkistus Oikoluvun tarkistus Syntaksin arvaus
Luonnollisen kielen käyttöliittymä	virtuaalinen avustaja Virtuaalinen keskustelukumppani Kysymys ja vastaus järjestelmä Äänikäyttöliittymä Interaktiivinen kirjallisuus