Kielen tunnistaminen
Kielen tunnistaminen (eng. language identifikaatio ), luonnollisen kielen käsittelymenetelmässä - kielen määrittely . Kielentunnistusongelma on tekstin luokittelun erikoistapaus ja se ratkaistaan tilastollisilla menetelmillä .
Yleiskatsaus
Kielen tunnistamista varten PPRLM-arkkitehtuuri (parallel foneemien tunnistus + kielimalli) on toteutettu useilla kielillä koulutettujen foneettisten tunnistajien rinnakkaiskytkennällä. Foneettinen tunnistus perustuu piilotettuihin Markov-malleihin (HMM) Viterbi-algoritmia käyttäen .
Päätöksen tekemiseksi puheviestin kuulumisesta tiettyyn kohdekieleen toteutetaan lähestymistapa tukivektorikoneisiin (SVM - support vector machines)
perustuvalla luokittimella.
Klassisen PPRLM:n pohjalta rakennetun järjestelmän toimintaperiaate on seuraava:
- järjestelmässä on useita foneettisia tunnistimia;
- Foneettiset tunnistimet tunnistavat jokaisen tuloäänitiedoston;
- kunkin foneettisen tunnistimen tuloksena olevan foneemisekvenssin mukaisesti lasketaan tietyn kohdekielen n-gramm-mallin läheisyysmitat;
- kieli, jolla on n-grammin mallin suurin läheisyysmitta, katsotaan voittajaksi .
Edistyneissä PPRLM-järjestelmissä kielentunnistus toteutetaan avoimena tehtävänä: kohdekielelle suoritetaan käsitellyn tiedoston "kuuluu" / "ei kuulu" -tarkistus, jonka jälkeen päätös tehdään automaattisesti ottaen huomioon ohjelman asettama kynnys. käyttäjä.
Seuraavat vaiheet lisätään perusalgoritmiin:
- tuloksena saatu kunkin foneettisen tunnistimen foneemisekvenssi asetetaan päällekkäin yhden tai toisen "viitekielen" n-grammin mallin kanssa ja otetaan huomioon n-grammin mallin läheisyyden mittaa foneemisekvenssiin ;
- n-gramm- mallien ja foneemisekvenssien läheisyyden mittausten täysi joukko on SVM- luokittimen syöttövektori ;
- Luokittelutuloksen perusteella SVM-luokittaja tekee päätöksen kohdekieleen kuulumisesta vertaamalla kullekin kohdekielelle asetettuun kynnykseen erikseen.
Äänitiedosto puhutaan kohdekielellä, jos SVM-luokittajan antama pistemäärä on suurempi kuin kynnys. Tässä tapauksessa äänitiedosto voidaan määrittää yhdelle tai useammalle kielelle samanaikaisesti tai sitä ei ole kohdistettu millekään niistä.
Katso myös
Kirjallisuus
- Joshua Goodman. Laajennettu kommentti kielipuista ja vetoketjuista . arXiv: cond-mat/0202383 [cond-mat.stat-mech]
- Benedetto, D., E. Caglioti ja V. Loreto. Kielipuut ja vetoketju . Physical Review Letters , 88:4 (2002), Kompleksisuusteoria .
- Cavnar, William B. ja John M. Trenkle. "N-Gram-pohjainen tekstin luokittelu". Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval (1994) [1] .
- Cilibrasi, Rudi ja Paul M. B. Vitanyi. Klusterointi pakkaamalla . IEEE Transactions on Information Theory , 51(4), huhtikuu 2005, 1523-1545.
- Dunning, T. (1994) "Kielen tilastollinen tunnistus". Technical Report MCCS 94-273, New Mexico State University, 1994.
- Goodman, Joshua. (2002) Laajennettu kommentti aiheesta "Language Trees and Zipping" . Microsoft Research, 21. helmikuuta 2002. (Tämä on kritiikki tietojen pakkaamisesta Naive Bayes -menetelmän puolesta.)
- Grafenstette, Gregory. (1995) Vertaamassa kahta kielentunnistusjärjestelmää. Kolmannen kansainvälisen tekstitiedon tilastollisen analyysin konferenssin julkaisuja (JADT 1995).
- Poutsma, Arjen. (2001) Monte Carlo -tekniikoiden soveltaminen kielen tunnistamiseen. SmartHaven, Amsterdam. Esitelty CLIN 2001 :ssä .
- Taloustieteilijä. (2002) " Tyylin elementit: Pakatun tiedon analysointi johtaa vaikuttaviin tuloksiin kielitieteessä "
- Radim Řehůrek ja Milan Kolkus. (2009) " Kielentunnistus verkossa: Sanakirjamenetelmän laajentaminen (linkki ei saatavilla) " Laskennallinen lingvistiikka ja älykäs tekstinkäsittely
Linkit
Kirjastot
Verkkopalvelut
- Language Identification Web Service : kielentunnistussovellusliittymä (JSON ja XML), joka tunnistaa yli 100 kieltä teksteistä, verkkosivustoista ja asiakirjoista
- Language Detection API : yksinkertainen tunnistuskieli API
- dataTXT-LI : kielentunnistus RESTful API, osa Dandelion dataTXT:n semanttista API-perhettä (nimen kokonaisuuden purkaminen, tekstin samankaltaisuus jne.)
- AlchemyAPI : kielentunnistussovellusliittymä, saatavana SDK:na ja RESTfull API:n kautta ( verkkopohjainen esittely ).
- PetaMem Language Identification : tarjoaa valinnan ngram-, nvect- ja älykkäiden menetelmien välillä.
- Avaa Xerox LanguageIdentifier , saatavana verkkopohjaisessa muodossa tai API:n kautta.
- GlobalNLP : verkkopohjainen tunnistuskieli
- Kielentunnistin , online-tunnistus tekstistä tai URL-osoitteesta ja API kehittäjien käytettävissä.
- Mikä kieli Tämä on? Online-kielitunniste : verkkopohjainen työkalu, jonka on kirjoittanut Henrik Falck.
- Rosette Language Identifier : Basis Technologyn tuote.
- Kielitunniste : Sematextin tuote; paljastaa Java API:n ja on saatavilla REST/Webservicen kautta.
- G2LI (Global Information Infrastructure Laboratoryn kielitunnus) .
- IMT Holdingsin Rosoka Cloud tarjoaa kielitunnuksen, kokonaisuuden ja suhteen purkamisen RESTfull-verkkopalvelut, jotka ovat saatavilla Amazon Web Services Marketplacen kautta.
- Semantrian tunne- ja tekstianalytiikkasovellusliittymä, joka sisältää kielentunnistuksen
- Loque.la Language Detection API : Verkkosivuston kielen tunnistaminen API:lla (json/XML)
- Stel KS Kielentunnistus : Kielentunnistussovellusliittymä (11 kieltä)