ESpeak

eSpeak
Tyyppi puhesyntetisaattori
Tekijä Jonathan Duddington
Sisään kirjoitettu C++
Käyttöjärjestelmä Linux ja muut UNIX-tyyppiset , Windows
Ensimmäinen painos 2006 [1]
uusin versio 1.48.04 ( 6. huhtikuuta 2014 [1] )
Testiversio
Osavaltio epäaktiivinen
Lisenssi GNU GPL
Verkkosivusto espeak.sourceforge.net
 Mediatiedostot Wikimedia Commonsissa

eSpeak on pienikokoinen ilmainen puhesyntetisaattori , joka tukee Speech Synthesis Markup Language (SSML) -kieltä. Alkuperäinen projekti on tällä hetkellä passiivinen sen kirjoittajan Jonathan Daddingtonin katoamisen vuoksi [3] . kehittää eSpeakNGhaarukkaa

Käyttöjärjestelmät

eSpeakista on olemassa versioita käyttöjärjestelmille, kuten Microsoft Windows , Mac OS X , Linux , RISC OS , ja sen C++- lähdekoodi on myös saatavilla . Lisäksi syntetisaattorin virallisessa dokumentaatiossa on ohjeita sen kääntämiseen Windows Mobilen alla . Ohjelmalla on yksi merkittävä rajoitus - äänen luominen on mahdollista vain WAV - tiedostossa. [neljä]

Lisäksi eSpeakia käytetään mobiilikäyttöjärjestelmissä Android versiosta 1.6 alkaen ja Maemo , mutta nämä projektit eivät ole kehittäjän henkilökohtaisessa valvonnassa, eikä virallisilla eSpeak-sivustoilla ole vastaavia paketteja, ja Android - versiolla on numero. merkittävistä virheistä työskennellessäsi joillakin kielillä, erityisesti venäjällä. [5]

Windows- ja Linux-versiot päivitetään säännöllisesti lähdekoodin mukana, kun taas Mac- ja RISC-versioita ei ole tuettu pitkään aikaan.

eSpeakin Windows-versio on kirjoitettu Microsoft Speech API 5.x -alustalle, ja se on saatavana myös konsoliapuohjelmana. Mac OS X -versio on erillinen sovellus, jota ei ole sisäänrakennettu Applen järjestelmän puhepalveluun ja joka vaatii manuaalisen määrityksen. On kuitenkin olemassa vaihtoehto nopeutettuun asennukseen käyttämällä erityistä eSpeak Macintosh Installer -pakettia. [6]

Tuetut kielet

eSpeak tukee noin viittä tusinaa eri kieltä. Asennuksen aikana käyttäjän on määritettävä, mitä murteita hän on kiinnostunut tukemaan. [7]

Alla on luettelo eSpeak-syntetisaattorin tukemista kielistä ja niiden merkinnöistä, joita käytetään sen asetuksissa.

Tuettujen kielten luetteloa voidaan myös laajentaa käyttämällä MBROLA-äänikirjastoja, jotka voidaan yhdistää eSpeakiin.

eSpeak ja MBROLA

MBROLA on erityinen difoninen puhesynteesialgoritmi, jonka pohjalta on luotu monia erilaisia ​​ohjelmistotuotteita tekstistä puheeksi (TTS) teknologialla. Tämä projekti on ennätys muiden puhesynteesitekniikoiden joukossa sen eri kielten lukumäärässä, joissa sitä käytettiin. Vaikka MBROLA-ääniä ei ole vielä luotu joillekin yleisille kielille, mukaan lukien venäjälle. [kahdeksan]

eSpeak voi toimia yhdessä MBROLA:n kanssa, mikä mahdollistaa tämän projektin äänikirjastojen käytön osana itse eSpeakia. Tämän avulla voit laajentaa edelleen tuettujen kielten luetteloa puheesta tekstiksi -synteesiä varten.

Voit käyttää eSpeakia ja MBROLAa sellaisissa käyttöjärjestelmissä kuin Windows , Linux [8] ja Mac OS X [6] .

Kaikki MBROLA-äänikirjastot eivät kuitenkaan tue eSpeak-integraatiota.

Toteutusperiaatteet

Syntetisoitavan syöttötekstin sanat käyvät läpi kaksi käsittelyvaihetta:

Foneemisekvenssin saamista koskevat säännöt tallennetaan muodossa "A, B, C = D". Missä B on kyseinen kirjain, A ja C ovat konteksti kyseisen kirjaimen ympäristölle sanassa ja D on foneemi, johon kirjain voidaan muuntaa. Ympäristön konteksti voidaan määrittää sekä tietyillä kirjaimilla että kirjainryhmiä osoittavilla erikoismerkeillä. Syntetisaattorisäännöt mahdollistavat tällaisten ketjujen moniselitteisen määrittelyn. Tämän epäselvyyden ratkaisemiseksi syntetisaattori määrittää kullekin säännölle prioriteetin, joka lasketaan sääntöön sisältyvien kirjainten lukumäärän ja ympäristökontekstimäärityksen spesifisyyden perusteella. Säännöt voivat myös määrittää eroja käännöksissä aksentin mukaan.

eSpeakissa vokaaliäänet syntetisoidaan aina, soinnilliset konsonantit saadaan sekoittamalla syntetisoidut äänet ennalta tallennettuihin äänikohinaan, ja kaikki muut äänet yksinkertaisesti tallennetaan, esimerkiksi [w].

Jokaista ääntä, paitsi äänettömiä konsonantteja, edustaa formanttien sarja. Formanttien lisäksi jokaisella foneemilla on tietoa sen amplitudista, äänen kestosta ja viiveestä ennen seuraavaa foneemia. Näiden parametrien perusteella vokaalin ääni syntetisoidaan syntetisaattoriin toteutettujen algoritmien avulla. Tiedot foneemista ja formanteista tallennetaan erillisiin tiedostoihin, jotka myös käännetään myöhemmin binäärimuotoon.

eSpeak Edit -apuohjelma tulee syntetisaattorin mukana. Tämä on WXLib-kirjastolla kirjoitettu GUI-sovellus. Sen avulla voit muokata valmiita foneemeja visuaalisesti. Foneemi esitetään käyräkaaviona, jossa voidaan peräkkäin valita formantteja ja muuttaa niiden arvoja, kuten taajuutta, korkeutta ja leveyttä. Näiden ominaisuuksien ansiosta voit saada valmiiden foneemien perusteella uusia, tarkempia ääniä tietylle kielelle. Samanaikaisesti joitain foneemeja ei voida saada muuttamalla olemassa olevia. Esimerkiksi eSpeakin venäjänkielistä osaa kehitettäessä ääni [r] tallennettiin erityisesti, koska sille ei ollut arvokasta analogia muilla kielillä. [9]

Projektit eSpeakin avulla

eSpeak on avoimen lähdekoodin projekti, jonka ansiosta jotkut kehittäjät ovat integroineet sen tuotteisiinsa.

NVDA

eSpeakia käytetään pääpuhesyntetisaattorina ei-kaupallisessa avoimen lähdekoodin näytönlukuohjelmassa NVDA . Sen avulla ohjelman asennusprosessi äänestetään, ja se on myös oletusääni, kun se käynnistetään.

Puhesyntetisaattori "Kapteeni"

Toisessa Anatoli Kamyninin ja Gennadi Nefedovin kehittämässä puhesyntetisaattorissa, Captainissa, on rakennettu eSpeakin pohjalle lisäpaketti, joka mahdollistaa monikielisten tekstien erillisen lukemisen: venäjän tai ukrainan tekstiä lukee Captain-syntetisaattori ja englannin, ranskan tai Saksa eSpeak-syntetisaattorilla. Tämä toiminto on toteutettu Captain Speech Synthesizerissä sekä MS Speech API 4 :n [10] versiossa että MS Speech API 5.x:n [11] versiossa .

Kolmannen osapuolen lisäosat

Joillakin kielillä ei ole yksinkertaisia ​​ja yleisiä sääntöjä lukutaitoisen puheen rakentamiseen, ja eSpeak vaatii lisäkomponentteja korkealaatuisen synteesin tuottamiseksi näillä kielillä. Jotta eSpeak-pääpaketin koko ei kasvaisi, nämä komponentit jaetaan erikseen. Erityisesti venäjän kielellä ei ole yleisiä sääntöjä, jotka määrittäisivät korostetun tavun sanoissa. Näissä tapauksissa eSpeak yrittää määrittää sanan painoarvon, mutta tämä ääntäminen ei usein vastaa oikeaa ääntämistä. Tämän ongelman ratkaisemiseksi on olemassa erityinen laajennettu ääntämissanakirja, joka on asennettava erilleen eSpeak-pääpaketista.

Venäjän lisäksi kolmannen osapuolen eSpeak-puheenkorjauskomponentit ovat saatavilla myös kiinalle (putonghua ja kantoni).

Voit ladata nämä sanakirjat projektin viralliselta verkkosivustolta.

Katso myös

Muistiinpanot

  1. 1 2 eSpeak- arkisto . . Haettu 14. elokuuta 2013. Arkistoitu alkuperäisestä 17. toukokuuta 2013.
  2. http://espeak.sourceforge.net/test/latest.html
  3. eSpeak-projektin ja sen tulevaisuuden haltuunotto . Haettu 14. tammikuuta 2019. Arkistoitu alkuperäisestä 15. tammikuuta 2019.
  4. Manakhov P. - Mobiiliteksti puheeksi -koneiden yleiskatsaus . Haettu 20. toukokuuta 2011. Arkistoitu alkuperäisestä 12. lokakuuta 2011.
  5. Tseykovets N. - Yleiskatsaus venäjänkielisistä puhesyntetisaattoreista Android-käyttöjärjestelmään . Haettu 26. maaliskuuta 2012. Arkistoitu alkuperäisestä 3. huhtikuuta 2012.
  6. 1 2 Tseykovets N. - eSpeak-syntetisaattorin asentaminen Mac OS X -ympäristöön eSpeak Macintosh -asennusohjelman avulla . Haettu 2. toukokuuta 2011. Arkistoitu alkuperäisestä 11. lokakuuta 2011.
  7. eSpeak-asennusohjeet . Haettu 2. toukokuuta 2011. Arkistoitu alkuperäisestä 22. tammikuuta 2012.
  8. 1 2 Tseykovets N. - MBROLA-äänien käyttö MS Windows -ympäristössä . Haettu 2. toukokuuta 2011. Arkistoitu alkuperäisestä 3. kesäkuuta 2011.
  9. Pozhidaeva R. - Espeak-puhesyntetisaattorin venäläistäminen: Johdanto . Haettu 2. toukokuuta 2011. Arkistoitu alkuperäisestä 16. kesäkuuta 2012.
  10. Puhesyntetisaattori "Captain" (versio MS SAPI 4:lle) . Haettu 2. toukokuuta 2011. Arkistoitu alkuperäisestä 28. kesäkuuta 2012.
  11. Puhesyntetisaattori "Captain" (versio MS SAPI 5.x:lle) . Haettu 2. toukokuuta 2011. Arkistoitu alkuperäisestä 17. heinäkuuta 2011.

Linkit