eSpeak | |
---|---|
Tyyppi | puhesyntetisaattori |
Tekijä | Jonathan Duddington |
Sisään kirjoitettu | C++ |
Käyttöjärjestelmä | Linux ja muut UNIX-tyyppiset , Windows |
Ensimmäinen painos | 2006 [1] |
uusin versio | 1.48.04 ( 6. huhtikuuta 2014 [1] ) |
Testiversio |
|
Osavaltio | epäaktiivinen |
Lisenssi | GNU GPL |
Verkkosivusto | espeak.sourceforge.net |
Mediatiedostot Wikimedia Commonsissa |
eSpeak on pienikokoinen ilmainen puhesyntetisaattori , joka tukee Speech Synthesis Markup Language (SSML) -kieltä. Alkuperäinen projekti on tällä hetkellä passiivinen sen kirjoittajan Jonathan Daddingtonin katoamisen vuoksi [3] . kehittää eSpeakNGhaarukkaa
eSpeakista on olemassa versioita käyttöjärjestelmille, kuten Microsoft Windows , Mac OS X , Linux , RISC OS , ja sen C++- lähdekoodi on myös saatavilla . Lisäksi syntetisaattorin virallisessa dokumentaatiossa on ohjeita sen kääntämiseen Windows Mobilen alla . Ohjelmalla on yksi merkittävä rajoitus - äänen luominen on mahdollista vain WAV - tiedostossa. [neljä]
Lisäksi eSpeakia käytetään mobiilikäyttöjärjestelmissä Android versiosta 1.6 alkaen ja Maemo , mutta nämä projektit eivät ole kehittäjän henkilökohtaisessa valvonnassa, eikä virallisilla eSpeak-sivustoilla ole vastaavia paketteja, ja Android - versiolla on numero. merkittävistä virheistä työskennellessäsi joillakin kielillä, erityisesti venäjällä. [5]
Windows- ja Linux-versiot päivitetään säännöllisesti lähdekoodin mukana, kun taas Mac- ja RISC-versioita ei ole tuettu pitkään aikaan.
eSpeakin Windows-versio on kirjoitettu Microsoft Speech API 5.x -alustalle, ja se on saatavana myös konsoliapuohjelmana. Mac OS X -versio on erillinen sovellus, jota ei ole sisäänrakennettu Applen järjestelmän puhepalveluun ja joka vaatii manuaalisen määrityksen. On kuitenkin olemassa vaihtoehto nopeutettuun asennukseen käyttämällä erityistä eSpeak Macintosh Installer -pakettia. [6]
eSpeak tukee noin viittä tusinaa eri kieltä. Asennuksen aikana käyttäjän on määritettävä, mitä murteita hän on kiinnostunut tukemaan. [7]
Alla on luettelo eSpeak-syntetisaattorin tukemista kielistä ja niiden merkinnöistä, joita käytetään sen asetuksissa.
Tuettujen kielten luetteloa voidaan myös laajentaa käyttämällä MBROLA-äänikirjastoja, jotka voidaan yhdistää eSpeakiin.
MBROLA on erityinen difoninen puhesynteesialgoritmi, jonka pohjalta on luotu monia erilaisia ohjelmistotuotteita tekstistä puheeksi (TTS) teknologialla. Tämä projekti on ennätys muiden puhesynteesitekniikoiden joukossa sen eri kielten lukumäärässä, joissa sitä käytettiin. Vaikka MBROLA-ääniä ei ole vielä luotu joillekin yleisille kielille, mukaan lukien venäjälle. [kahdeksan]
eSpeak voi toimia yhdessä MBROLA:n kanssa, mikä mahdollistaa tämän projektin äänikirjastojen käytön osana itse eSpeakia. Tämän avulla voit laajentaa edelleen tuettujen kielten luetteloa puheesta tekstiksi -synteesiä varten.
Voit käyttää eSpeakia ja MBROLAa sellaisissa käyttöjärjestelmissä kuin Windows , Linux [8] ja Mac OS X [6] .
Kaikki MBROLA-äänikirjastot eivät kuitenkaan tue eSpeak-integraatiota.
Syntetisoitavan syöttötekstin sanat käyvät läpi kaksi käsittelyvaihetta:
Foneemisekvenssin saamista koskevat säännöt tallennetaan muodossa "A, B, C = D". Missä B on kyseinen kirjain, A ja C ovat konteksti kyseisen kirjaimen ympäristölle sanassa ja D on foneemi, johon kirjain voidaan muuntaa. Ympäristön konteksti voidaan määrittää sekä tietyillä kirjaimilla että kirjainryhmiä osoittavilla erikoismerkeillä. Syntetisaattorisäännöt mahdollistavat tällaisten ketjujen moniselitteisen määrittelyn. Tämän epäselvyyden ratkaisemiseksi syntetisaattori määrittää kullekin säännölle prioriteetin, joka lasketaan sääntöön sisältyvien kirjainten lukumäärän ja ympäristökontekstimäärityksen spesifisyyden perusteella. Säännöt voivat myös määrittää eroja käännöksissä aksentin mukaan.
eSpeakissa vokaaliäänet syntetisoidaan aina, soinnilliset konsonantit saadaan sekoittamalla syntetisoidut äänet ennalta tallennettuihin äänikohinaan, ja kaikki muut äänet yksinkertaisesti tallennetaan, esimerkiksi [w].
Jokaista ääntä, paitsi äänettömiä konsonantteja, edustaa formanttien sarja. Formanttien lisäksi jokaisella foneemilla on tietoa sen amplitudista, äänen kestosta ja viiveestä ennen seuraavaa foneemia. Näiden parametrien perusteella vokaalin ääni syntetisoidaan syntetisaattoriin toteutettujen algoritmien avulla. Tiedot foneemista ja formanteista tallennetaan erillisiin tiedostoihin, jotka myös käännetään myöhemmin binäärimuotoon.
eSpeak Edit -apuohjelma tulee syntetisaattorin mukana. Tämä on WXLib-kirjastolla kirjoitettu GUI-sovellus. Sen avulla voit muokata valmiita foneemeja visuaalisesti. Foneemi esitetään käyräkaaviona, jossa voidaan peräkkäin valita formantteja ja muuttaa niiden arvoja, kuten taajuutta, korkeutta ja leveyttä. Näiden ominaisuuksien ansiosta voit saada valmiiden foneemien perusteella uusia, tarkempia ääniä tietylle kielelle. Samanaikaisesti joitain foneemeja ei voida saada muuttamalla olemassa olevia. Esimerkiksi eSpeakin venäjänkielistä osaa kehitettäessä ääni [r] tallennettiin erityisesti, koska sille ei ollut arvokasta analogia muilla kielillä. [9]
eSpeak on avoimen lähdekoodin projekti, jonka ansiosta jotkut kehittäjät ovat integroineet sen tuotteisiinsa.
eSpeakia käytetään pääpuhesyntetisaattorina ei-kaupallisessa avoimen lähdekoodin näytönlukuohjelmassa NVDA . Sen avulla ohjelman asennusprosessi äänestetään, ja se on myös oletusääni, kun se käynnistetään.
Toisessa Anatoli Kamyninin ja Gennadi Nefedovin kehittämässä puhesyntetisaattorissa, Captainissa, on rakennettu eSpeakin pohjalle lisäpaketti, joka mahdollistaa monikielisten tekstien erillisen lukemisen: venäjän tai ukrainan tekstiä lukee Captain-syntetisaattori ja englannin, ranskan tai Saksa eSpeak-syntetisaattorilla. Tämä toiminto on toteutettu Captain Speech Synthesizerissä sekä MS Speech API 4 :n [10] versiossa että MS Speech API 5.x:n [11] versiossa .
Joillakin kielillä ei ole yksinkertaisia ja yleisiä sääntöjä lukutaitoisen puheen rakentamiseen, ja eSpeak vaatii lisäkomponentteja korkealaatuisen synteesin tuottamiseksi näillä kielillä. Jotta eSpeak-pääpaketin koko ei kasvaisi, nämä komponentit jaetaan erikseen. Erityisesti venäjän kielellä ei ole yleisiä sääntöjä, jotka määrittäisivät korostetun tavun sanoissa. Näissä tapauksissa eSpeak yrittää määrittää sanan painoarvon, mutta tämä ääntäminen ei usein vastaa oikeaa ääntämistä. Tämän ongelman ratkaisemiseksi on olemassa erityinen laajennettu ääntämissanakirja, joka on asennettava erilleen eSpeak-pääpaketista.
Venäjän lisäksi kolmannen osapuolen eSpeak-puheenkorjauskomponentit ovat saatavilla myös kiinalle (putonghua ja kantoni).
Voit ladata nämä sanakirjat projektin viralliselta verkkosivustolta.
puhesynteesi | |
---|---|
Oma ohjelmisto |
|
ilmainen ohjelmisto |
|
Auto |
|
Sovellukset |
|
Protokollat | Puhesynteesin merkintäkieli |
Kehittäjät / tutkijat |
|
Prosessi |
|