Microsoft Speech API
Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 3. joulukuuta 2014 tarkistetusta
versiosta . tarkastukset vaativat
6 muokkausta .
Speech Application Programming Interface (SAPI) on COM - pohjainen sovellusohjelmointirajapinta puheentunnistukseen ja -synteesiin.
Puheentunnistus
Puheentunnistus on prosessi, jossa puhutut sanat muunnetaan painetuksi tekstiksi. Puheentunnistus sisältää:
- mikrofoniin puhutun äänen kaappaaminen ja digitointi;
- digitoidun äänen muuntaminen foneemeiksi ;
- rakentaminen sanojen foneemista;
- sanan puhekontekstin analysointi ja tarvittaessa sanojen korvaaminen vastaavilla.
Tunnistaja (tekstintunnistusmoottori) vertaa tunnistettua tekstiä iteratiivisesti sovelluksen kielioppisääntöihin ja, jos teksti vastaa sääntösarjaa, luo XML - tulostevirran käyttämällä Semantic Markup Language (SML) -kieltä . Tulosvirta sisältää tunnistetun tekstin, oikeat tunnistustodennäköisyydet ja voi sisältää semanttisia arvoja, jotka on määritetty semantiikan tulkintamerkinnällä . Tunnistettua tekstiä käytetään yleisesti tietojen syöttämiseen sanelulla ja sovellusten ohjaamiseen puhekomennoilla.
Kielioppisääntöjen koko rajoittaa tekstintunnistusta. Useimmat sanelua tukevat ohjelmat on viritetty tietyn käyttäjän puhemalleihin tarkimman tunnistuksen varmistamiseksi. Puhekomentoohjaustila on helpompi toteuttaa, koska kielioppisääntöjen sisältö on rajoitettu käytettävissä oleviin komentoihin [1] .
Puhesynteesi
Puhesynteesi on prosessi, jossa teksti muunnetaan puhutuiksi sanoiksi. Puhesynteesi sisältää:
- sanojen jakaminen foneemiin;
- löytää tekstiä, joka on muutettava merkeiksi, kuten numeroiksi, valuuttamääräiksi ja välimerkeiksi;
- tuottaa digitaalista ääntä toistoa varten.
Tekstistä puheeksi -koneet voivat käyttää yhtä kahdesta puhesynteesimenetelmästä:
- luoda äänihuulten kaltaisia ääniä ja käyttää erilaisia suodattimia kurkun pituuden, suun muodon, huulten ja kielen asennon mallintamiseen;
- kerätä se lukuisista kuuluttajan tallentamista puheista.
Muistiinpanot
- ↑ Tomashenko N. A., Khokhlov Yu. Yu.// TUTKIMUS AUTOMAATTISTEN PUHETUNNISTUSJÄRJESTELMIEN AKUSTISTEN MALLIEN RAKENNUKSEN TIETATASAPÄÄTÖN ONGELMASTA . Arkistokopio päivätty 19. syyskuuta 2015 Wayback Machinessa . - Artikkeli. - Instrumentointi. - UDC 004.934
Linkit
Esittelyssä Computer Speech Technology (englanniksi) (linkki ei saatavilla) . MSDN-kirjasto . Microsoft (2012). Haettu 24. heinäkuuta 2012. Arkistoitu alkuperäisestä 29. syyskuuta 2012.
puhesynteesi |
---|
Oma ohjelmisto |
- Selaa ääneen
- CereProc
- DECtalk
- IVONA
- Microsoft Agent
- Microsoft Speech API
- Microsoftin tekstistä puheeksi -äänet
- Lukikaiutin
- Puhu se!
- ääniselain
- Vocaloid
- Kanttori
- voiceroid
- Utau
- Ohjelmisto automaattinen suu
- CoolSpeech
- La La Voice
- Sinfoniset kuorot
- Realivox
- CeVIO Creative Studio
- Chipspeech
- Toinen minä
- PPG Phonem
|
---|
ilmainen ohjelmisto |
|
---|
Auto |
- kaiku 2
- Kuvion toisto
- Phasor
- RIAS
- Texas Instrumentsin LPC-puhepiirit
- TuVox
|
---|
Sovellukset |
- AOLbyPhone
- Dialogi OS
- DR. Sbaitso
- MBROLA
- Microsoft Narrator
- Microsoft Speech Server
- PlainTalk
- äänen fontti
|
---|
Protokollat | Puhesynteesin merkintäkieli |
---|
Kehittäjät / tutkijat |
|
---|
Prosessi |
- Artikulatorinen synteesi
- Konkatenatiivinen synteesi
- Currah
- käänteinen suodatin
- PSOLA
- Vaihevokooderi
- SOOPELI
- Itseään puhuva
|
---|