Microsoft Speech API

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 3. joulukuuta 2014 tarkistetusta versiosta . tarkastukset vaativat 6 muokkausta .

Speech Application Programming Interface (SAPI) on COM - pohjainen sovellusohjelmointirajapinta puheentunnistukseen ja -synteesiin.

Puheentunnistus

Puheentunnistus on prosessi, jossa puhutut sanat muunnetaan painetuksi tekstiksi. Puheentunnistus sisältää:

mikrofoniin puhutun äänen kaappaaminen ja digitointi;
digitoidun äänen muuntaminen foneemeiksi ;
rakentaminen sanojen foneemista;
sanan puhekontekstin analysointi ja tarvittaessa sanojen korvaaminen vastaavilla.

Tunnistaja (tekstintunnistusmoottori) vertaa tunnistettua tekstiä iteratiivisesti sovelluksen kielioppisääntöihin ja, jos teksti vastaa sääntösarjaa, luo XML - tulostevirran käyttämällä Semantic Markup Language (SML) -kieltä . Tulosvirta sisältää tunnistetun tekstin, oikeat tunnistustodennäköisyydet ja voi sisältää semanttisia arvoja, jotka on määritetty semantiikan tulkintamerkinnällä . Tunnistettua tekstiä käytetään yleisesti tietojen syöttämiseen sanelulla ja sovellusten ohjaamiseen puhekomennoilla.

Kielioppisääntöjen koko rajoittaa tekstintunnistusta. Useimmat sanelua tukevat ohjelmat on viritetty tietyn käyttäjän puhemalleihin tarkimman tunnistuksen varmistamiseksi. Puhekomentoohjaustila on helpompi toteuttaa, koska kielioppisääntöjen sisältö on rajoitettu käytettävissä oleviin komentoihin [1] .

Puhesynteesi

Puhesynteesi on prosessi, jossa teksti muunnetaan puhutuiksi sanoiksi. Puhesynteesi sisältää:

sanojen jakaminen foneemiin;
löytää tekstiä, joka on muutettava merkeiksi, kuten numeroiksi, valuuttamääräiksi ja välimerkeiksi;
tuottaa digitaalista ääntä toistoa varten.

Tekstistä puheeksi -koneet voivat käyttää yhtä kahdesta puhesynteesimenetelmästä:

luoda äänihuulten kaltaisia ääniä ja käyttää erilaisia suodattimia kurkun pituuden, suun muodon, huulten ja kielen asennon mallintamiseen;
kerätä se lukuisista kuuluttajan tallentamista puheista.

Muistiinpanot

↑ Tomashenko N. A., Khokhlov Yu. Yu.// TUTKIMUS AUTOMAATTISTEN PUHETUNNISTUSJÄRJESTELMIEN AKUSTISTEN MALLIEN RAKENNUKSEN TIETATASAPÄÄTÖN ONGELMASTA . Arkistokopio päivätty 19. syyskuuta 2015 Wayback Machinessa . - Artikkeli. - Instrumentointi. - UDC 004.934

Linkit

Esittelyssä Computer Speech Technology (englanniksi) (linkki ei saatavilla) . MSDN-kirjasto . Microsoft (2012). Haettu 24. heinäkuuta 2012. Arkistoitu alkuperäisestä 29. syyskuuta 2012.

puhesynteesi
Oma ohjelmisto	Selaa ääneen CereProc DECtalk IVONA Microsoft Agent Microsoft Speech API Microsoftin tekstistä puheeksi -äänet Lukikaiutin Puhu se! ääniselain Vocaloid Kanttori voiceroid Utau Ohjelmisto automaattinen suu CoolSpeech La La Voice Sinfoniset kuorot Realivox CeVIO Creative Studio Chipspeech Toinen minä PPG Phonem
ilmainen ohjelmisto	eSpeak Gnuspeech Festivaalin puheen synteesijärjestelmä FreeTTS Gnopernicus Orca Sinsy Automaattinen tekstinlukija
Auto	kaiku 2 Kuvion toisto Phasor RIAS Texas Instrumentsin LPC-puhepiirit TuVox
Sovellukset	AOLbyPhone Dialogi OS DR. Sbaitso MBROLA Microsoft Narrator Microsoft Speech Server PlainTalk äänen fontti
Protokollat	Puhesynteesin merkintäkieli
Kehittäjät / tutkijat	Catherine Browman Franklin Seaney Cooper Gunnar Fant Haskins Laboratories Wolfgang von Kempelen Ignatius Mattingly Philip Rubin Voice Web VoiceXML Yamaha
Prosessi	Artikulatorinen synteesi Konkatenatiivinen synteesi Currah käänteinen suodatin PSOLA Vaihevokooderi SOOPELI Itseään puhuva