Puheen synteesi - laajassa mielessä - puhesignaalin muodon palauttaminen sen parametrien mukaisesti [1] ; suppeassa merkityksessä - puhesignaalin muodostaminen painetusta signaalista[ selventää ] tekstiä . Osa tekoälyä .
Puhesynteesi on ennen kaikkea kaikkea, mikä liittyy ihmisen puheen keinotekoiseen tuottamiseen.
Puhesyntetisaattori on kehys, joka pystyy kääntämään tekstiä/kuvia puheeksi ohjelmistossa ja/tai laitteistossa.
Äänimoottori on suoraan teksti/komento puheeksi -järjestelmä/ydin, se voi olla olemassa myös tietokoneesta riippumatta.
Puhesynteesiä voidaan vaatia kaikissa tapauksissa, joissa tiedon vastaanottaja on henkilö. Puhesyntetisaattorin laatu arvioidaan ensisijaisesti sen mukaan, kuinka se muistuttaa ihmisääntä sekä sen kykyä tulla ymmärretyksi. Yksinkertaisin syntetisoitu puhe voidaan luoda yhdistämällä tallennetun puheen osia, jotka sitten tallennetaan tietokantaan. Ja kummallista kyllä, tämän syntetisointitavan kohtaamme jo kaikkialla, joskus jopa kiinnittämättä siihen huomiota.
Kaikki puhesynteesimenetelmät voidaan jakaa ryhmiin: [2]
Parametrinen puhesynteesi on lopullinen operaatio vokooderijärjestelmissä , joissa puhesignaalia edustaa joukko jatkuvasti muuttuvia parametreja. Parametrisen synteesin käyttö on suositeltavaa tapauksissa, joissa viestijoukko on rajallinen eikä vaihdu liian usein. Tämän menetelmän etuna on kyky tallentaa puhetta mille tahansa kielelle ja kaikille puhujille . Parametrisen synteesin laatu voi olla erittäin korkea (riippuen parametrisen esityksen tiedon pakkausasteesta). Parametrista synteesiä ei kuitenkaan voida soveltaa mielivaltaisiin, ennalta määrittämättömiin viesteihin.
Kokoonpanosynteesi rajoittuu viestin muodostamiseen alustavien synteesielementtien ennalta tallennetusta sanakirjasta. Synteesielementtien koko ei ole pienempi kuin sana. On selvää, että syntetisoitujen viestien sisältö määräytyy sanakirjan määrän mukaan. Sanakirjayksiköiden määrä ei yleensä ylitä useita satoja sanoja. Suurin ongelma synteesin laatimisessa on muistin määrä sanakirjan tallentamiseen. Tässä suhteessa käytetään erilaisia puhesignaalin kompressointi-/koodausmenetelmiä. Kokoavalla synteesillä on laaja käytännön sovellus. Länsimaissa monet laitteet (sotilaslentokoneista kotitalouslaitteisiin) on varustettu äänivastausjärjestelmillä. Venäjällä äänivastausjärjestelmiä käytettiin viime aikoihin asti pääasiassa sotilasvarusteiden alalla, nyt niitä käytetään yhä enemmän jokapäiväisessä elämässä, esimerkiksi matkapuhelinoperaattoreiden apupalveluissa hankittaessa tietoa tilaajatilin tilasta.
Täysi puhesynteesi säännöillä (tai synteesi painetulla tekstillä) mahdollistaa puhesignaalin kaikkien parametrien hallinnan ja voi siten generoida puhetta aiemmin tuntemattomasta tekstistä. Tässä tapauksessa puhesignaalin analysoinnin aikana saadut parametrit tallennetaan muistiin samalla tavalla kuin säännöt äänten yhdistämisestä sanoiksi ja lauseiksi . Synteesi toteutetaan mallintamalla äänikanavaa analogisella tai digitaalisella tekniikalla. Lisäksi syntetisointiprosessissa parametrien arvot ja foneemien yhdistämissäännöt syötetään peräkkäin tietyllä aikavälillä, esimerkiksi 5–10 ms. Painetun tekstin puhesynteesimenetelmä (synteesi sääntöjen mukaan) perustuu ohjelmoituun tietoon akustisista ja kielellisistä rajoituksista, eikä siinä käytetä suoraan ihmisen puheen elementtejä. Tähän synteesimenetelmään perustuvissa järjestelmissä erotetaan kaksi lähestymistapaa. Ensimmäinen lähestymistapa pyrkii rakentamaan mallin ihmisen puhetta tuottavasta järjestelmästä, se tunnetaan artikulatorisena synteesinä . Toinen lähestymistapa on formanttisynteesi sääntöjen mukaan . Tällaisten syntetisaattoreiden ymmärrettävyys ja luonnollisuus voidaan saada arvoihin, jotka ovat verrattavissa luonnollisen puheen ominaisuuksiin.
Puheen synteesi sääntöjen mukaan käyttämällä aiemmin muistiin tallennettuja luonnollisen kielen segmenttejä on eräänlainen sääntöjen mukainen puhesynteesi, josta on tullut laajalle levinnyt mahdollisuus käsitellä puhesignaalia digitoidussa muodossa. Alkuperäisten synteesielementtien koosta riippuen erotetaan seuraavat synteesityypit:
Yleensä tällaisina elementteinä käytetään puolitavuja - segmenttejä, jotka sisältävät puolet konsonantista ja puolet sen vieressä olevasta vokaalista. Tässä tapauksessa puhe on mahdollista syntetisoida ennalta määrätystä tekstistä, mutta intonaatioominaisuuksia on vaikea hallita. Tällaisen synteesin laatu ei vastaa luonnollisen puheen laatua, koska vääristymiä esiintyy usein difoniompelun rajoilla. Puheen kokoaminen valmiiksi tallennetuista sanamuodoista ei myöskään ratkaise mielivaltaisten viestien korkealaatuisen synteesin ongelmaa, koska sanojen akustiset ja prosodiset (kesto ja intonaatio) ominaisuudet muuttuvat riippuen lausetyypistä ja sanan paikasta lauseessa. . Tämä sijainti ei muutu, vaikka käytät suuria määriä muistia sanamuotojen tallentamiseen.
Verkkoaluekohtainen synteesi kokoaa valmiiksi tallennettuja sanoja sekä lauseita kokonaisten puheviestien luomiseksi. Sitä käytetään sovelluksissa, joissa järjestelmätekstien kirjo rajoittuu tiettyyn aiheeseen/verkkoalueeseen, kuten junatiedotuksiin ja sääennusteisiin . Tämä tekniikka on helppokäyttöinen, ja sitä on käytetty kaupallisesti jo pitkään: sitä on käytetty myös elektronisten laitteiden, kuten puhuvien kellojen ja laskimien valmistuksessa . Näiden järjestelmien äänen luonnollisuus voi olla korkea johtuen siitä, että lausetyyppien kirjo on rajallinen ja vastaa tiiviisti alkuperäisten äänitteiden intonaatiota. Ja koska näitä järjestelmiä rajoittaa tietokannassa olevien sanojen ja lauseiden valinta, niitä ei voida enää käyttää laajasti ihmisen toiminnan aloilla, koska ne pystyvät syntetisoimaan sanojen ja lauseiden yhdistelmiä, joita varten ne on ohjelmoitu.
1700-luvun lopulla tanskalainen tiedemies Christian Kratzenstein , Venäjän tiedeakatemian täysjäsen , loi mallin ihmisen äänikanavasta, joka pystyy lausumaan viisi pitkää vokaalia ( a , e ja , o , u ) . Malli oli erimuotoisten akustisten resonaattoreiden järjestelmä, joka tuotti vokaaliääniä ilmavirran kiihottamien värähtelevien kaistojen avulla. Vuonna 1778 itävaltalainen tiedemies Wolfgang von Kampelen täydensi Kratzensteinin mallia kielen ja huulten malleilla ja esitteli akustis- mekaanisen puhekoneen, joka pystyy toistamaan tiettyjä ääniä ja niiden yhdistelmiä. Sihinää ja vihellystä puhallettiin erityisellä käsikäyttöisellä turkilla. Vuonna 1837 tiedemies Charles Wheatstone esitteli koneesta parannetun version, joka pystyy tuottamaan vokaalit ja useimmat konsonantit . Ja vuonna 1846 Joseph Faber esitteli puheurunsa Euphonia , jossa yritettiin syntetisoida paitsi puhetta myös laulua.
1800 - luvun lopulla kuuluisa tiedemies Alexander Bell loi oman "puhuvan" mekaanisen mallinsa, joka oli rakenteeltaan hyvin samanlainen kuin Wheatstonen kone. 1900- luvun tultua alkoi sähkökoneiden aikakausi, ja tutkijat saivat mahdollisuuden käyttää ääniaaltogeneraattoreita ja rakentaa niiden pohjalta algoritmisia malleja.
1930-luvulla Bell Labsin työntekijä Homer Dudley , joka työskenteli ongelman parissa löytää keinoja vähentää puhelimen tarvitsemaa kaistanleveyttä sen lähetyskapasiteetin lisäämiseksi, kehitti VOCODERin (lyhenne sanoista Englanti voice - voice, Englanti coder - encoder) on näppäimistö. -ohjattu elektroninen analysaattori ja puhesyntetisaattori. Dudleyn idea oli analysoida äänisignaali, purkaa se osiin ja syntetisoida se uudelleen vähemmän vaativaksi kaistanleveydeksi. Paranneltu versio Dudleyn vokooderista , VODER, esiteltiin vuoden 1939 New Yorkin maailmannäyttelyssä [3] .
Ensimmäiset puhesyntetisaattorit kuulostivat melko luonnottomalta ja usein oli tuskin mahdollista erottaa niiden toistamia lauseita. Syntetisoidun puheen laatu on kuitenkin jatkuvasti parantunut, ja nykyaikaisten puhesynteesijärjestelmien tuottamaa puhetta ei toisinaan voi erottaa todellisesta ihmisen puheesta. Mutta huolimatta elektronisten puhesyntetisaattoreiden menestyksestä, mekaanisten puhesyntetisaattoreiden alan tutkimus on edelleen käynnissä esimerkiksi humanoidiroboteissa käytettäviksi . [neljä]
Ensimmäiset tietokonepohjaiset puhesynteesijärjestelmät alkoivat ilmestyä 1950-luvun lopulla , ja ensimmäinen tekstistä puheeksi -syntetisaattori luotiin vuonna 1968 .
Vuonna 2005 Kurzweil ennusti, että koska vastinetta rahalle tekisi puhesyntetisaattoreista halvempia ja enemmän saatavia, useammat ihmiset hyötyisivät tekstistä puheeksi -ohjelmien käyttämisestä. [5]
Toistaiseksi on vielä liian aikaista puhua lupaavasta tulevaisuudesta tuleville vuosikymmenille sääntöjen mukaiselle puhesynteesille , sillä ääni muistuttaa edelleen ennen kaikkea robottien puhetta ja paikoin puheen ymmärtäminen on myös vaikeaa. Voimme määrittää tarkasti, puhuuko puhesyntetisaattori mies- vai naisäänellä, ja joskus emme vieläkään erota ihmisäänelle ominaisia hienouksia. Tästä syystä kehitystekniikka on osittain kääntynyt pois puhesignaalien synteesin varsinaisesta rakentamisesta, mutta jatkaa edelleen yksinkertaisimman äänitallenteen segmentoinnin käyttöä.
Hybridipuhesynteesiä voidaan käyttää puheentunnistusjärjestelmien murtamiseen . [6]
puhesynteesi | |
---|---|
Oma ohjelmisto |
|
ilmainen ohjelmisto |
|
Auto |
|
Sovellukset |
|
Protokollat | Puhesynteesin merkintäkieli |
Kehittäjät / tutkijat |
|
Prosessi |
|
luonnollisen kielen käsittely | |
---|---|
Yleiset määritelmät | |
Tekstianalyysi |
|
Viittaus |
|
Konekäännös |
|
Tunnistaminen ja tiedonkeruu | |
Temaattinen malli | |
Vertaisarviointi |
|
Luonnollisen kielen käyttöliittymä |