Puheentunnistus on automaattinen prosessi, jossa puhesignaali muunnetaan digitaaliseksi informaatioksi (esimerkiksi tekstidataksi ). Käänteinen ongelma on puhesynteesi .
Ensimmäinen puheentunnistuslaite ilmestyi vuonna 1952 , se pystyi tunnistamaan henkilön puhumat numerot . [1] Vuonna 1962 IBM Shoebox esiteltiin New Yorkin tietokoneteknologiamessuilla .
Vuonna 1963 Yhdysvalloissa esiteltiin Sperry Corporationin insinöörien kehittämiä miniatyyritunnistuslaitteita, joissa oli kuituoptinen muistilaite nimeltä "Septron" ( Sceptron , mutta lausutaan [ˈseptrɑːn] ilman "k":tä) , [2] yhden tai toisen toimintosarjan suorittaminen tietyille ihmisoperaattorin puhumille lauseille. "Septronit" soveltuivat käytettäväksi kiinteän (langallisen) viestinnän alalla äänivalinnan automatisoimiseksi ja sanelun tekstin automaattiseen tallentamiseen teletypellä , voidaan käyttää sotilasalalla ( sotilasvarusteiden monimutkaisten näytteiden ääniohjaukseen ), ilmailussa . (luo "älykäs avioniikka ", joka reagoi käskyihinohjaajan ja miehistön jäsenten automatisoidut ohjausjärjestelmät jne. [2] [3] [4] ohjaussignaalit koneen laitteisiin ja yksitavuinen ääni, joka vastaa hänelle koskien asiaa mahdollisuus toteuttaa hänen asettamansa tehtävä [5] .
Kaupalliset puheentunnistusohjelmat ilmestyivät 1990-luvun alussa. Yleensä niitä käyttävät ihmiset, jotka eivät käsivamman vuoksi pysty kirjoittamaan suurta määrää tekstiä. Nämä ohjelmat (kuten Dragon NaturallySpeaking, VoiceNavigator) kääntää käyttäjän äänen tekstiksi ja vapauttaa näin hänen kätensä. Tällaisten ohjelmien käännösvarmuus ei ole kovin korkea, mutta se paranee vähitellen vuosien mittaan.
Mobiililaitteiden laskentatehon kasvu mahdollisti puheentunnistustoiminnolla varustettujen ohjelmien luomisen niille. Tällaisten ohjelmien joukossa on syytä huomata Microsoft Voice Command -sovellus, jonka avulla voit työskennellä monien sovellusten kanssa äänelläsi. Voit esimerkiksi ottaa musiikin toiston käyttöön soittimessa tai luoda uuden asiakirjan.
Puheentunnistuksen käyttö on yleistymässä eri liiketoiminta-alueilla, esimerkiksi klinikalla lääkäri voi lausua diagnooseja, jotka kirjataan välittömästi sähköiseen korttiin. Tai toinen esimerkki. Varmasti jokainen ainakin kerran elämässään haaveili käyttää ääntään sammuttaakseen valot tai avatakseen ikkunan. Viime aikoina automaattisia puheentunnistus- ja synteesijärjestelmiä on käytetty yhä enemmän vuorovaikutteisissa puhelinsovelluksissa. Tässä tapauksessa kommunikaatio ääniportaalin kanssa tulee luonnollisemmaksi, koska valinta siinä voidaan tehdä paitsi äänivalinnan myös äänikomentojen avulla. Samaan aikaan tunnistusjärjestelmät ovat kaiuttimista riippumattomia, eli ne tunnistavat kenen tahansa äänen.
Seuraavana askeleena puheentunnistusteknologioissa voidaan pitää ns. Silent Access Interface -rajapintojen (Silent speak Interfaces, SSI) kehittämistä. Nämä puheenkäsittelyjärjestelmät perustuvat puhesignaalien vastaanottamiseen ja käsittelyyn artikuloinnin varhaisessa vaiheessa. Tämä puheentunnistuksen kehitysvaihe johtuu nykyaikaisten tunnistusjärjestelmien kahdesta merkittävästä puutteesta: liiallisesta meluherkkyydestä sekä selkeän ja selkeän puheen tarpeesta tunnistusjärjestelmää käytettäessä. SSI-pohjainen lähestymistapa on käyttää uusia, kohinattomia antureita täydentämään prosessoituja akustisia signaaleja.
Puheentunnistusjärjestelmät luokitellaan: [6]
Automaattisissa puheentunnistusjärjestelmissä häiriönkestävyys tarjotaan ensinnäkin käyttämällä kahta mekanismia: [7]
"...on selvää, että puhesignaalin käsittelyalgoritmien pitäisi puhehavaintomallissa käyttää samaa käsite- ja suhdejärjestelmää, jota henkilö käyttää" [8] [9] .
Nykyään puheentunnistusjärjestelmät rakentuvat tunnistuksen periaatteille[ kenen toimesta? ] tunnustamisen muodot [ tuntematon termi ] . Tähän mennessä käytetyt menetelmät ja algoritmit voidaan jakaa seuraaviin suuriin luokkiin: [10] [11]
Puheentunnistusmenetelmien luokittelu standardiin vertailun perusteella.
Kontekstiriippuvainen luokitus. Kun se toteutetaan, puhevirrasta erotetaan erilliset leksikaaliset elementit - foneemit ja allofonit, jotka sitten yhdistetään tavuiksi ja morfeemiksi.
Dynaamista aikajanan muunnosalgoritmia käytetään määrittämään, edustavatko puhesignaalit samaa alkuperäistä puhuttua lausetta.
Yksi tilastotietoihin perustuvien automaattisten puheenkäsittelyjärjestelmien arkkitehtuureista voi olla seuraava. [12] [13]
Tunnustamisen vaiheet [12]
Peruskäsitteet, jotka kuvaavat ihmisen puheen parametreja, jotka liittyvät puheenmuodostuskanavan muutosten muotoon, kokoon, dynamiikkaan ja kuvaavat ihmisen tunnetilaa, voidaan jakaa neljään objektiivisten piirteiden ryhmään, joiden avulla voidaan erottaa puhe. kuviot: spektri-ajallinen, kestraalinen, amplitudi-taajuus ja epälineaarisen dynamiikan merkit. Lisätietoja, jokainen ominaisuusryhmä: [9] [14] [15]
Spektri-ajalliset piirteetSpektriominaisuudet:
Väliaikaiset merkit:
Spektri-ajalliset piirteet luonnehtivat puhesignaalia sen fysikaalisessa ja matemaattisessa olemuksessa kolmen tyyppisen komponentin läsnäolon perusteella:
Spektri-ajalliset ominaisuudet mahdollistavat aikasarjan muodon ja ääniimpulssien spektrin omaperäisyyden heijastamisen eri yksilöissä sekä heidän puheketjujensa suodatustoimintojen piirteitä. Ne kuvaavat puhevirran piirteitä, jotka liittyvät puhujan puheen artikulaatioelinten uudelleenjärjestelyn dynamiikkaan, ja ovat puhevirran olennaisia ominaisuuksia, jotka heijastavat puheen artikulaatioelinten liikkeiden suhteen tai synkronoinnin erityispiirteitä. puhuja.
Kepstraaliset merkitUseimmat nykyaikaiset automaattiset puheentunnistusjärjestelmät keskittyvät erottamaan ihmisen äänikanavan taajuusvastetta ja hylkäämään herätesignaalin ominaisuudet. Tämä selittyy sillä, että ensimmäisen mallin kertoimet tarjoavat paremman äänten erotettavuuden. Herätyssignaalin erottamiseksi ääniradan signaalista käytetään cepstral-analyysiä .
Amplitudi-taajuusominaisuudetAmplitudi-taajuusominaisuudet mahdollistavat arvioiden saamisen, joiden arvot voivat vaihdella diskreetin Fourier-muunnoksen parametrien (ikkunan tyyppi ja leveys) mukaan sekä ikkunan pienillä siirtymillä näytteen yli. . Puhesignaali edustaa akustisesti ilmassa eteneviä monimutkaisen rakenteen omaavia äänivärähtelyjä, jotka on karakterisoitu taajuutensa (värähtelyjen määrä sekunnissa), intensiteetin (värähtelyamplitudin) ja keston suhteen. Amplitudi-taajuusmerkit kuljettavat henkilölle tarpeellisen ja riittävän tiedon puhesignaalista minimihavaintoajalla. Mutta näiden ominaisuuksien käyttö ei salli niitä täysimääräisesti käyttää työkaluna tunnevärisen puheen tunnistamiseen.
Epälineaarisen dynamiikan merkkejäEpälineaarisen dynamiikan merkkien ryhmässä puhesignaalia pidetään skalaariarvona, joka havaitaan ihmisen äänikanavajärjestelmässä. Puheentuotantoprosessia voidaan pitää epälineaarisena ja sitä voidaan analysoida epälineaarisen dynamiikan menetelmillä. Epälineaarisen dynamiikan tehtävänä on löytää ja tutkia yksityiskohtaisesti ne matemaattiset perusmallit ja todelliset järjestelmät, jotka lähtevät tyypillisimmistä ehdotuksista järjestelmän muodostavien yksittäisten elementtien ominaisuuksista ja niiden välisistä vuorovaikutuksista. Tällä hetkellä epälineaarisen dynamiikan menetelmät perustuvat perustavanlaatuiseen matemaattiseen teoriaan, joka perustuu Takensin lauseeseen., joka tuo tiukan matemaattisen perustan epälineaarisen autoregression ideoille ja todistaa mahdollisuuden palauttaa attraktorin vaihekuva aikasarjasta tai yhdestä sen koordinaateista. (Attraktori on joukko pisteitä tai aliavaruus vaiheavaruudessa, jota vaiherata lähestyy transienttien vaimenemisen jälkeen.) Rekonstruoiduista puhetrajektorioista saatuja signaaliominaisuuksien arvioita käytetään epälineaarisen deterministisen vaiheavaruuden rakentamisessa. havaittujen aikasarjojen mallit. Paljastuneita attraktoreiden muodossa olevia eroja voidaan käyttää diagnostisissa säännöissä ja ominaisuuksissa, joiden avulla voidaan tunnistaa ja tunnistaa oikein erilaisia tunteita emotionaalisesti väritetyssä puhesignaalissa.
Puheenlaatuparametrit digitaalisille kanaville: [17]
Äänijärjestelmien pääeduksi julistettiin käyttäjäystävällisyys . Puhekomentojen piti säästää loppukäyttäjä tarpeelta käyttää kosketusta ja muita tiedonsyöttö- ja komentomenetelmiä.
Menestyksekkäitä esimerkkejä puheentunnistustekniikan käytöstä mobiilisovelluksissa ovat: osoitteen syöttäminen äänellä Yandex.Navigatorissa, Google Now -puhehaku.
Mobiililaitteiden lisäksi puheentunnistustekniikkaa käytetään laajasti eri liiketoiminta-alueilla:
![]() | |
---|---|
Bibliografisissa luetteloissa |
|
luonnollisen kielen käsittely | |
---|---|
Yleiset määritelmät | |
Tekstianalyysi |
|
Viittaus |
|
Konekäännös |
|
Tunnistaminen ja tiedonkeruu | |
Temaattinen malli | |
Vertaisarviointi |
|
Luonnollisen kielen käyttöliittymä |