Äänentunnistus on biometrisen todennuksen muoto, jonka avulla voit tunnistaa henkilön ainutlaatuisten ääniominaisuuksien yhdistelmän perusteella . Viittaa biometristen tietojen dynaamisiin menetelmiin . Koska ihmisen ääni voi kuitenkin muuttua iän, tunnetilan, terveyden, hormonitason ja monien muiden tekijöiden mukaan, se ei ole täysin tarkka [1] . Äänentallennus- ja toistotekniikan kehittyessä tunnistustekniikkaa käytetään vaihtelevalla menestyksellä tietoturvan , turva- ja pääsyjärjestelmien sekä oikeuslääketieteen alalla .
Puheentunnistustyö juontaa juurensa viime vuosisadan puoliväliin. Ensimmäinen järjestelmä luotiin 1950-luvun alussa: sen kehittäjät asettivat tehtäväkseen numeroiden tunnistamisen. Kehitetty järjestelmä pystyi tunnistamaan numerot , mutta puhuttu yhdellä äänellä , kuten " Audrey " järjestelmä Bell Laboratories . Hän työskenteli kunkin puhekohdan tehospektrin formantin määrittämisen perusteella [2] . Yleisesti ottaen järjestelmä koostui kolmesta pääosasta: analysaattoreista ja kvantisoijista, verkkosovitusmalleista ja lopuksi antureista. Se luotiin vastaavasti erilaisten taajuussuodattimien, kytkimien ja kaasutäytteisten putkien alkuainepohjalle osana antureita [3] .
Vuosikymmenen loppuun mennessä ilmestyi järjestelmiä, jotka tunnistivat vokaalit puhujasta riippumatta [4] . 70-luvulla alettiin käyttää uusia menetelmiä, jotka mahdollistivat täydellisempien tulosten saavuttamisen - dynaaminen ohjelmointimenetelmä [5] ja lineaarinen ennustusmenetelmä (Linear Predictive Coding - LPC). Edellä mainitussa Bell Laboratories -yrityksessä on luotu järjestelmiä, jotka käyttävät juuri näitä menetelmiä [6] . 80-luvulla seuraava askel äänentunnistusjärjestelmien kehityksessä oli piilotettujen Markov-mallien (Hidden Markov Models - HMM) käyttö. Tällä hetkellä ensimmäiset suuret äänentunnistusohjelmat alkoivat ilmestyä, kuten Kurzweil tekstistä puheeksi [7] . 80-luvun lopulla alettiin käyttää myös keinotekoisten hermoverkkojen menetelmiä (Artificial Neural Network - ANN) [8] . Vuonna 1987 markkinoille ilmestyi Worlds of Wonderin Julie-nukke, joka pystyi ymmärtämään ääntä [7] . Ja 10 vuotta myöhemmin Dragon Systems julkaisi ohjelman "NaturallySpeaking 1.0" [9] .
Tärkeimmät äänentunnistusvirheiden lähteet ovat:
Sukupuolen tunnistus voidaan erottaa omana tehtävänä, joka on varsin onnistuneesti ratkaistu - suurilla lähtötiedoilla sukupuoli määritetään lähes virheettömästi ja lyhyissä kohdissa, kuten korostetussa vokaalissa, virhetodennäköisyys on 5,3 % miehillä ja 3,1 % naisilla [11] .
Myös äänen jäljittelyn ongelma pohdittiin. France Telecomin tutkimukset ovat osoittaneet, että ammattimainen äänen jäljitelmä ei käytännössä lisää identiteettivirheen todennäköisyyttä - jäljittelijät väärentävät ääntä vain ulkoisesti korostaen puheen piirteitä, mutta he eivät pysty väärentämään äänen perusääriviivaa. Jopa lähisukulaisten, kaksosten äänet eroavat, ainakin hallinnan dynamiikassa [11] . Mutta tietokonetekniikan kehityksen myötä on syntynyt uusi ongelma, joka vaatii uusien analyysimenetelmien käyttöä - äänen muunnos, joka lisää virheiden todennäköisyyttä jopa 50% [11] .
Järjestelmän luotettavuuden kuvaamiseen käytetään kahta kriteeriä: FRR (False Rejection Rate) - väärän pääsyn epäämisen todennäköisyys ( ensimmäisen tyyppinen virhe ) ja FAR (False Acceptance Rate) - väärän pääsyn todennäköisyys. kun järjestelmä vahingossa tunnistaa jonkun toisen omakseen (toisen tyyppinen virhe) . Joskus tunnistusjärjestelmille on myös tunnusomaista sellainen parametri kuin EER (Equal Error Rates), joka edustaa todennäköisyyksien FRR ja FAR yhteensattuvuuspistettä. Mitä luotettavampi järjestelmä, sitä pienempi EER sillä on [12] .
Tunnistusvirheiden arvot eri biometrisille modaliteeteille [10]
biometrinen merkki | Testata | Koeolosuhteet | FRR % | FAR % |
---|---|---|---|---|
Sormenjäljet | FVC 2006 | Heterogeeninen väestö (mukaan lukien ruumiilliset työntekijät ja vanhukset) | 2.2 | 2.2 |
Kasvot | MBE 2010 | Poliisin valokuvatukikohta
Tietokanta valokuvia asiakirjoista |
4.0
0.3 |
0.1
0.1 |
Ääni | NIST 2010 | Tekstistä riippumaton tunnistus | 3...4 | 1.0 |
Silmän iiris | ICE 2006 | Ohjattu valaistus, laaja valikoima kuvanlaatua | 1.1…1.4 | 0.1 |
Tunnistus voidaan jakaa kahteen pääalueeseen: tunnistaminen ja todentaminen . Ensimmäisessä tapauksessa järjestelmän on itsenäisesti tunnistettava käyttäjä äänellä; toisessa tapauksessa järjestelmän tulee vahvistaa tai kieltää käyttäjän esittämä tunniste [11] . Tutkittavan puhujan määritelmä koostuu äänimallien parivertailusta, jossa otetaan huomioon kunkin puhujan puheen yksilölliset ominaisuudet. Siksi meidän on ensin kerättävä riittävän suuri tietokanta. Ja tämän vertailun tulosten perusteella voidaan muodostaa lista äänitteistä, jotka ovat jollain todennäköisyydellä meitä kiinnostavan käyttäjän puhetta [11] .
Vaikka puheentunnistus ei voi taata 100 % oikeaa tulosta, sitä voidaan käyttää varsin tehokkaasti esimerkiksi rikosteknisissä ja rikosteknisissä tutkimuksissa; tiedustelupalvelu; terrorismin vastainen valvonta; turvallisuus; pankkitoiminta ja niin edelleen [11] .
Koko puhesignaalin käsittelyprosessi voidaan jakaa useisiin päävaiheisiin:
Jokainen vaihe edustaa algoritmia tai jotakin algoritmisarjaa, joka lopulta antaa halutun tuloksen [13] .
Äänen pääpiirteet muodostuvat kolmesta pääominaisuudesta: äänitahteen värähtelymekaniikasta, ääniradan anatomiasta ja artikulaatiosta. Lisäksi joskus on mahdollista käyttää puhujan sanakirjaa, hänen puheenvuorojaan [11] . Pääpiirteet, joilla puhujan persoonallisuutta koskeva päätös tehdään, muodostuvat ottaen huomioon kaikki puheentuotantoprosessin tekijät: äänen lähde, äänikanavan resonanssitaajuudet ja niiden vaimennus sekä artikulaatioohjauksen dynamiikka. Jos tarkastellaan lähteitä yksityiskohtaisemmin, niin äänilähteen ominaisuudet sisältävät: perusäänen keskimääräisen taajuuden, perusäänen taajuuden ääriviivat ja vaihtelut sekä herätepulssin muodon. Ääniradan spektriominaisuudet kuvataan spektrin verhokäyrällä ja sen keskimääräisellä kulmakertoimella, formanttitaajuuksilla , pitkän aikavälin spektrillä tai cepstrumilla . Lisäksi huomioidaan sanojen kesto, rytmi (stressin jakautuminen), signaalitaso, taajuus ja taukojen kesto [14] . Näiden ominaisuuksien määrittämiseen on käytettävä melko monimutkaisia algoritmeja, mutta koska esimerkiksi formanttitaajuuksien virhe on melko suuri, niin yksinkertaistamiseksi spektrin verhokäyrästä laskettuja cepstrum-kertoimia tai äänikanavan siirtofunktiota , jotka on löydetty. käytetään lineaarista ennustusmenetelmää. Mainittujen cepstrum-kertoimien lisäksi käytetään myös niiden ensimmäistä ja toista aikaeroa [11] . Tätä menetelmää ehdottivat ensimmäisenä Davis ja Mermelstein [15] .
KepstraalianalyysiPuheentunnistusta koskevissa teoksissa suosituin menetelmä on puhesignaalien spektrin cepstraalinen muunnos [11] . Menetelmän kaavio on seuraava: 10 - 20 ms:n aikavälillä lasketaan virran tehospektri, jonka jälkeen käytetään tämän spektrin (cepstrum) logaritmin käänteistä Fourier -muunnosta ja löydetään kertoimet: , - puhesignaalin spektrin ylempi taajuus, - tehospektri. Kestraalikertoimien määrä n riippuu spektrin vaaditusta tasoituksesta ja vaihtelee välillä 20 - 40. Jos käytetään kaistanpäästösuodatinpankkia , diskreetit cepstral-muunnoskertoimet lasketaan kaavalla , jossa Y(m) on signaalin lähtösignaali. m:s suodatin on n:s cepstrum-kerroin.
Kuulo-ominaisuudet otetaan huomioon taajuusasteikon epälineaarisella muunnolla, yleensä liituasteikolla [11] . Tämä asteikko muodostuu ns. kriittisten kaistojen läsnäolon perusteella siten , että minkä tahansa taajuuden signaalit kriittisen kaistan sisällä eivät ole erotettavissa. Mel-asteikko lasketaan kaavalla , jossa f on taajuus hertseinä, M on taajuus mel. Tai käytetään toista asteikkoa - bark , niin että kahden taajuuden välinen ero, joka on yhtä suuri kuin kriittinen kaista, on yhtä suuri kuin 1 bark. Taajuus B lasketaan . Kirjallisuudesta löydettyjä kertoimia kutsutaan joskus nimellä MFCC - Mel Frequiency Cepstral Coefficients. Niiden lukumäärä vaihtelee 10:stä 30:een. Cepstraalisten kertoimien ensimmäisen ja toisen aikaeron käyttö kolminkertaistaa päätösavaruuden ulottuvuuden, mutta parantaa puhujantunnistuksen tehokkuutta [11] .
Cepstrum kuvaa signaalispektrin verhokäyrän muotoa, johon vaikuttavat sekä virityslähteen ominaisuudet että ääniradan ominaisuudet. Kokeissa havaittiin, että spektrin verhokäyrä vaikuttaa voimakkaasti äänen tunnistamiseen. Siksi erilaisten spektrin verhokäyräanalyysimenetelmien käyttö äänentunnistukseen on täysin perusteltua [11] .
MenetelmätKoska monet järjestelmät käyttävät cepstral-kertoimien avaruutta, niiden ensimmäistä ja toista eroa, kiinnitetään paljon huomiota päätössääntöjen rakentamiseen. Suosituimmat menetelmät piirreavaruuden todennäköisyystiheyden approksimoimiseksi normaalijakaumien painotetulla sekoituksella ( GMM - Gauss Mixture Models), tukivektorikoneella (SVM - Support Vector Machines), piilotettujen Markovin mallien menetelmällä (HMM - Hidden Markovin mallit), keinotekoiset neuroverkot sekä tekijäanalyysin modifikaatiot [11] .
GMM-menetelmä seuraa lauseesta, että mikä tahansa todennäköisyystiheysfunktio voidaan esittää normaalijakaumien painotettuna summana:
; on kaiuttimen malli, k on mallin komponenttien lukumäärä; — Komponenttien painot ovat sellaiset, että ne ovat moniulotteisen argumentin jakaumafunktio [11] . , - sen paino, k - aineosien lukumäärä seoksessa. Tässä n on piirreavaruuden ulottuvuus, seoksen j:nnen komponentin matemaattisen odotuksen vektori ja on kovarianssimatriisi .
Hyvin usein tämän mallin järjestelmät käyttävät diagonaalista kovarianssimatriisia. Sitä voidaan käyttää kaikkiin mallikomponentteihin tai jopa kaikkiin malleihin. Kovarianssimatriisin, painojen ja keskiarvovektorien löytämiseen käytetään usein EM- algoritmia . Syöttössä meillä on harjoitussekvenssi vektoreista X = {x 1 , . . . , x T } . Mallin parametrit alustetaan alkuarvoilla, ja sitten jokaisessa algoritmin iteraatiossa parametrit arvioidaan uudelleen. Alkuparametrien määrittämiseen käytetään yleensä klusterointialgoritmia , kuten K-means- algoritmia . Kun opetusvektorijoukko on jaettu M-klusteriin, malliparametrit voidaan määritellä seuraavasti: alkuarvot ovat yhteneväiset klusterien keskusten kanssa, kovarianssimatriisit lasketaan tähän klusteriin kuuluvien vektoreiden perusteella, komponenttien painot määräytyvät tämän klusterin vektorien osuudella koulutusvektoreiden kokonaismäärästä.
Parametrit arvioidaan uudelleen seuraavien kaavojen mukaisesti:
GMM:ää voidaan kutsua myös vektorikvantisointimenetelmän ( sentroidimenetelmä ) laajennuksena . Sitä käytettäessä luodaan koodikirja ominaisuusavaruuden ei-päällekkäisille alueille (usein K-keskittymällä). Vektorikvantisointi on yksinkertaisin malli kontekstista riippumattomissa tunnistusjärjestelmissä [11] .
Tukivektorikone (SVM) rakentaa moniulotteiseen tilaan hypertason, joka erottaa kaksi luokkaa - kohdekaiuttimen parametrit ja kaiuttimien parametrit referenssikannasta. Hypertaso lasketaan käyttämällä erityisellä tavalla valittuja tukivektoreita. Mitattujen parametrien avaruudesta tehdään epälineaarinen muunnos korkeamman ulottuvuuden piirteiden avaruuteen, koska erotuspinta ei välttämättä vastaa hypertasoa. Erotuspinta hypertasossa muodostetaan tukivektorikoneella, jos lineaarisen erottelun ehto uudessa piirreavaruudessa täyttyy. Siten SMM-sovelluksen menestys riippuu valitusta epälineaarisesta muunnoksesta kussakin yksittäisessä tapauksessa. Tukivektorikoneita käytetään usein GMM:n tai HMM:n kanssa. Yleensä lyhyiden, muutaman sekunnin pituisten lauseiden kohdalla foneemiherkkiä HMM:itä [11] voidaan käyttää paremmin kontekstiriippuvaisessa lähestymistavassa .
New Yorkissa toimivan konsulttiyhtiön International Biometric Groupin mukaan yleisin tekniikka on sormenjälkien skannaus. On huomattava, että 127 miljoonan dollarin biometristen laitteiden myyntituotoista 44 prosenttia on sormenjälkien skannereita. Kasvojentunnistusjärjestelmät ovat kysytyimpiä 14 prosentilla, jota seuraa kämmenen muodon tunnistus (13 %), äänentunnistus (10 %) ja iiriksen tunnistus (8 %). Allekirjoituksen vahvistuslaitteet muodostavat 2 % tästä luettelosta. Eräitä tunnetuimpia äänibiometriikkamarkkinoiden valmistajia ovat Nuance Communications, SpeechWorks, VeriVoice [17] .
Helmikuussa 2016 The Telegraph julkaisi artikkelin, jossa kerrottiin, että brittiläisen HSBC-pankin asiakkaat voivat käyttää tilejä ja suorittaa tapahtumia äänitunnistuksen avulla. Siirtymä oli määrä tapahtua kesän alussa [18] .