Äänitoiminnan tunnistus

VAD ( englanniksi  Voice Activity Detection ) sekä Hiljaisuuden vaimennus (  englanniksi  -  "hiljaisuuden vaimennus") - äänitoiminnan havaitseminen tuloakustisessa signaalissa aktiivisen puheen erottamiseksi taustamelusta tai hiljaisuudesta. Meluksi tulkittu ääni voi aiheuttaa keskustelusta "leikkejä" (chipping). Ääneksi tulkittu tausta heikentää pakkaustehokkuutta (esim. DTX ).

Edut ja käyttötarkoitukset

Kun digitoidaan ääntä, aktiiviseksi puheeksi luokitellut signaalifragmentit voidaan edelleen koodata ja pakata millä tahansa audiokoodekilla (esimerkiksi CELP ), kun niitä käytetään ohjelmistossa ihmisen äänen ja taustamelun erottamiseen koodatussa puheessa.

VAD (tai Silence Suppression) -mekanismin avulla voit säästää tiedonsiirrossa viestintäkanavan kautta , koska puheen katkosta (signaalitason määräämä) ei digitoida tai koodata , joten "tyhjiä" hiljaisia ​​paketteja ei lähetetä. verkon kautta. Tämä on erittäin tärkeää pakettisiirrolle (joka on siirto TCP / IP-verkoissa), koska itse datan lisäksi jokainen OSI-mallin kaikkien tasojen protokolla (kuljetus, verkko jne.) liittää jokaiseen omat palvelutietonsa. datapaketti. Tämän seurauksena paketin koko kasvaa merkittävästi. Siten "tyhjien" pienten kohinapakettien poissulkeminen on helppo tapa säästää liikennettä ja sen seurauksena lisätä kanavan läpimenoa. Tästä syystä VAD-mekanismia käytetään melko usein yhdessä erilaisten koodekkien kanssa tehokkaaseen pakkaamiseen IP-puhelimessa .

Haitat ja niiden poistaminen

VAD:n ongelmana on, että hiljaisuuden vaimentamisen (todellakin matalan äänenvoimakkuuden) seurauksena kuuntelija ei kuule lainkaan tunnistussignaaleja (hengitys, nuuskiminen ja muut pienet äänet, jotka liittyvät elävään puheeseen). Tämä aiheuttaa ongelmia, koska tavallisessa puhekielessä kaikki kuuluu. Tavanomaisen kohinan puuttuminen äänen toiston aikana aiheuttaa epämukavuutta ja alentaa havainnon ja ymmärryksen tasoa.

Tämän ongelman ratkaisemiseksi toisen tilaajan (tai kuuntelijan) puolella voidaan käyttää mukana tulevien äänien emulointia, jota kutsutaan mukavuuskohinageneraatioksi (CNG) (käänteinen prosessi VAD:lle).

Katso myös

Linkit