Äänitietojen pakkaus

Audiodatan pakkaus (pakkaus) on prosessi, jolla vähennetään digitaalisen virran nopeutta vähentämällä digitaalisen äänisignaalin tilastollista ja psykoakustista redundanssia .

Menetelmiä äänidatan tilastollisen redundanssin vähentämiseksi kutsutaan myös häviöttömäksi pakkaukseksi, ja vastaavasti menetelmiä psykoakustisen redundanssin vähentämiseksi kutsutaan häviöiseksi kompressioksi.

Historia

Tiedossa

Kysymys äänitallenteiden tiheyden lisäämisestä nousi esiin melkein heti äänen tallennuksen sellaisenaan syntymisen jälkeen. Mekaanisen äänityksen aikakaudella tätä tarkoitusta varten ääniraita yritettiin asettaa mahdollisimman tiukasti levyn pinnalle. Näitä tarkoituksia varten oli tarpeen joko heikentää tallennuksen laatua, pienentämällä dynamiikkaa ja taajuusaluetta, mitä harjoitettiin esimerkiksi puhetta nauhoitettaessa (ääniesitykset, luennot, tallenteet filminauhan jälkiäänitykseen ). 1930-luvulla vinyylilevyihin vaihdettaessa ehdotettiin kuitenkin erilaista menetelmää, joka perustui leikkurin liikelain kolmen komponentin riippumattomaan rajoitukseen tallennuksen aikana ja neulan toiston aikana: värähtelevä siirtymä, värähtelynopeus ja oskillaatio kiihtyvyys. Matalilla taajuuksilla värähtelynopeudet ja kiihtyvyydet ovat pieniä, ja värähtelysiirtymillä on suurin rooli signaalinsiirrossa. Keskitaajuuksilla siirtymä ei voi enää saavuttaa suuria arvoja, ja nopeus alkaa olla suurin rooli signaalinsiirrossa. Korkeammilla taajuuksilla tämä rooli siirtyy kiihtyvyyteen. Juuri tätä mekaanisen äänen tallennuksen ominaisuutta käytettiin äänitietojen tehokkaaseen pakkaamiseen. Äänityksen aikana äänisignaali vääristyy esisäröllä siten, että ääniraidan sallittu leveys (joka rajoittaa siirtymistä), sen kaarevuussäde (joka rajoittaa nopeutta) ja äänitysmateriaalin vahvuus hyödynnetään mahdollisimman hyvin. (joka rajoittaa kiihtyvyyttä). Suosituin ja myöhemmin standardoitu oli RIAA:n esikorostuskäyrä. Äänilevyjen äänenpakkaus on pohjimmiltaan spektritiheysfunktion optimointi.

Magneettisessa tallennuksessa

Kuten gramofonitallennuksen tapauksessa, magneettisen tallennustiheyden kasvu liittyi signaalin spektritiheysfunktion optimointiin magneettipää  - magneettinauhajärjestelmän luomien fyysisten rajoitusten mukaisesti . Tärkeä magneettisen tallennuksen laatuun vaikuttava ominaisuus on pään ei-magneettisen raon leveys. Mitä pienempi se on, sitä laajempi taajuusalue voidaan tallentaa, mutta signaalitaso erityisesti matalataajuisella alueella pienenee ja epälineaariset vääristymät kasvavat. Päinvastoin, mitä suurempi rako, sitä enemmän taajuusaluetta rajoitetaan ylhäältä, mutta signaalitaso on korkeampi ja epälineaariset vääristymät pienemmät. Tämän ristiriidan poistamiseksi nauhurin tallennuskanava sisältää esisärösuodattimet. Tosiasia on, että matalilla taajuuksilla signaalia rajoittaa magneettinen kylläisyys, keskitaajuuksilla - pakkovoima ja korkeilla taajuuksilla - pään hajakenttä. Siksi matalataajuinen esisärösuodatin pakottaa tallennusvahvistimen toimimaan nykyisessä lähdetilassa, mikä rajoittaa magnetoinnin määrää. Keskitaajuuksilla tapahtuu siirtyminen virtalähdetilasta jännitelähdemoodiin ja lopuksi korkeammilla taajuuksilla tallennusvahvistin toimii jännitelähdetilassa. Nauhurivahvistimen esisärösuodattimen taajuusvaste muistuttaa RIAA-käyrää, mutta siinä on erilaisia ​​napataajuuksia, jotka riippuvat nauhan nopeudesta ja sen tyypistä. Huippuluokan moninopeuksisissa nauhureissa oli kytkettävät suodatinpankit.

Radiolähetyksissä

Halu vähentää lähettävän radioaseman käyttämää taajuuskaistaa äänenlaatua heikentämättä on johtanut äänisignaalin pakkaamiseen radiolähetyksissä. Koska amplitudimodulaatiolähetysjärjestelmät pitkillä, keskisuurilla ja lyhyillä aaltoalueilla kehitettiin jo 1920- ja 1930-luvuilla, niitä ei kuitenkaan katettu äänisignaalin pakkaamisella ja radiossa käytettyä kaistanleveyttä rajoitettiin yksinkertaisesti heikentämällä lähetyksen laatua. . Mutta ultralyhyiden aaltojen alueella lähetettäessä signaalia taajuusmodulaatiolla, jossa kaistanleveyttä ei määrää alkuperäisen äänisignaalin spektrin leveys, vaan sen dynaaminen alue, käytettiin "kompressori-laajentaja" -järjestelmää, joka mahdollisti taajuuden poikkeaman rajoittamisen arvoon 75 kHz, jolloin dynaaminen alue on 96 dB

Stereojärjestelmissä

Stereojärjestelmissä äänisignaalin pakkaus perustuu summa-eron periaatteeseen ja ihmiskuulon ominaisuuksiin. Tosiasia on, että luonnollisissa olosuhteissa vasemmalle ja oikealle korvalle ei ole täysin erotettuja äänilähteitä. Siksi stereofonisen äänitallenteen ei tarvitse luoda yli 40 dB:n eroa hetkellisen äänenpainearvon välille vasemmassa ja oikeassa korvassa. Siksi analogisissa audiojärjestelmissä käytettiin laajasti "yhteisstereo" -menetelmää, jolloin kanavien summan signaali tallennettiin korkealaatuisesti ja kanavaerosignaali tallennettiin amplituditiivistetyllä ja taajuusrajoitetulla kanavaerolla. signaali. Toistolaitteessa vasemman kanavan signaali saatiin summa- ja erosignaalien summana ja oikean kanavan signaali summa- ja erotussignaalien erotuksena. Yhdistettyä stereojärjestelmää käytettiin äänityksessä ja stereolähetyksissä.

Häviötön pakkaus

Tilastollisen redundanssin vähentäminen perustuu itse audiosignaalien ominaisuuksien huomioimiseen. Sen määrää digitaalisen äänisignaalin vierekkäisten näytteiden välinen korrelaatio , jonka poistaminen mahdollistaa lähetetyn datan määrän pienentämisen 15 ... 25% niiden alkuperäiseen arvoon verrattuna. Signaalin lähettämiseksi on tarpeen saada siitä kompaktimpi esitys, joka voidaan tehdä käyttämällä ortogonaalista muunnosta . Tärkeitä ehtoja tällaisen muunnosmenetelmän soveltamiselle ovat:

Modifioitu diskreetti kosinimuunnos (MDCT) täyttää nämä vaatimukset .

Bittinopeutta voidaan pienentää koodausmenetelmillä, jotka ottavat huomioon äänisignaalien tilastot, esimerkiksi erikokoisten tasojen esiintymistodennäköisyydet. Yksi tällainen menetelmä on Huffman-koodi , jossa lyhyemmät koodisanat annetaan todennäköisimmille signaaliarvoille ja näytearvot, joiden esiintymistodennäköisyys on pieni, koodataan pidemmillä koodisanoilla. Näistä kahdesta syystä tehokkaimmissa digitaalisen audiodatan pakkausalgoritmeissa ei koodata itse äänisignaalin näytteitä, vaan MDCT-kertoimia.

Samanlaisia ​​menetelmiä käytetään tiedostojen arkistointiin .

Häviöllinen pakkaus

Häviöllisen äänidatan pakkaus perustuu ihmisen kuulon epätäydellisyyteen äänitietojen havaitsemisessa. Psykoakustisen redundanssin vähentämisalgoritmeissa on hyödynnetty henkilön kyvyttömyyttä joissakin tapauksissa erottaa hiljaisempia ääniä kovempien läsnäollessa, jota kutsutaan maskausefektiksi . Kuulon peittämisen vaikutukset riippuvat peitettyjen ja peittävien signaalien spektraalisista ja ajallisista ominaisuuksista, ja ne voidaan jakaa kahteen pääryhmään:

Taajuusalueen peittovaikutus johtuu siitä, että suurten ääniamplitudien läsnä ollessa ihmiskorva on epäherkkä pienille läheisten taajuuksien amplitudeille. Eli kun kaksi signaalia on samanaikaisesti rajoitetulla taajuusalueella, heikompi signaali tulee kuulumattomaksi vahvemman taustaa vasten.

Aikatason maskaus luonnehtii kuulon dynaamisia ominaisuuksia osoittamalla muutosta suhteellisessa kuulokynnyksessä (yhden signaalin kuulokynnys toisen signaalin läsnäollessa) ajan kuluessa, kun peittävä ja peitetty signaali eivät kuulu samanaikaisesti. Tässä tapauksessa tulisi erottaa jälkinaamio (muutos kuulokynnyksessä korkean tason signaalin jälkeen) ja esinaamio (muutos kuulokynnyksessä ennen maksimitason signaalin saapumista) . Heikompi signaali tulee kuulumattomaksi 5–20 ms ennen peittosignaalin kytkemistä päälle ja kuuluu 50–200 ms päälle kytkemisen jälkeen.

Paras äänikoodausmenetelmä, joka ottaa huomioon maskausefektin, on kaistakoodaus. Sen olemus on seuraava. Tuloäänisignaalin näytteiden ryhmä, jota kutsutaan kehykseksi, tulee suodatinlohkoon, joka jakaa signaalin taajuusalikaistoiksi. Jokaisen suodattimen lähdössä on se osa tulosignaalista, joka kuuluu tämän suodattimen päästökaistalle. Lisäksi jokaisella kaistalla analysoidaan psykoakustista mallia käyttäen signaalin spektrikoostumus ja arvioidaan mikä osa signaalista tulisi lähettää ilman pelkistystä ja mikä osa on peittokynnyksen alapuolella ja voidaan kvantisoida uudelleen pienemmäksi numeroksi. bitteistä. Maksimidynaamisen alueen pienentämiseksi määritetään kehyksen suurin näyte ja lasketaan skaalaustekijä, joka tuo tämän näytteen ylemälle kvantisointitasolle. Tämä toiminto on samanlainen kuin analogisen lähetyksen kompandointi. Kaikki muut lukemat kerrotaan samalla kertoimella. Skaalaustekijä lähetetään dekooderille yhdessä koodatun datan kanssa jälkimmäisen vahvistuksen korjaamiseksi. Skaalauksen jälkeen maskauksen kynnysarvo arvioidaan ja bittien kokonaismäärä jaetaan uudelleen kaikkien kaistojen kesken.

Ilmeisesti äänisignaalien psykoakustisen redundanssin poistamisen jälkeen niiden tarkka rekonstruointi dekoodauksen aikana ei ole enää mahdollista. Psykofyysisen redundanssin eliminointimenetelmät voivat pakata digitaalista äänidataa 10–12 kertaa ilman merkittävää laadun heikkenemistä.

Häviöllisen äänenpakkauskooderin rakenne

Monet muut temput voivat toimia keinona vähentää äänitietodatan määrää. Jopa yksinkertainen signaalin kaistanleveyden kaventuminen yhdessä dynaamisen alueen pienenemisen kanssa voidaan jo kutsua audiodatan pakkaamiseksi. Esimerkiksi matkapuhelimen äänenpakkausstandardi käyttää molempia. Yrittäessään poistaa äänestä redundanssin koodekki, jonka signaalin laatu on huono, tulee valikoivaksi tiettyjen sanojen suhteen ja nielee ne itsepintaisesti.

Subjektiivinen laadunarviointi

Pakatulle äänidatalle on subjektiivinen laatuluokitus, joka mitataan niiden ihmisten prosenttiosuutena, jotka tunsivat eron alkuperäisestä.

MP3 - koodekin bittinopeuden vastaavuus stereotilassa ja niiden ihmisten prosenttiosuus, jotka huomasivat eron alkuperäiseen
Arvioitu määrä ihmisiä, jotka kuulivat eron alkuperäisen ja pakatun tallenteen välillä, % Pakatun tallennuksen bittinopeus, kbps
0…1 320
5…30 256
30…40 192
40…70 128

On otettava huomioon, että tuloksena olevan materiaalin laatu riippuu pakatun datan luonteesta, genrestä, taustan olemassaolosta ja kohinasta. Pakkaamisen, esimerkiksi MP3:n, jälkeen keskipitkällä bittinopeudella kuuntelijat huomaavat lyömäsoittimen pienuuden. Ja kompressiolla (jopa vahvalla) on vain vähän vaikutusta ääneen.

Katso myös

Linkit