MPEG-1 Audio Layer 3 | |
---|---|
Laajennus | .mp3[yksi] |
MIME -tyyppinen | audio/mpeg [2] , audio/MPA [3] ja audio/mpa-robust [4] |
Kehittäjä | Fraunhofer Society , Karlheinz Brandenburg , Heinz Gerhäuser [d] , Bernhard Grill [d] ja Harald Popp [d] |
julkaistu | 1993 |
Muototyyppi | äänimuoto |
Mediatiedostot Wikimedia Commonsissa |
MP3 (tarkemmin sanottuna englantilainen MPEG-1 / 2 / 2.5 Layer 3 ; mutta ei MPEG-3 ) on MPEG -tiimin kehittämä tiedostomuoto äänitietojen tallentamiseen . Formaatti lisensoitiin , mutta 23. huhtikuuta 2017 kaikki patentit raukesivat ja lisenssimaksut lakkautettiin [5] .
MP3 on yksi yleisimmistä ja suosituimmista digitaalisen äänen koodausmuodoista . Sitä käytetään laajasti tiedostonjakoverkoissa arvioivaan musiikin lataukseen . Formaattia voidaan toistaa lähes kaikissa suosituissa käyttöjärjestelmissä , useimmissa kannettavissa soittimissa , ja sitä tukevat myös kaikki nykyaikaiset musiikkikeskusten ja DVD-soittimien mallit .
MP3-formaatti käyttää häviöllistä pakkausalgoritmia , joka on suunniteltu vähentämään merkittävästi tallenteen toistamiseen tarvittavan datan määrää ja tarjoamaan äänentoiston laatu, joka on lähellä alkuperäistä (useimpien kuuntelijoiden mielestä), mutta äänen laatu heikkenee kuultuaan. laadukkaalla äänijärjestelmällä . Pakkauksen periaate on vähentää joidenkin äänivirran osien tarkkuutta, jota ei käytännössä voi erottaa kaikkialla olevissa matalan tarkkuuden äänentoistolaitteissa (esimerkiksi valtaosa kannettavista laitteista, äänikorteista, stereoista, autoradioista). ja muut ei-erikoislaitteet), sekä vanhemmille ihmisille kuulokojeen luonnollisista ikään liittyvistä muutoksista johtuen, mutta useimmissa tapauksissa ne ovat selvästi erotettavissa high-fidelity- äänilaitteissa . Tätä menetelmää kutsutaan havaintokoodaukseksi [6] . Samanaikaisesti ensimmäisessä vaiheessa rakennetaan äänikaavio lyhyiden aikajaksojen sarjana, jonka jälkeen siitä poistetaan ihmiskorvan erottamaton tieto ja loput tiedot tallennetaan kompaktiin. muodossa. Tämä lähestymistapa on samanlainen kuin pakkausmenetelmä, jota käytetään pakattaessa kuvia JPEG-muotoon . [ selventää ] MP3:n luominen, jonka keskimääräinen bittinopeus on 128 kbps, tuottaa tiedoston, joka on noin 1/11 alkuperäisen CD-Audio-tiedoston koosta ( pakkaamattoman CD-Audio-muodon bittinopeus itsessään on 1411,2 kbps). MP3-tiedostoja voidaan luoda korkealla tai alhaisella bittinopeudella, mikä vaikuttaa tuloksena olevan tiedoston laatuun.
MP3:n kehitti Fraunhofer-instituutin ( saksa: Fraunhofer-Institut für Integrierte Schaltungen ) työryhmä, jota johtivat Karlheinz Brandenburg ja Erlangen-Nürnbergin yliopisto yhteistyössä AT&T Bell Labsin ja Thomsonin (Johnson, Stoll, Deeri jne.) kanssa. .
MP3:n kehitys perustui kokeelliseen ASPEC -koodekkiin (Adaptive Spectral Perceptual Entropy Coding). Ensimmäinen MP3-kooderi oli L3Enc , joka julkaistiin kesällä 1994. Vuotta myöhemmin ilmestyi ensimmäinen ohjelmisto-MP3-soitin - Winplay3 .
Algoritmia kehitettäessä testattiin melko erityisiä suosittuja sävellyksiä. Pääkappaleeksi tuli Suzanne Vegan " Tom's Diner " . Tästä johtuu vitsi, että "MP3 luotiin yksinomaan Brandenburgin suosikkikappaleen mukavaan kuunteluun", ja Vegaa alettiin kutsua "MP3:n äidiksi".
Lähes täydellinen standardi ilmestyi julkisuuteen 6. joulukuuta 1991 .
23. huhtikuuta 2017 muodon viimeiset patentit raukesivat ja ohjelmistojen ja sulautettujen toimittajien rojaltimaksut lopetettiin [7] [8] . Fraunhofer-instituutti ilmoitti muodon lisensoinnin lopettamisesta virallisella verkkosivustollaan [9] . Ja vaikka mp3-muoto on edelleen erittäin suosittu käyttäjien keskuudessa, useimmat radioasemat ja TV-kanavat ovat siirtyneet käyttämään nykyaikaisia koodekkeja, jotka tarjoavat paremman pakkauksen ja vähemmän äänenlaatua.
Kuten JPEG-muoto , MP3 käyttää spektrileikkaamista psykoakustisen mallin mukaisesti . Äänisignaali on jaettu samanpituisiin segmentteihin, joista jokainen pakataan käsittelyn jälkeen omaan kehykseensä (kehykseen). Spektriksi hajottaminen edellyttää tulosignaalin jatkuvuutta, joten laskelmissa käytetään myös edellistä ja seuraavaa kehystä. Äänisignaalissa on harmonisia, joiden amplitudi on pienempi, ja harmonisia, jotka ovat lähellä voimakkaampia - tällaiset harmoniset leikataan pois, koska keskimääräinen ihmiskorva ei voi aina määrittää tällaisten harmonisten olemassaoloa tai puuttumista. Tätä kuulon ominaisuutta kutsutaan peittovaikutukseksi . On myös mahdollista korvata kaksi tai useampi lähellä oleva huippu yhdellä keskiarvostetulla huipulla (joka yleensä johtaa äänen vääristymiseen). Katkaisukriteeri määräytyy lähtövirran vaatimuksen mukaan. Koska koko spektri on merkityksellinen, korkeataajuisia harmonisia ei katkaista, kuten JPEG :ssä , vaan ne poistetaan vain valikoivasti informaatiovirran vähentämiseksi spektrin harventumisen vuoksi. Spektraalisen "pyyhkäisyn" jälkeen käytetään matemaattisia menetelmiä pakkaamiseksi ja pakkaamiseksi kehyksiin. Jokaisessa kehyksessä voi olla useita säiliöitä, jolloin voit tallentaa tietoja useista virroista (vasen ja oikea kanava tai keskikanava ja kanavan ero). Pakkaussuhdetta voidaan vaihdella, myös yhden kehyksen sisällä. Mahdollisten bittinopeusarvojen alue on 8-320 kbit/s .
Aikaisemmin uskottiin laajalti, että 128 kbps :n tallennus soveltui suurimmalle osalle ihmisten kuunteluun tarkoitetusta musiikista, mikä takaa Audio-CD: n äänenlaadun . Todellisuudessa kaikki on paljon monimutkaisempaa. Ensinnäkin tuloksena olevan MP3:n laatu ei riipu pelkästään bittinopeudesta, vaan myös koodausohjelmasta ( codec ) (standardi ei määrittele koodausalgoritmia, se kuvaa vain esitystapaa). Toiseksi, vallitsevan CBR (Constant Bitrate) -tilan (jossa toisin sanoen joka sekunti äänen koodataan samalla bittimäärällä) lisäksi on ABR (Average Bitrate) ja VBR (Variable Bitrate) -tilat. Kolmanneksi 128 kbps:n raja on mielivaltainen, koska se valittiin muodon muodostumisen aikakaudella, jolloin useimpien digitaalisten äänijärjestelmien toistolaatu oli pääsääntöisesti nykyistä alhaisempi. Karkeasti sanottuna väite "ääni-CD-laadusta" 128 kbps:ssä vastaa suhteellisen mukavan musiikin kuuntelun rajaa, jonka alapuolella on voimakasta äänen heikkenemistä kaikissa MP3-koodausohjelmissa.
Vuonna 2008 MP3-tiedostot, joiden bittinopeus on 192 kbps, ovat yleisimpiä, mikä saattaa epäsuorasti viitata siihen, että suurin osa pitää tätä bittinopeutta riittävänä. Todellinen koettu "laatu" riippuu lähdeäänitiedostosta, kuuntelijasta ja heidän äänijärjestelmästään. Jotkut musiikin ystävät haluavat pakata musiikkia "maksimilaadulla" - 320 kbps, tai jopa vaihtaa häviöttömiin koodekkeihin, kuten FLAC . Myös musiikin ystävien / audiofiilien keskuudessa on mielipide , että jotkin näytteet (äänitallenteen fragmentit) eivät sovellu korkealaatuiseen häviölliseen pakkaamiseen: pakatun äänen erottaminen alkuperäisestä ei ole vaikeaa kaikilla mahdollisilla bittinopeuksilla. On kuitenkin myös vakavia vastalauseita [10] :
On aivan ilmeistä, että (otetaan marginaalilla) 256 kbps:n bittinopeuden pitäisi useimmissa tapauksissa olla enemmän kuin riittävä CDA-lähteen musiikin miellyttävään havaitsemiseen (44 kHz/16 bit/stereo). Tämä käy ilmi paitsi kotitekoisesta testistäni myös ammattimaisten sokkotestien analyysistä (esimerkiksi saksankielinen "c't", kesäkuu 2000): edes niissä asiantuntijat eivät aina pysty " arvaa" ääni pakattuna 256 kbps:iin, lisäksi testaus tapahtuu erityisesti valmistetuissa tiloissa ja kalliilla laitteilla, ja asiantuntija tietää mitä "kuunnella" tunteakseen pakkauksen.
MP3-muodosta on kolme versiota eri tarpeisiin: MPEG-1 , MPEG-2 ja MPEG-2.5 . Ne eroavat mahdollisista bittinopeuden ja näytteenottotaajuuden alueista:
Koska MP3-muoto tukee kaksikanavaista (stereo) koodausta, tilaa on 4:
CBR on lyhenne sanoista Constant Bit Rate , eli vakiobittinopeus , jonka käyttäjä asettaa ja joka ei muutu, kun teos koodataan. Siten kappaleen jokainen sekunti vastaa samaa määrää koodattuja databittejä (myös hiljaisuutta koodattaessa). CBR voi olla hyödyllinen kanavarajoitteisille mediavirroille; tällaisessa tapauksessa koodaus käyttää datakanavan kaikkia ominaisuuksia. Tallennustilanteessa tämä koodaustila ei ole optimaalinen, koska se ei voi varata tarpeeksi tilaa alkuperäisen tuotteen monimutkaisille segmenteille ja tuhlaa tilaa yksinkertaisille segmenteille. Suuremmat bittinopeudet (yli 256 kbps ) voivat ratkaista tämän ongelman varaamalla enemmän tilaa tiedoille, mutta myös lisäämällä suhteellisesti tiedostokokoa.
VBR on lyhenne sanoista Variable Bit Rate , eli vaihtuva bittinopeus tai muuttuva bittinopeus , jota kooderiohjelma muuttaa dynaamisesti koodauksen aikana riippuen koodatun äänimateriaalin kylläisyydestä ja käyttäjän asettamasta koodauslaadusta (esim. , hiljaisuus on koodattu minimibittinopeudella). Tämä MP3-koodausmenetelmä on edistyksellisin ja sitä kehitetään ja parannetaan edelleen, koska eri kylläisyydellä olevaa äänimateriaalia voidaan koodata tietyllä laadulla, joka on yleensä korkeampi kuin CBR-menetelmässä asetettuna keskiarvo. Lisäksi tiedostokoko pienenee fragmenttien vuoksi, jotka eivät vaadi suurta bittinopeutta. Tämän koodausmenetelmän haittana on tulostiedoston koon ennustamisen vaikeus. Mutta tämä VBR-koodauksen haittapuoli on merkityksetön verrattuna sen etuihin. Toinen haittapuoli on se, että VBR pitää hiljaisempia fragmentteja "merkittämättömänä" ääniinformaationa, joten käy ilmi, että jos kuuntelet erittäin kovaa, nämä fragmentit ovat huonolaatuisia, kun taas CBR tekee hiljaisia ja äänekkäitä fragmentteja samalla bittinopeudella.
VBR-muoto paranee jatkuvasti, kiitos koodekkien matemaattisen mallin jatkuvan parantamisen, erityisesti ilmaisen LAME MP3 -koodekin päivitetyn version (versio 3.99.3), muuttuvan bittinopeuden koodauksen julkaisun jälkeen, kehittäjien mukaan , on laadullisesti parempi kuin CBR ja vielä enemmän ABR. CBR 320 kbps -muoto on kuitenkin edelleen sijoitettu takaamaan maksimaalisen laadun (se on esimerkiksi käytössä "--preset insane" -esiasetuksessa).
ABR on lyhenne sanoista Average Bit Rate , eli keskimääräinen bittinopeus , joka on VBR:n ja CBR:n hybridi: käyttäjä asettaa bittinopeuden kbps , ja ohjelma muuttaa sitä säätäen sitä jatkuvasti määritettyyn bittinopeuteen. Näin ollen koodekki käyttää huolellisesti maksimi- ja pienintä mahdollista bittinopeutta, koska se on vaarassa, ettei se sovi käyttäjän määrittämälle bittinopeudelle. Tämä on tämän menetelmän selvä haitta, koska se vaikuttaa tulostustiedoston laatuun, joka on hieman parempi kuin CBR:ää käytettäessä, mutta huonompi kuin VBR:ää käytettäessä. Toisaalta tämä menetelmä mahdollistaa joustavimman bittinopeuden asettamisen (se voi olla mikä tahansa luku välillä 8 ja 320, kun CBR-menetelmässä vain 16:n kerrannaiset) ja tulostiedoston koon laskemisen.
Tiedostomuotojen muuntamiseen tarvittavat ohjelmatyypit. Yleisimmät MP3-koodekit.
MP3-tiedosto koostuu useista MP3-fragmenteista (frameista), jotka puolestaan koostuvat otsikosta ja tietolohkosta. Tällaista fragmenttisekvenssiä kutsutaan alkeisvirraksi . Fragmentit eivät ole itsenäisiä elementtejä ("tavuvarasto"), joten niitä ei voida hakea mielivaltaisesti. MP3-tiedoston tietolohko sisältää pakattua ääniinformaatiota taajuuksien ja amplitudien muodossa. Yllä oleva kaavio osoittaa, että MP3-otsikko koostuu merkistä, jota käytetään oikean MP3-fragmentin löytämiseen. Tätä seuraa bitti, joka osoittaa, että MPEG -standardia käytetään , ja kaksi bittiä, jotka osoittavat, että kerrosta 3 käytetään; toisin sanoen se määrittelee MPEG-1 Audio Layer 3:n tai MP3:n. Seuraavat arvot voivat vaihdella MP3-tiedostotyypin mukaan. ISO / IEC 11172-3 -standardi määrittelee arvoalueen kullekin otsikkoosalle sekä sen yleiset spesifikaatiot. Useimmat MP3-tiedostot sisältävät tällä hetkellä ID3-metatietoja , jotka edeltävät tai seuraavat MP3-segmenttiä; ne näkyvät myös kaaviossa.
Tunnisteet ( englanninkielisestä tagista - label, label, tag) - tunnisteet MP3-tiedoston rajojen sisällä (alkussa ja/tai lopussa). Ne voivat sisältää tietoja tekijästä, albumista, julkaisuvuodesta, albumin kansista ja sanoituksista sekä muuta tietoa kappaleesta. Tunnisteiden myöhemmissä versioissa on mahdollista tallentaa muita äänitallenteen tietoja. Tunnisteista on olemassa erilaisia versioita (katso: ID3 ).
Teknisiä puutteita. Äänikanavien määrä on rajoitettu kahteen, toisin kuin AAC ja Vorbis . Mahdollisella näytteenottotaajuudella on myös kova raja: mielivaltaista näytteenottotaajuutta ei voi asettaa. MP3:n suurin näytteenottotaajuus on 48 kHz, kun taas Vorbiksen suurin näytteenottotaajuus on 192 kHz ja AAC:n 96 kHz. MP3:ssa on mahdollista tallentaa vain seuraavilla näytteenottotaajuuksilla: 8000, 11025, 12000, 16000, 22050, 24000, 32000, 44100 ja 48000 Hz.
Lailliset rajoitukset. MP3-patentin omistaa Alcatel-Lucent , joka vaati lisensoinnin joihinkin muodon käyttöön (MP3-patentit päättyivät 23. huhtikuuta 2017 ).
Yhdysvalloissa keksinnöt julkistettiin yli vuoden ajan[ milloin? ] , ei voida patentoida; Kuitenkin ennen 8. kesäkuuta 1995 myönnettyjen patenttien (melkein täydellinen standardi julkistettiin 6. joulukuuta 1991) voimassaoloaikaa oli mahdollista jatkaa. Tunnetut MP3-salauksen purkamiseen liittyvät patentit päättyivät Yhdysvalloissa joulukuuhun 2012 mennessä; Muiden tietojen mukaan, kun otetaan huomioon vain ennen joulukuuta 1992 jätetyt patentit, näin ei tapahtunut syyskuussa 2015 [ 12] [13] .
Vuonna 2017 kaikki tähän muotoon liittyvät patentit raukesivat, koska tekijänoikeuksien haltijat eivät uusineet niitä [5] .
Sanakirjat ja tietosanakirjat | |
---|---|
Bibliografisissa luetteloissa |
|
MPEG (Moving Picture Experts Group) | |
---|---|
MPEG-1-osat |
|
MPEG-2-osat |
|
MPEG-4 osiot |
|
MPEG-7 osiot |
|
MPEG-21-osat |
|
MPEG-D-osat |
|
Äänen pakkaus | |
---|---|
koodekit | |
Puhe/ääni |
|
Häviötön |
|
Standardit ja formaatit | |
mediasäiliöt | |
---|---|
Video/ääni | |
Audio | |
Musiikki |
|
Raster | |
Vektori | |
Monimutkainen |