Päällekkäisyyden poistaminen

Deduplication (myös deduplicatio ; latinan kielestä  deduplicatio - kaksoiskappaleiden poistaminen) on erikoistunut tietoryhmän pakkausmenetelmä , joka käyttää toistuvien tietojen kaksoiskopioiden poistamista pakkausalgoritmina. Tätä menetelmää käytetään yleensä optimoimaan levytilan käyttöä tallennusjärjestelmissä , mutta sitä voidaan käyttää myös verkkoviestinnässä siirrettävän tiedon määrän vähentämiseksi.

Päällekkäisyyden poistamisprosessissa tunnistetaan ja tallennetaan analyysin aikana yksilöllisiä kiinteän kokoisia tietoja ( englanninkielisiä  paloja ) . Analyysin edetessä verrataan kaikkia uusia ja vanhoja elementtejä. Kun kaksoiselementti tunnistetaan, se korvataan viittauksella ainutlaatuiseen esiintymään (tai olemassa oleva viittaus ohjataan siihen), ja kaksoiskappaleen käyttämä tila vapautetaan. Tällaisia ​​toistuvia elementtejä voi olla paljon, minkä ansiosta datajoukon tallentamiseen tarvittavaa määrää voidaan vähentää huomattavasti.

Deduplikaatiota ei kuitenkaan pidä sekoittaa perinteisempiin pakkausalgoritmeihin, kuten LZ77 tai LZO . Nämä algoritmit etsivät yksittäisen tiedoston tietyssä puskurissa (ns. "liukuva ikkuna"), kun taas duplikointialgoritmi etsii kopioita valtavasta datamäärästä.

Edut ja sovellukset

Päällekkäisyyden poistaminen voi vähentää tietyn tiedostojoukon vaatimaa tilaa. Se on tehokkain tapauksissa, joissa tallennetut tiedostot eivät ole kovin erilaisia ​​tai niillä on paljon yhtäläisyyksiä, kuten varmuuskopioissa, joissa suurin osa tiedoista pysyy muuttumattomina edellisestä varmuuskopiosta. Varmuuskopiointijärjestelmät voivat hyödyntää tätä ominaisuutta käyttämällä kiinteitä linkkejä tiedostojen kopioimiseen tai kopioimalla vain muuttuneita tiedostoja. Näistä lähestymistavoista voi kuitenkin olla vain vähän hyötyä, jos vain pieni osa tiedoista on muuttunut suuressa tietolohkossa (esimerkiksi tietokanta tai sähköpostiviestien arkisto).

Tiedonsiirrossa deduplikaatiolla voidaan vähentää lähetettävää tietoa, mikä säästää tiedonsiirtokanavan tarvittavaa kaistanleveyttä .

Myös duplikoinnin poistamista käytetään laajalti virtualisointijärjestelmissä , joissa duplikoinnin avulla voit varata ehdollisesti kunkin virtuaalijärjestelmän toistuvia tietoelementtejä erilliseen tilaan.

Linkit