Tietojen korruptiolla tarkoitetaan tietojen kirjoittamisen, lukemisen, tallennuksen, siirron tai käsittelyn aikana tapahtuvia tietokoneen tietovirheitä , jotka edustavat tahattomia muutoksia alkuperäiseen tietoon. Tietokone, siirtojärjestelmät ja tallennusjärjestelmät ottavat monia toimenpiteitä säilyttääkseen tietojen eheyden tai virheiden puuttumisen.
Yleensä kun tiedot vioittuvat, kyseiset tiedot sisältävä tiedosto tuottaa odottamattomia tuloksia, kun järjestelmä tai sovellus käyttää sitä. Tulos voi vaihdella pienestä tietojen katoamisesta järjestelmän kaatumiseen. Jos esimerkiksi dokumenttitiedosto on vioittunut, kun käyttäjä yrittää avata tämän tiedoston dokumenttieditorilla, hän saattaa saada virheilmoituksen , jolloin tiedostoa ei välttämättä avata ollenkaan tai se voidaan avata jonkin verran vääristymää (tai joissain tapauksissa täysin vioittunutta). Lisäksi, jos kuvatiedosto on vioittunut, suuri osa tiedoista menetetään.
Jotkut haittaohjelmatyypit voivat tarkoituksella tuhota tiedostoja kirjoittamalla roskaa, vaikka hyvänlaatuiset virukset voivat myös tuhota tiedostoja tahattomasti yrittäessään päästä niihin käsiksi. Jos virus tai troijalainen yrittää muuttaa kriittisten tiedostojen käyttötapaa tietokoneen käyttöjärjestelmässä, koko järjestelmä voi muuttua epävakaaksi.
Jotkin ohjelmat saattavat pyytää sinua korjaamaan tiedostot automaattisesti (virheen sattuessa), ja jotkin ohjelmat eivät voi korjata niitä. Kaikki riippuu tuhoamisesta ja virhettä käsittelevien sovellusten sisäänrakennetusta toiminnasta. Tuhoamiseen on useita syitä.
Tietokonejärjestelmiin liittyy kahden tyyppistä tietojen korruptiota - tunnistamaton ja tunnistettu. Tunnistamaton tietojen korruptio, joka tunnetaan myös nimellä hiljainen tietojen korruptio , johtaa vaarallisimpiin virheisiin, koska ei ole oireita siitä, että tiedot ovat virheellisiä. Tunnistettu tietojen vioittuminen voi olla pysyvää tietojen katoamisen myötä tai tilapäistä, jolloin jotkin järjestelmän osat pystyvät havaitsemaan ja korjaamaan virheen. Jälkimmäisessä tapauksessa todellista tietojen korruptiota ei ole.
Tietojen vioittumista voi tapahtua millä tahansa järjestelmän tasolla keskuspaikasta tallennusvälineisiin. Nykyiset järjestelmät yrittävät havaita korruption monilla tasoilla ja sitten palauttaa tiedot tai korjata korruption. Tämä toiminto onnistuu lähes aina, mutta erittäin harvoissa tapauksissa järjestelmämuistiin haettu tieto vioittuu ja voi aiheuttaa arvaamattomia seurauksia.
Tietojen vioittuminen lähetyksen aikana johtuu useista syistä. Tiedonsiirron keskeytyminen aiheuttaa tiedon menetyksen . Ympäristöolosuhteet voivat vaikuttaa tiedonsiirtoon, erityisesti kun käsitellään langattomia tiedonsiirtomenetelmiä. Tiheät pilvet voivat estää satelliittilähetyksen. Langattomat verkot ovat herkkiä laitteiden, kuten mikroaaltouunien, aiheuttamille häiriöille.
Laitteisto- ja ohjelmistovirheet ovat kaksi tärkeintä tietojen menetyksen syytä . Taustasäteily , pään tuhoutuminen ja laitteen mekaaninen vanheneminen tai kuluminen kuuluvat ensimmäiseen kategoriaan, kun taas ohjelmistovirheet johtuvat yleensä ohjelmakoodin virheistä . Kosmiset säteet aiheuttavat eniten korjattavissa olevia virheitä DRAMissa [1] .
Jotkut virheet jäävät huomaamatta ilman, että levyn laiteohjelmisto tai tietokoneen käyttöjärjestelmä havaitse niitä. Näitä virheitä kutsutaan hiljaiseksi tietojen korruptioksi .
On monia muitakin virhelähteitä kuin itse levyjärjestelmä. Esimerkiksi kaapelit voivat olla löysällä, virta voi olla epävakaa [2] , värinät, kuten kovat äänet [3] voivat vaikuttaa , verkot voivat aiheuttaa tunnistamattomia siirtovirheitä, [4] kosmiset säteet ja monet muut vastaavat syyt aiheuttavat ohjelmiston muistivirheitä ja niin edelleen. 39 000 analysoidusta tallennusjärjestelmästä havaittiin, että 5–10 % järjestelmävirheistä johtui järjestelmien sulautettujen (firmware) ohjelmistojen virheistä [5] . Yhteenvetona voidaan todeta, että CERNin havaintojen mukaan tunnistamattomien virheiden määrä ylittää merkittävästi yhden virheen jokaista 10 16 bittiä kohden [6] . Amazon.com - verkkokauppa tunnistaa saman verran tietojen korruptiota järjestelmissään [7] .
Yksi ongelmista on, että levyasemien kapasiteetti kasvaa jatkuvasti, kun taas niissä olevien virheiden prosenttiosuus pysyy ennallaan. Tietojen korruptioaste pysyy vakiona ajan myötä, mikä tarkoittaa, että nykyaikaiset asemat eivät ole luotettavampia kuin vanhemmat. Vanhemmissa asemissa tietojen vioittumisen mahdollisuus oli hyvin pieni, koska tallennettua dataa oli vähän. Nykyaikaiset asemat ovat paljon todennäköisempiä, koska ne tallentavat paljon enemmän tietoa muuttumatta luotettavammiksi. Siten piilevä tietojen korruptio ei ole vakava huolenaihe niin kauan kuin tallennuslaitteet ovat suhteellisen pieniä ja hitaita. Näin ollen pienikapasiteettisten asemien käyttäjät huomaavat hyvin harvoin piilotettua korruptiota, joten tietojen korruptiota ei pidetty ongelmana, johon pitäisi puuttua. Kuitenkin nykyään suurten asemien ja erittäin nopeiden RAID-ohjainten myötä käyttäjät pystyvät siirtämään 10 16 bittiä riittävän lyhyessä ajassa, jotta tietojen korruption kynnys on helppo saavuttaa [8] .
Esimerkkinä ZFS :n luoja Jeff Bonwick väittää, että Greenplumin nopea tietokanta , joka on erikoistunut suurten tietovarastojen ohjelmistokehitykseen ja analytiikkaan, havaitsee tietojen korruption 15 minuutin välein [9] . Toisena esimerkkinä NetAppin yli 1,5 miljoonalle kiintolevylle 41 kuukauden aikana tekemässä tutkimuksessa havaittiin yli 400 000 piilevää datavirhettä, joista RAID-ohjaimet eivät havainneet yli 30 000:ta. Toisessa CERNin yli kuuden kuukauden aikana tekemässä tutkimuksessa yli 97 petatavun datasta löytyi noin 128 megatavua täysin vioittunutta dataa [10] [11] .
Piilevä tietojen korruptio voi johtaa peräkkäisiin kaatumisiin , joissa järjestelmä voi toimia jonkin aikaa havaitsemattomalla alkuvirheellä, joka aiheuttaa ongelmien määrän asteittaisen lisääntymisen, kunnes korruptio havaitaan [12] . Esimerkiksi tiedostojärjestelmän metatietojen virheet voivat johtaa useiden tiedostojen osittaiseen vioittumiseen tai jopa tehdä koko tiedostojärjestelmän käyttökelvottomaksi.
Kun tietojen korruptio käyttäytyy kuin Poisson-prosessi , jossa jokaisella databitillä on riippumaton pieni todennäköisyys muuttua, tietojen korruptio voidaan havaita tarkistussummien avulla ja usein korjata virheenkorjauskoodeilla .
Jos korjaamaton tietojen korruptio löytyy, voidaan käyttää prosesseja, kuten automaattista tietojen uudelleensiirtoa tai palautusta varmuuskopiosta . Joillakin RAID -ryhmien tasoilla on kyky muistaa ja käyttää pariteettibittejä levyjoukolle tallennetuille tiedoille, ja ne voivat palauttaa vioittuneet tiedot, jos yksi tai useampi levy epäonnistuu toteutetun RAID-tason mukaan. Jotkin suoritinarkkitehtuurit käyttävät erilaisia läpinäkyviä tarkistuksia prosessorin välimuistien , suoritinpuskureiden ja laskentaprosessin tietojen vioittumisen havaitsemiseen ja lieventämiseen . Esimerkiksi Intel Instruction Replay -tekniikka on saatavilla Intel Itanium -suorittimissa . [13]
Levyasemat havaitsevat ja korjaavat monet virheet käyttämällä ECC / CRC - koodeja [14] , jotka on tallennettu levylle kullekin sektorille. Jos asema havaitsee useita sektorin lukuvirheitä, se tekee kopion viallisesta sektorista toiseen levyn osaan ja merkitsee viallisen sektorin tyhjäksi ilman, että käyttöjärjestelmä on osallisena (vaikka tämä saattaa viivästyä seuraavaan sektoriin kirjoittamiseen). . Tätä "hiljaista korjausta" voi hallita SMART , ja useimmille käyttöjärjestelmille on saatavana työkaluja, jotka voivat tarkistaa aseman automaattisesti SMARTin heikkenemisestä johtuvien välittömien vikojen varalta.
Jotkin tiedostojärjestelmät , kuten Btrfs , HAMMER , ReFS ja ZFS , käyttävät sisäisten tietojen ja metatietojen tarkistussummaa havaitakseen piilevän tiedon korruption. Lisäksi, jos korruptio havaitaan ja tiedostojärjestelmä käyttää RAID-mekanismeja, jotka tarjoavat tietojen redundanssin , tällaiset tiedostojärjestelmät voivat rekonstruoida korruption läpinäkyvästi [15] . Tämä lähestymistapa mahdollistaa parannetun tietojen eheyden suojauksen , joka kattaa koko tietopolun , eli päästä päähän -tietosuojaksi , verrattuna muihin lähestymistapoihin, jotka eivät kata muita eheyssuojan tasoja ja mahdollistavat tietojen korruption, kun tiedot siirtyvät tasolta toiselle [ 16]
Tietojen on toinen tapa vähentää tietojen vioittumisen mahdollisuutta, kun levyvirheet havaitaan ja korjataan ennen kuin monia virheitä kertyy. Sen sijaan, että pariteetti tarkistettaisiin jokaisessa lukukerrassa, luku tarkistetaan tavallisen levytarkistuksen aikana, joka suoritetaan usein alhaisen prioriteetin taustaprosessina. Huomaa, että "tietojen puhdistus" aktivoi pariteettitarkistuksen. Jos käyttäjä yksinkertaisesti suorittaa tavallisen ohjelman, joka lukee tietoja levyltä, pariteettia ei tarkisteta ennen kuin lukupariteetti on tuettu ja otettu käyttöön levyalijärjestelmässä.
Jos käytössä on asianmukaiset mekanismit tietojen korruption havaitsemiseksi ja käsittelemiseksi, tämä voi varmistaa tietojen eheyden. Tämä on erityisen tärkeää kaupallisissa sovelluksissa (kuten pankeissa ), joissa havaitsematon virhe voi tuhota tietokantahakemiston tai muuttaa tietoja, mikä voi johtaa rajuihin vaikutuksiin pankkitilille. Tietoa salattaessa tai pakattaessa pieni virhe voi tehdä valtavan tietojoukon hyödyttömäksi [6] .
Data | |
---|---|
|