Tietojen puhdistus

Datan puhdistus ( eng.  Data cleansing ) on ​​prosessi, jossa tunnistetaan ja korjataan virheitä, tietojen epäjohdonmukaisuuksia niiden laadun parantamiseksi, joskus luokitellaan kiinteäksi osaksi tiedon louhintaa .

Tietojen puhdistus suoritetaan tietyille tietosarjoille tietokannoissa tai tiedostoissa. Tietojen puhdistamisen tarve syntyy useimmiten integroitaessa erilaisia ​​tietojärjestelmiä ( tietovarastot , yrityksen resurssienhallintajärjestelmät , asiakkuuksien hallintajärjestelmät ).

Tietolähteet eri järjestelmissä ovat usein hajallaan ja eri tilassa. Muunnokset suoritetaan automaattisesti (joidenkin sääntöjen mukaan) tai manuaalisesti (interaktiivisesti).

Tyypillisimpiä siivottavia ja korjattavia aihealueita yritysten tietojärjestelmissä ovat henkilö- ja organisaatiotiedot, osoite- ja yhteystiedot, ja myös manuaalisesti tekstimuodossa syötetyt viitetiedot puhdistetaan.

Linkit