Tietojen validointi on prosessi , jossa validoidaan erityyppisiä tietoja tiettyyn sovellukseen liittyvien oikeellisuuden ja hyödyllisyyden kriteerien perusteella. Tietojen validointi suoritetaan yleensä ETL -toimintojen suorittamisen jälkeen ja koneoppimismallien tulosten (ennusteiden) oikeellisuuden varmistamiseksi . Tietojen validointia ei sovelleta vain taulukkotietoihin, vaan myös tietojoukkoon, joka sisältää taulukkojoukkoja, tekstiä, graafista tai äänitietoa.
Erilaisia tiedon validointimenetelmiä käytetään automatisoidussa tiedonkäsittelyssä, tilastoissa [1] , tieteellisten ja lääketieteellisten tutkimustulosten keräämisessä ja käsittelyssä sekä muilla aloilla.
Tietojen validointi on yksi keino estää tahallisesti virheellisten, epätäydellisten tai epätarkkojen tietojen vastaanottaminen tietojärjestelmän tai sen komponentin syötöstä, mikä voi johtaa virheellisiin tuloksiin, tietojen katoamiseen ja järjestelmähäiriöihin. Tällaisten virheellisten tietojen ilmaantumisen syyt voivat olla virheet manuaalisessa tietojen syöttöprosessissa, algoritmien ja ohjelmien virheiden seurauksena, tietojen tallennus- ja siirtoprosessissa sekä luotaessa tietoja antureilla ja laitteilla. erilaisia laitteita ja IoT . Validoinnin aikana tietoja, tiedostoja, paketteja ja tietueita voidaan korjata tai sulkea pois, operaattorille tiedotetaan, tietojärjestelmän toiminnan algoritmia voidaan muuttaa.
Validointimenetelmiin voi kuulua visuaalinen validointi, mukaan lukien erilaisten analyyttisten työkalujen käyttö [2] , dataprofilointi ja suodatus [3] , [4] . Tiedon validoimiseksi tietyllä tai tunnetulla jakaumalla ja koneoppimisessa tiedon ajautumisen arvioimiseksi voidaan käyttää tilastollisia menetelmiä jakaumien vertailuun käyttämällä Kolmogorovin sopivuustestiä [5] , [6] .
Suurin käytännön sovellus löytyy menetelmistä, joita voidaan soveltaa heti tietojen syöttöhetkellä järjestelmään:
Tietotyyppitarkistukset varmista, että käyttäjän syöttämät yksittäiset merkit vastaavat yhden tai useamman ennalta määritetyn tietotyypin merkkejä. Esimerkiksi kokonaislukukenttä saattaa vaatia vain merkkien väliltä 0–9 syöttämisen. Yksinkertainen alueen ja rajan tarkistus tarkistaa syötettyjen tietojen yhteensopivuuden määritetyn alueen (minimi-/maksimiarvo) tai määritetyn merkkijonon kanssa. Voit esimerkiksi edellyttää, että laskurin arvo on ei-negatiivinen kokonaisluku ja että salasanan on täytettävä vähimmäispituus ja että se sisältää sekä kirjainkokoa että erikoismerkkejä. Koodi- ja ristiviittaustarkistukset sisältää toiminnot sen tarkistamiseksi, että tiedot ovat yhden tai useamman säännön, vaatimuksen tai niiden joukon mukaisia, ja voivat sisältää ristiviittauksia toimitetuista tiedoista tunnetun hakutaulukon tai hakemistotietopalvelun, kuten LDAP:n, kanssa. Esimerkiksi valuutan tunnistamiseen käytetään All-Russian Valuuttaluokituksen koodia . Strukturoitu tarkistus mahdollistaa muun tyyppisen validoinnin yhdistämisen monimutkaisempaan käsittelyyn, ja se voi sisältää ehdollisen rajoituksen validoinnin koko tietojoukolle tai toimintosarjalle. Johdonmukaisuuden tarkistus johdonmukaisuuden tarkistus varmistaa tietojen johdonmukaisuuden. Esimerkiksi tilauksen toimituspäivämäärää edeltää sen lähetyspäivä. Muototarkistus esimerkiksi maantieteelliset koordinaatit on syötettävä asteina, minuutteina ja sekunteina desimaaliluvulla (historiallinen merkintä). Tarkistaa puuttuvien merkintöjen varalta voit tunnistaa puuttuvat. Kardinaalisuuden tarkistus tarkistaa, että merkinnässä on kelvollinen määrä siihen liittyviä merkintöjä. Esimerkiksi tietueen "Asiakas" on vastattava vähintään yhtä "Tilausta". Tarkistusnumerot käytetään numeeriseen dataan. Virheiden havaitsemiseksi lisätään ylimääräinen numero numeroon, joka lasketaan muista numeroista. Järjestelmien väliset johdonmukaisuuden tarkistukset vertaa eri järjestelmien tietoja varmistaakseen, että ne täsmäävät. Järjestelmät voivat esittää samoja tietoja eri tavoin, jolloin vertailu on muutettava (esimerkiksi yksi järjestelmä voi tallentaa asiakkaan etunimen yhteen kenttään muodossa "Sukunimi, etunimi, isänimi", kun taas toinen käyttää kolme kenttää "Sukunimi", "Nimi ja sukunimi". Tarkistetaan, onko tiedosto olemassa tarkistaa, onko tietynnimistä tiedostoa olemassa. Tämä tarkistus on tarpeen ohjelmille, jotka käyttävät tiedostojen käsittelyä. Läsnäolotarkistus vahvistaa tietojen olemassaolon, esimerkiksi asiakkailla tulee olla sähköpostiosoite. Kantaman tarkistus vahvistaa, että tiedot ovat tietyllä arvoalueella, esimerkiksi todennäköisyyden on oltava välillä 0 ja 1. Viitteellinen eheys Kahden relaatiotietokantataulukon arvot voidaan yhdistää vieraalla avaimella ja ensisijaisella avaimella. Jos vierasavainkentän arvoja ei ole rajoitettu sisäisesti, ne on tarkistettava, jotta voidaan varmistaa, että viittaustaulukko viittaa aina viittaustaulukon riviin. Oikeinkirjoituksen ja kieliopin tarkistus etsii kirjoitus- ja kielioppivirheitä. Ainutlaatuisuustarkastus tarkistaa kunkin arvon ainutlaatuisuuden. Tällaista tarkistusta voidaan soveltaa useaan kenttään kerralla (esimerkiksi osoite, etunimi, sukunimi). Taulukon haun vahvistus vertaa tietoja kelvollisiin arvoihin.Muita menetelmiä ja niiden yhdistelmiä voidaan myös käyttää.
Validointia läpäisemättömän tiedon käyttö voi johtaa tietojärjestelmien toiminnan virheellisiin tai virheellisiin tuloksiin, tietojen ja niiden suhteiden (mukaan lukien koneoppimismallien painot ) katoamiseen, kriittisiin häiriöihin järjestelmien toiminnassa.