ETL

ETL ( englanniksi  Extract, Transform, Load  - kirjaimellisesti " poiminta , muunnos, lataus") on yksi tietovaraston hallinnan pääprosesseista , joka sisältää:

ETL-prosessin näkökulmasta tietovarastoarkkitehtuuri voidaan esittää kolmena komponenttina:

Tietojen liikkumista lähteestä määränpäähän kutsutaan tietovirraksi . Tietovirran organisoinnin vaatimukset kuvailee analyytikko. ETL:ää ei tulisi nähdä vain prosessina tietojen siirtämiseksi sovelluksesta toiseen, vaan myös työkaluna tietojen valmistelemiseksi analysointia varten.

Tietojen poiminta ETL:ssä

ETL-prosessin ensimmäinen vaihe on menettely tietueen poimimiseksi tietolähteistä ja niiden valmistelemiseksi muunnosprosessia varten. Tiedonhakumenettelyä kehitettäessä on ensinnäkin määritettävä, kuinka usein tietoja puretaan OLTP - järjestelmistä tai yksittäisistä lähteistä. Tietojen lataaminen kestää tietyn ajan, jota kutsutaan latausikkunaksi.

Tietojen poimintamenettely voidaan toteuttaa kahdella tavalla:

Poimimisen jälkeen tiedot sijoitetaan ns. "staging-alueelle", jossa jokaisella tietolähteellä on oma taulukko tai erillinen tiedosto tai molemmat.

Tietojen muuntaminen

Tämän vaiheen tarkoituksena on valmistella tiedot sijoitettaviksi tietovarastoon ja tuoda se myöhempää analysointia varten kätevämpään muotoon. Samalla olisi otettava huomioon eräät analyytikon esittämät vaatimukset, erityisesti tietojen laadun tasolle. Tämän vuoksi muunnosprosessissa voidaan ottaa mukaan monenlaisia ​​työkaluja alkaen yksinkertaisimmista työkaluista manuaaliseen tietojen muokkaamiseen ja päättyen järjestelmiin, jotka toteuttavat monimutkaisia ​​tietojenkäsittely- ja puhdistusmenetelmiä. Tietojen muunnosprosessissa ETL:ssä suoritetaan useimmiten seuraavat toiminnot:

Ladataan tietoja

Latausprosessi koostuu tietojen siirtämisestä välitaulukoista tietovarastorakenteeseen. Seuraavan latauksen aikana tietovarastoon ei siirry kaikkia lähteiden tietoja, vaan vain ne tiedot, jotka ovat muuttuneet edellisestä latauksesta kuluneen väliajan aikana. Virtoja on kaksi:

Datatyökaluja käytetään ladattujen tietojen jakamiseen streamissa. Ne tallentavat tietojen tilan jossain vaiheessa ja määrittävät, mitä tietoja on muutettu tai lisätty.

Kirjallisuus