OLAP

OLAP ( englanniksi  online analytical processing , interactive analytical processing) on ​​tietojenkäsittelytekniikka, joka koostuu yhteenvetotietojen (aggregoidun) valmistamisesta, joka perustuu suuriin moniulotteisen periaatteen mukaan strukturoituihin tietoryhmiin. OLAP-teknologian toteutukset ovat Business Intelligence -luokan [1] ohjelmistoratkaisujen komponentteja .

OLAP-termin perustaja - Edgar Codd ehdotti vuonna 1993 "12 sääntöä reaaliaikaiseen analyyttiseen käsittelyyn" (samanlainen kuin aiemmin muotoiltu " 12 sääntöä relaatiotietokantoille ").

OLAP-toiminto

Syy OLAPin käyttämiseen kyselyjen käsittelyyn on nopeus. Relaatiotietokannat tallentavat entiteetit erillisiin taulukoihin, jotka ovat yleensä hyvin normalisoituja. Tämä rakenne on kätevä operatiivisille tietokannoille ( OLTP -järjestelmät ), mutta monimutkaiset usean taulukon kyselyt ovat siinä suhteellisen hitaita.

Tuotantotiedoista luotua OLAP-rakennetta kutsutaan OLAP-kuutioksi . Kuutio luodaan liitettävistä taulukoista joko tähtiskeeman tai lumihiutaleskeeman avulla . Tähtikaavion keskellä on tietotaulukko , joka sisältää tärkeimmät tiedot, joiden perusteella kyselyjä tehdään. Faktataulukkoon on liitetty useita taulukoita, joissa on mitat. Nämä taulukot osoittavat, kuinka aggregoitua relaatiodataa voidaan analysoida. Mahdollisten aggregaatioiden lukumäärä määräytyy sen mukaan, kuinka monta tapaa alkuperäiset tiedot voidaan näyttää hierarkkisesti.

Kaikki asiakkaat voidaan esimerkiksi ryhmitellä kaupungin tai maan alueen mukaan (länsi, itä, pohjoinen ja niin edelleen), joten 50 kaupunkia, kahdeksan aluetta ja kaksi maata muodostavat kolme tasoa 60 jäsenen hierarkiassa. Myös asiakkaat voidaan ryhmitellä tuotteiden suhteen; jos tuotteita on 250 20 kategoriassa, kolmessa tuoteryhmässä ja kolmessa tuoteryhmässä, niin aggregaattien määrä on 16 560. Kun kaavioon lisätään dimensiot, mahdollisten vaihtoehtojen määrä nousee nopeasti kymmeniin miljooniin tai enemmän.

OLAP-kuutio sisältää perustiedot ja ulottuvuustiedot (aggregaatit). Kuutio sisältää mahdollisesti kaikki tiedot, joita voidaan tarvita kyselyihin vastaamiseen. Valtavalla määrällä yksiköitä, usein täydellinen laskenta tapahtuu vain joillekin mittauksille, loput se tehdään "tilauksesta".

OLAP-järjestelmiä on kolmenlaisia: [2]

MOLAP on OLAPin klassinen muoto, joten sitä kutsutaan usein yksinkertaisesti OLAPiksi. Se käyttää summaustietokantaa ja luo tarvittavan moniulotteisen tietoskeeman säilyttäen sekä taustalla olevat tiedot että aggregaatit.

ROLAP toimii suoraan relaatiotietokannan kanssa , faktat ja ulottuvuustaulukot tallennetaan relaatiotaulukoihin ja luodaan lisää relaatiotaulukoita aggregaattien tallentamiseen.

HOLAP käyttää relaatiotaulukoita perustietojen tallentamiseen ja moniulotteisia taulukoita aggregaattien tallentamiseen.

ROLAPin erikoistapaus on reaaliaikainen ROLAP ( R-ROLAP ). Toisin kuin ROLAP, R-ROLAP ei luo ylimääräisiä relaatiotaulukoita aggregaattien tallentamiseksi, vaan aggregaatit lasketaan kyselyn hetkellä. Tässä tapauksessa OLAP-järjestelmään lähetetty moniulotteinen kysely muunnetaan automaattisesti relaatiotietojen SQL-kyselyksi.

Jokaisella säilytystyypillä on tiettyjä etuja, vaikka eri valmistajat ovatkin eri mieltä niiden arvioinnista. MOLAP sopii parhaiten pienille tietojoukoille, se laskee nopeasti aggregaatit ja palauttaa vastaukset, mutta tuottaa valtavia määriä dataa. ROLAPia pidetään skaalautuvampana ratkaisuna, edullisempana tallennustilan suhteen, mutta analyyttisten prosessointimahdollisuuksien suhteen on rajoituksia. HOLAP on näiden kahden lähestymistavan keskellä, se skaalautuu melko hyvin ja voittaa useita rajoituksia. R-ROLAP-arkkitehtuuri mahdollistaa OLTP-tietojen reaaliaikaisen moniulotteisen analyysin.

OLAPin käytön monimutkaisuus johtuu kyselyjen luomisesta, taustalla olevien tietojen valitsemisesta ja skeeman suunnittelusta, minkä seurauksena useimmat OLAP-tuotteet sisältävät valtavan määrän esikonfiguroituja kyselyjä. Toinen ongelma on perustiedoissa, niiden on oltava täydellisiä ja johdonmukaisia.

OLAP-toteutukset

Historiallisesti ensimmäinen moniulotteinen tietokannan hallintajärjestelmä, joka on olennaisesti OLAP-toteutus, on IRI :n vuonna 1970 kehittämä Express -järjestelmä (myöhemmin Oracle Corporation osti tuotteen oikeudet ja muutettiin Oracle Databasen OLAP-vaihtoehdoksi ) [3] . OLAP -termin esitteli Edgar Codd vuonna 1993 julkaisemassaan Computerworld -julkaisussa [4] , jossa hän ehdotti 12 analyyttisen käsittelyn periaatetta, jotka ovat samankaltaisia ​​kuin hänen vuosikymmen aiemmin laatimansa 12 relaatiotietokantojen sääntöä , vertailutuotteeksi, joka täyttää , Codd huomautti Arborin Essbase - järjestelmästä ( hyperion osti sen vuonna 1997 , jonka Oracle puolestaan ​​osti vuonna 2007). Erityisesti julkaisu poistettiin myöhemmin Computerworld -arkistosta mahdollisten eturistiriitojen vuoksi, koska Codd tarjosi myöhemmin konsulttipalveluja Arborille [5] .

Toteutuksen suhteen ne jaetaan "fyysiseen OLAP:iin" ja "virtuaaliseen" (relaatio, eng.  Relational OLAP , ROLAP ). "Fyysinen" puolestaan ​​​​jaetaan toteutuksesta riippuen moniulotteiseen ( Englanti  Multidimensional OLAP , MOLAP ) ja hybridiin - ( Englanti  Hybrid OLAP , HOLAP ).

Ensimmäisessä tapauksessa on olemassa ohjelma, joka suorittaa tietojen esilatausvaiheessa OLAP:iin alustavan aggregaattilaskelman (laskennot useista alkuarvoista, esimerkiksi "kuukauden yhteensä"), jotka sitten tallennetaan erityinen moniulotteinen tietokanta, joka tarjoaa nopean haun ja taloudellisen tallennuksen.

Hybriditoteutus on yhdistelmä: itse tiedot tallennetaan relaatiotietokantaan ja aggregaatit moniulotteiseen tietokantaan.

ROLAP-toteutuksissa kaikki tiedot tallennetaan ja käsitellään relaatiotietokannan hallintajärjestelmissä, ja aggregaatioita ei välttämättä ole ollenkaan tai ne luodaan tietokannan tai analyyttisen ohjelmiston välimuistin ensimmäisestä pyynnöstä.

Käyttäjän näkökulmasta kaikki vaihtoehdot näyttävät ominaisuuksiltaan samanlaisilta. OLAP löytää eniten käyttöä taloussuunnittelun tuotteissa, tietovarastoissa ja business intelligence -luokan ratkaisuissa .

Kaupallisia tuotteita ovat: Microsoft SQL Server Analysis Services , Essbase , Oracle Database OLAP Option , IBM Cognos TM1 ; ilmaisia ​​ratkaisuja on useita , joista mainitaan Mondrian ja Palo [6] .

Katso myös

Muistiinpanot

  1. IT-termimääritelmät  (englanniksi)  (linkki, jota ei voi käyttää) . Gartner ( 2011 ). Haettu 12. kesäkuuta 2011. Arkistoitu alkuperäisestä 3. helmikuuta 2012.
  2. Krzysztof J. Cios, Data Mining: A Knowledge Discovery Approach, Springer 2007, ISBN 978-0-387-33333-5  - sivu 123 "4.2 OLAP-palvelinarkkitehtuurit"
  3. Pendse, Nigel. Nykypäivän OLAP-  tuotteiden alkuperä . OLAP-raportti (20. heinäkuuta 2002). — «1992. Essbase julkaistiin. Ensimmäinen hyvin markkinoitu OLAP-tuote, josta tuli markkinoiden johtava OLAP-palvelin vuoteen 1997 mennessä." Käyttöpäivä: 3. tammikuuta 2011. Arkistoitu alkuperäisestä 21. joulukuuta 2007.
  4. Codd, Edgar F. OLAP:n tarjoaminen käyttäjäanalyytikoille: IT-mandaatti // Computerworld . - T. 27 , nro 30 . ISSN 0010-4841 . Arkistoitu alkuperäisestä 11. marraskuuta 1998.
  5. Whitehorn, Mark OLAP ja SPEEDin tarve. Toisessa ulottuvuudessa  (eng.)  (linkki ei ole käytettävissä) . kehittäjä . Rekisteri (26. tammikuuta 2007). – Lehden julkaisun jälkeen se sai jonkin verran mainetta, koska Codd oli tehnyt konsulttityötä Arbor Softwarelle (nykyisin Hyperion). Tämä oli valitettavaa, koska lehdessä keskusteltiin aktiivisesti yhdestä Arborin tuotteista, Essbasesta. Lopulta Computerworld otti epätavallisen askeleen vetäen artikkelin takaisin; kuitenkin tämä paperi merkitsee selvästi termin käytön alkua." Haettu 11. lokakuuta 2011. Arkistoitu alkuperäisestä 3. helmikuuta 2012.
  6. Krzysztof J. Cios, Data Mining: A Knowledge Discovery Approach, Springer 2007, ISBN 978-0-387-33333-5  - sivu 127 "4.5 Esimerkki kaupallisista OLAP-työkaluista"

Linkit