Tiedonlouhinta ( Russian data mining, data mining, data mining ) on yhteisnimitys, jolla viitataan menetelmiin, joilla havaitaan aiemmin tuntematon, ei-triviaali, käytännöllisesti hyödyllinen ja saatavilla oleva tieto tiedosta , jota tarvitaan päätöksentekoon eri aloilla. ihmisen toiminta. Termin otettiin käyttöön Grigory Pyatetsky-Shapiro vuonna 1989 [1] [2] [3] .
Englanninkielisellä lauseella " datan louhinta " ei ole vielä vakiintunutta käännöstä venäjäksi. Lähetettäessä venäjäksi käytetään seuraavia lauseita [4] : tiedon seulonta , tiedon louhinta, tiedon louhinta sekä tiedon louhinta [ 5] [6] [7] . Täydellisempi ja tarkempi on ilmaus " tiedon löytäminen tietokannoista " ( englanniksi Knowledge Discovery in databases , KDD).
Tiedonlouhintamenetelmien perustana ovat kaikenlaiset päätöspuiden , keinotekoisten hermoverkkojen , geneettisten algoritmien , evolutionaarisen ohjelmoinnin , assosiatiivisen muistin , sumean logiikan käyttöön perustuvat luokittelu-, mallinnus- ja ennustusmenetelmät . Tiedonlouhintamenetelmät sisältävät usein tilastollisia menetelmiä ( kuvausanalyysi , korrelaatio- ja regressioanalyysi , tekijäanalyysi , varianssianalyysi , komponenttianalyysi , diskriminanttianalyysi , aikasarjaanalyysi , eloonjäämisanalyysi , suhdeanalyysi ). Tällaiset menetelmät kuitenkin edellyttävät a priori ajatuksia analysoidusta datasta, mikä on jossain määrin ristiriidassa tiedon louhinnan tavoitteiden kanssa (ennen tuntemattoman ei-triviaalin ja käytännössä hyödyllisen tiedon löytäminen).
Yksi tiedonlouhintamenetelmien tärkeimmistä tavoitteista on laskelmien tulosten visualisointi (visualisointi), joka mahdollistaa tiedon louhintatyökalujen käytön myös henkilöille, joilla ei ole erityistä matemaattista koulutusta.
Tietojen analysoinnin tilastollisten menetelmien soveltaminen edellyttää hyvää todennäköisyysteorian ja matemaattisten tilastojen tuntemusta .
Tiedonlouhintamenetelmät (tai mikä on sama, tiedon löytäminen tiedosta, lyhyesti KDD) sijaitsevat tietokantojen , tilastojen ja tekoälyn risteyksessä [8] .
Tiedonlouhinnan ala alkoi Grigory Pyatetsky-Shapiron vuonna 1989 pitämässä seminaarissa [1] .
Aiemmin GTE Labsissa työskennellessään Grigory Pyatetsky-Shapiro kiinnostui kysymyksestä: onko mahdollista löytää automaattisesti tietyt säännöt joidenkin kyselyjen nopeuttamiseksi suuriin tietokantoihin. Samaan aikaan ehdotettiin kahta termiä - tiedon louhinta ("data louhinta" [9] ) ja tiedon etsiminen tiedoista (joka tulisi kääntää "tiedon löytämiseksi tietokannoista").
Vuonna 1993 julkaistiin ensimmäinen Knowledge Discovery Nuggets -postituslista, ja vuonna 1994 luotiin yksi ensimmäisistä tiedonlouhintasivustoista.
Aluksi tehtävä asetetaan seuraavasti:
On tarpeen kehittää menetelmiä tiedon löytämiseksi, joka on piilotettu suuriin määriin alkuperäistä "raaka" dataa. Nykyisissä globaalin kilpailun olosuhteissa juuri löydetyt mallit (tieto) voivat olla lisäkilpailuedun lähde.
Mitä tarkoittaa "piilotettu tieto"? Sen on tiedettävä:
Nämä vaatimukset määräävät pitkälti tiedonlouhintamenetelmien olemuksen ja sen, missä muodossa ja missä suhteessa tietokannan hallintajärjestelmiä , tilastollisia analyysimenetelmiä ja tekoälymenetelmiä käytetään tiedonlouhintatekniikassa.
Tiedonlouhinta ja tietokannatTiedonlouhintamenetelmiä voidaan soveltaa sekä suuren datan kanssa työskentelyyn että suhteellisen pienten tietomäärien käsittelyyn (saatu esimerkiksi yksittäisten kokeiden tuloksista tai analysoitaessa tietoa yrityksen toiminnasta) . Riittävän tietomäärän kriteerinä otetaan huomioon sekä tutkimusala että käytetty analyysialgoritmi. .
Tietokantatekniikoiden kehitys johti ensin erikoiskielen – tietokantakyselykielen – luomiseen. Relaatiotietokantoja varten tämä on SQL -kieli , joka tarjosi runsaasti mahdollisuuksia tallennettujen tietojen luomiseen, muokkaamiseen ja hakemiseen. Sitten oli tarve hankkia analyyttistä tietoa (esimerkiksi tietoa yrityksen toiminnasta tietyltä ajanjaksolta), ja sitten kävi ilmi, että perinteiset relaatiotietokannat, jotka soveltuvat hyvin esimerkiksi operatiivisen kirjanpidon pitämiseen yrityksessä, ovat huonosti mukautettuja analysointiin. Tämä puolestaan johti ns. " tietovarastot ", joiden rakenne on paras tapa tehdä kattava matemaattinen analyysi.
Tiedonlouhinta ja tekoälyTiedonlouhintamenetelmillä saatu tieto esitetään yleensä kuvioiden (patternien) muodossa . Nämä ovat:
Algoritmit tällaisten mallien etsimiseksi ovat alueiden risteyksessä: tekoäly, matemaattiset tilastot, matemaattinen ohjelmointi, visualisointi, OLAP .
Tiedonlouhinta ja liiketoimintaIBM :n mukaan "big datan" käsittely on "kykyä käyttää tietoa uudella tavalla hyödyllisten ideoiden tai arvokkaiden tavaroiden ja palvelujen luomiseen" Tämä määritelmä käsittelee big dataa eräänlaisena analytiikkana , koska työskentely niiden kanssa tarkoituksena on kerätä hyödyllistä tietoa, joka voi tarjota kilpailuetua [10] .
Tiedonlouhintamenetelmillä ratkaistavat tehtävät jaetaan yleensä kuvaileviin ( englanniksi deskriptiivinen ) ja ennakoiviin ( englanniksi ennustaviin ).
Kuvaavissa tehtävissä on tärkeintä antaa visuaalinen kuvaus olemassa olevista piilomalleista, kun taas ennakoivissa tehtävissä on etusijalla kysymys ennusteesta niille tapauksille, joista ei ole vielä tietoa.
Kuvaaviin tehtäviin kuuluvat:
Ennakointitehtäviä ovat mm.
Luokitteluongelmille on tunnusomaista " ohjattu oppiminen ", jossa mallin rakentaminen (koulutus) suoritetaan näytteelle, joka sisältää tulo- ja lähtövektorit.
Klusterointi- ja assosiaatioongelmiin käytetään ” ohjaamatonta oppimista ”, jossa malli rakentuu näytteelle, jolla ei ole lähtöparametria. Tulosparametrin arvo ("viittaa klusteriin...", "näyttää vektorilta...") valitaan automaattisesti oppimisprosessissa.
Kuvauksen vähentämisongelmille on tunnusomaista se, että niitä ei jaeta tulo- ja lähtövektoreihin . C. Pearsonin klassisesta pääkomponenttianalyysistä lähtien painopiste on tietojen approksimaatiossa .
Useita vaiheita ongelmien ratkaisemisessa tiedonlouhintamenetelmillä:
Ennen tiedonlouhintaalgoritmien käyttöä on valmisteltava joukko analysoituja tietoja. Koska IAD pystyy havaitsemaan vain tiedoissa olevia malleja, lähtötietojen tulee toisaalta olla riittävän suuria, jotta nämä kuviot ovat niissä, ja toisaalta riittävän kompakteja, jotta analyysi kestää hyväksyttävä aika. Useimmiten tietovarastot tai datamarkkinat toimivat lähdetietoina . Moniulotteisen datan analysointi edellyttää valmistautumista ennen klusterointia tai tiedonlouhintaa.
Sitten tiedot suodatetaan. Suodatus poistaa näytteet, joissa on kohinaa ja puuttuvia tietoja.
Suodatetut tiedot pelkistetään piirrejoukkoiksi (tai vektoreiksi, jos algoritmi voi toimia vain kiinteäulotteisten vektoreiden kanssa), yksi ominaisuusjoukko havaintoa kohti. Ominaisuusjoukko muodostetaan niiden hypoteesien mukaan, millä raakadatan ominaisuuksilla on korkea ennusteteho perustuen käsittelyyn vaadittavaan laskentatehoon. Esimerkiksi 100 × 100 pikselin mustavalkoinen kasvokuva sisältää 10 000 bittiä raakadataa. Ne voidaan muuntaa piirrevektoriksi havaitsemalla kuvasta silmät ja suut. Tämän seurauksena datamäärä pienenee 10 tuhannesta bitistä paikkakoodien luetteloon, mikä vähentää merkittävästi analysoitavan tiedon määrää ja siten analyysiaikaa.
Useat algoritmit pystyvät käsittelemään puuttuvia tietoja, joilla on ennakoivaa voimaa (esimerkiksi asiakkaan tietyntyyppisen oston puuttuminen). Esimerkiksi assosiaatiosääntöjen menetelmää käytettäessä ei käsitellä piirrevektoreita, vaan muuttuvien ulottuvuuksien joukkoja.
Tavoitefunktion valinta riippuu siitä, mikä on analyysin tarkoitus; "oikean" toiminnon valinta on onnistuneen tiedon louhinnan perusta.
Havainnot on jaettu kahteen luokkaan - harjoitussarja ja testisarja. Harjoitussarjaa käytetään tiedon louhintaalgoritmin "kouluttamiseen" ja testisarjaa käytetään löydettyjen kuvioiden testaamiseen.
Sanakirjat ja tietosanakirjat | |
---|---|
Bibliografisissa luetteloissa |
|
Tietotekniikka | |
---|---|
Yleiset käsitteet | |
Jäykät mallit | |
Pehmeät menetelmät | |
Sovellukset | |
Tietovarasto | ||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||||||
| ||||||||||||||
| ||||||||||||||
Kategoria |
Koneoppiminen ja tiedon louhinta | |
---|---|
Tehtävät | |
Opettajan kanssa oppimista | |
ryhmäanalyysi | |
Mittasuhteiden vähentäminen | |
Rakenteellinen ennustaminen | |
Anomalian havaitseminen | |
Piirrä todennäköisyysmallit | |
Neuroverkot | |
Vahvistusoppiminen |
|
Teoria | |
Lehdet ja konferenssit |
|