Ennustava mallinnuskieli
Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 6. heinäkuuta 2019 tarkistetusta
versiosta . tarkastukset vaativat
3 muokkausta .
PMML ( Predictive Model Markup Language ) on Data Mining Groupin (DMG) kehittämä XML - pohjainen merkintäkieli , joka tarjoaa sovelluksille tavan määrittää ennakoivaan analytiikkaan ja data-analyysiin liittyviä malleja ja vaihtaa tällaisia malleja PMML-yhteensopivien sovellusten välillä.
PMML tarjoaa sovelluksille toimittajasta riippumattoman menetelmän mallin määrittämiseen, joten omistusoikeudelliset ongelmat ja yhteensopimattomuudet eivät enää ole este mallien jakamiselle sovellusten välillä. Sen avulla käyttäjät voivat kehittää malleja yhden toimittajan sovelluksessa ja käyttää muiden valmistajien sovelluksia mallien visualisointiin, analysointiin, arviointiin ja muuhun käyttöön. Aikaisemmin tämä oli vaikeaa, mutta PMML:n avulla mallien vaihtaminen yhteensopivien sovellusten välillä on helpottunut.
Koska PMML on XML-pohjainen standardi, sen määrittely on XML Schema -kuvauskielen muodossa .
PMML-komponentit
PMML sisältää intuitiivisen kehyksen data-analyysimallin kuvaamiseen, olipa kyseessä sitten keinotekoinen hermoverkko tai logistinen regressio .
Sitä voidaan kuvata seuraavalla komponenttisarjalla [1] [2] :
- Otsikko : sisältää yleisiä tietoja PMML-asiakirjasta, kuten mallin tekijänoikeustiedot, sen kuvauksen, tietoja mallin luomiseen käytetystä sovelluksesta, kuten sen nimen ja version. Se sisältää myös attribuutin aikaleimalle, jota käytetään määrittämään mallin luomispäivämäärä.
- Data Dictionary : sisältää määritelmät kaikista mahdollisista mallissa käytetyistä kentistä. Tässä kenttä määritellään jatkuvaksi, kategoriseksi tai järjestykseksi (optype-attribuutti). Tämän määritelmän mukaan määritetään sitten sopivat arvoalueet sekä tietotyyppi (esimerkiksi merkkijono tai kaksinkertainen tarkkuus).
- Tiedonmuunnokset : Muunnoksilla voit näyttää mukautettuja tietoja vaaditussa muodossa tiedonlouhintamallin käyttöä varten. PMML määrittelee monenlaisia yksinkertaisia datamuunnoksia.
- Normalisointi: kartoittaa arvot numeroihin, syöttö voi olla jatkuvaa tai diskreettiä.
- Diskretisointi: Kartoittaa jatkuvat arvot diskreetteihin arvoihin.
- Arvokartoitus: yhdistää diskreetit arvot erillisiin arvoihin.
- Funktiot: Laskee arvot soveltamalla funktiota yhteen tai useampaan parametriin.
- Aggregointi: Käytetään arvoryhmän yhteenvetoon tai kokoamiseen.
- Malli (Model) : sisältää tiedon louhintamallin määritelmän. Feedforward monikerroksinen keinotekoinen hermoverkko on yleisin hermoverkkojen esitys nykyaikaisissa sovelluksissa, kun otetaan huomioon sen oppimisalgoritmiin liittyvä suosio ja tehokkuus, joka tunnetaan nimellä backpropagation . Tällaista verkkoa edustaa PMML:ssä "NeuralNetwork"-elementti, joka sisältää seuraavat attribuutit:
- Mallin nimi (modelName-attribuutti)
- Toiminnon nimi (functionName-attribuutti)
- Algoritmin nimi (algoritmName-attribuutti)
- Aktivointitoiminto (activationFunction-attribuutti)
- Tasojen lukumäärä (määrite numberOfLayers)
Tätä tietoa seuraa kolmenlaisia hermokerroksia, jotka määrittelevät PMML-dokumentin edustaman hermoverkkomallin arkkitehtuurin. Nämä ovat NeuralInputs-, NeuralLayer- ja NeuralOutputs-attribuutit. Neuraaliverkkojen lisäksi PMML mahdollistaa monien muiden tiedonlouhintamallien esittämisen, mukaan lukien tukivektorikoneen , assosiaatiosäännöt , naiivit bayes-luokittajat , klusterointimallit, tekstimallit, päätöspuut sekä erilaiset regressiomallit.
- Mining Schema : Kaivosskeema sisältää luettelon kaikista mallissa käytetyistä kentistä. Tämä voi olla tietosanakirjassa määritettyjen kenttien osajoukko. Se sisältää tarkkoja tietoja jokaisesta kentästä, kuten:
- Nimi (nimiattribuutti): täytyy viitata tietosanakirjan kenttään
- Käyttötyyppi (usageType-attribuutti): Määrittää, kuinka kenttää käytetään mallissa. Oletusarvot ovat Aktiivinen, Ennustava ja Valinnainen. Ennustettavat kentät ovat niitä, joiden arvot malli ennustaa.
- Outlier Handling (outliers-attribuutti): Määrittää, kuinka poikkeavia arvoja käsitellään. PMML:ssä poikkeavia arvoja voidaan käsitellä puuttuvina arvoina, ääriarvoina (perustuu korkeiden ja matalien arvojen määrittelyyn tietylle alueelle) tai sellaisina kuin ne ovat.
- Puuttuvan arvon korvaussääntö (attribuutin missingValueReplacement): jos tämä attribuutti on määritetty, puuttuva arvo korvataan automaattisesti määritetyllä arvolla.
- Puuttuvan arvon käsittely (attribuutti missingValueTreatment): Ilmaisee, kuinka puuttuva arvo korvataan (esimerkiksi arvo, keskiarvo tai mediaani).
- Kohteet : Voit jälkikäsitellä ennustetun arvon skaalausmuodossa, jos mallin tulos on jatkuva. Kohteita voidaan käyttää myös luokittelutehtäviin. Tässä tapauksessa priorProbability-attribuutti määrittää vastaavan kohdeluokan oletustodennäköisyydet. Sitä käytetään, kun ennustelogiikka ei tuota tulosta itsestään. Näin voi käydä esimerkiksi, jos syötearvo puuttuu eikä puuttuvia arvoja voi määrittää muulla tavalla.
- Output : Tätä elementtiä voidaan käyttää määrittämään kaikki mallilta odotettavissa olevat vaaditut lähtökentät. Nämä ovat ennustetun kentän ominaisuuksia, kuten myös yleensä itse ennustettu arvo, todennäköisyys, klusterin läheisyys (klusterointimalleissa), standardivirhe jne.
PMML 4.x
PMML-versio 4.0 julkaistiin 16. kesäkuuta 2009 [3] [4] [5] .
Uusien ominaisuuksien joukossa:
- Parannetut esikäsittelyominaisuudet : Sisäänrakennettujen toimintojen lisäykset sisältävät joukon logiikkaalgebran operaatioita ja haaroitusoperaattoreita .
- Aikasarjamallit : Uudet eksponentiaaliset tasoitusmallit ; sekä integraatiopisteet ARIMAlle , Seasonal Trend Decomposition ja Spectral Analysisille , jotka on tarkoitus sisällyttää lähitulevaisuudessa.
- Mallin selitys : Mallin arviointi- ja suoritusindikaattorien tallentaminen itse PMML-tiedostoon.
- Useita malleja : ominaisuudet mallien koostumukseen, ryhmittymiin ja segmentointiin (esim. regressioanalyysin ja päätöspuun yhdistäminen ).
- Olemassa olevien elementtien laajentaminen : Moniluokkaisen luokituksen lisääminen tukivektorikoneisiin , assosiaatiosääntöjen parempi esitystapa ja suhteellisten vaaramallien sisällyttäminen .
PMML 4.1 julkaistiin 31. joulukuuta 2011. [6] [7]
PMML 4.2 julkaistiin 28. helmikuuta 2014. [8] [9]
PMML 4.3 julkaistiin 23. elokuuta 2016. [10] [11]
Uusien ominaisuuksien joukossa:
- Uudet mallityypit:
- Gaussin prosessi
- Bayesin verkko
- uusia sisäänrakennettuja toimintoja
- sanamuodon selvennys ja asiakirjojen parannukset
Julkaisuhistoria
Versio 0.7 |
Heinäkuu 1997
|
Versio 0.9 |
Heinäkuu 1998
|
Versio 1.0 |
elokuuta 1999
|
Versio 1.1 |
elokuuta 2000
|
Versio 2.0 |
Elokuu 2001
|
Versio 2.1 |
Maaliskuu 2003
|
Versio 3.0 |
lokakuuta 2004
|
Versio 3.1 |
joulukuuta 2005
|
Versio 3.2 |
toukokuuta 2007
|
Versio 4.0 |
Kesäkuu 2009
|
Versio 4.1 |
joulukuuta 2011
|
Versio 4.2 |
helmikuu 2014
|
Versio 4.2.1 |
Maaliskuu 2015
|
Versio 4.3 |
Elokuu 2016
|
PMML:ää tukevat tuotteet
Valikoima ohjelmistotuotteita PMML:n luomiseen ja käyttöön:
- Angoss KnowledgeSTUDIO : Luo PMML 3.2:n regressiomalleille (logistisille ja lineaarisille), päätöspuille, klusterianalyysille , hermoverkoille ja sääntöpohjaisille malleille (käytetään mittareiden esittämiseen).
- Angoss KnowledgeSEEKER : Luo PMML 3.2:n päätöspuille.
- Angoss StrategyBuilder (laajennus for KnowledgeSEEKER ja KnowledgeSTUDIO) : Luo PMML 3.2:n päätöspuille (käytetään edustamaan strategiapuita).
- IBM InfoSphere Warehouse : Luo PMML 3.0:n ja 3.1:n vain mallisekvensseille. Hyväksyy (arvioi ja renderöi) PMML 3.1:n ja sitä alemmat.
- IBM SPSS Modeler : Luo ja arvioi PMML 3.2:n ja 4.0:n eri malleille.
- IBM SPSS Statistics : Luo PMML 3.2 ja 4.0 eri malleille.
- KNIME : Luo ja isännöi PMML 4.0:aa hermoverkoille , päätöspuille , klusterimalleille, regressiomalleille ja tukivektorikoneille . Versiosta 2.4.0 alkaen KNIME tarjoaa parannetun tuen PMML-esikäsittelylle, mukaan lukien mahdollisuuden muokata olemassa olevaa PMML-koodia.
- KXEN : Luo PMML 3.2:n regressiomalleille (mukaan lukien tiedonlouhintamallit) ja klusterianalyysille .
- Microsoft SQL Server 2008 Analysis Services : Luo ja isännöi PMML 2.1:tä päätöspuita ja klusterianalyysiä varten .
- MicroStrategy : Tukee PMML 2.0-, 2.1-, 3.0-, 3.1-, 3.2- ja 4.0-malleja lineaarista regressiota , logistista regressiota , päätöspuita, klusterianalyysiä , assosiaatiosääntöjä , aikasarjoja , hermoverkkoja ja tukivektorikoneita varten .
- Open Data Groupin Augustus : rakentaa PMML 4.0:aa puille, naiivia bayes-luokittajaa ja sääntöpohjaisia malleja. Hyväksyy PMML 4.0 -puumallit, naiivit bayes-luokittajat, sääntöpohjaiset ja regressiomallit. Aiemmissa versioissa luotiin ja hyväksyttiin regressiomalleja, puumalleja ja naiivi Bayes-luokittelu.
- Oracle Data Mining : Tukee regressiomallien PMML 3.1:n ydinominaisuuksia. Tuoduista malleista tulee Oracle Data Mining (ODM) -malleja, jotka voidaan ladata Exadataan.
- Pervasive DataRush : Luo ja ottaa käyttöön PMML 3.2:n regressiomalleille, päätöspuille ja Naive Bayes -luokittajalle . Luo PMML 3.2:n assosiointisääntöjä ja klusterianalyysiä varten (K-keinokeskuspohjainen).
- Predixion PMML Connection : Hyväksyy PMML 2.0, 2.1, 3.0, 3.1, 3.2 ja 4.0 useille tiedonlouhintamalleille, mukaan lukien päätöspuut, sääntöpohjaiset mallit, tukivektorikone , hermoverkot , naiivi bayes-luokitin , lineaarinen ja logistinen regressio ; ja klusterianalyysi .
- RapidMiner : käyttää ilmaista PMML-laajennusta, usean tyyppisiä malleja voidaan viedä PMML:ään.
- Rattle/R : Käyttää R:tä (ohjelmointikieli) useiden ennustavien mallien rakentamiseen. Tarjoaa PMML-paketin R-mallien vientiä varten PMML 3.2:een. Paketti tukee tukivektorikoneen , lineaarisen regression, logistisen regression , päätöspuiden, satunnaismetsän , hermoverkkojen , k-keskiarvojen ja hierarkkisten klusterointimallien sekä assosiaatiosääntöjen vientiä .
- Salford-Systems CART : Päätöspuujärjestelmä, joka tuottaa PMML 3.1:n.
- SAND CDBMS 6.1 PMML-laajennus : Hyväksyy PMML-versiot 3.1 ja 3.2 useille tiedonlouhintamalleille, mukaan lukien assosiaatiosäännöt , klusterit, regressio, hermoverkot , naiivi bayes-luokitin , tukivektorikone , sääntöjoukko ja päätöspuumallit. Hyväksyy myös esikäsittelyelementit ja sisäänrakennetut toiminnot.
- SAS Enterprise Miner : Luo PMML 2.1 ja 3.1 useille kaivosmalleille, mukaan lukien lineaarinen regressio, logistinen regressio , päätöspuut, hermoverkot , k- keskiarvot ja assosiaatiosäännöt .
- STATISTICA : luo PMML 2.0 ja 3.0 lineaarisen regression, logistisen regression , päätöspuiden, tukivektorikoneiden ja hermoverkkojen analysointiin
- TIBCO Spotfire Miner 8.1 : Rakentaa ja hyväksyy PMML 2.0:n regressiomalleille, päätöspuille, hermoverkoille , klusterianalyysille ja Naive Bayes -luokittimelle .
- TERADATA Warehouse Miner 5.3.1 : Hyväksyy PMML 2.1 - 3.2 regressiomalleille, päätöspuille, hermoverkkoille , klusterianalyysille ja tiedonlouhintamalleille (regressiotyyppi).
- Weka (Pentaho) : ottaa käyttöön PMML 3.2:n regressiomalleille, päätöspuille, hermoverkoille , sääntöjärjestelmälle ja tukivektorikoneelle .
- Zementis ADAPA : PMML 2.0, 2.1, 3.0, 3.1, 3.2 ja 4.0 erä- ja välitön arviointi useille tiedonlouhintamalleille, mukaan lukien päätöspuut, assosiaatiosäännöt , tukivektorikone , hermoverkot , naiivi bayes-luokitin , sääntöjärjestelmä, lineaarinen ja logistinen regressio sekä Cox-regressio (Cox) ja klusterianalyysimallit . ADAPA hyväksyy myös kaikki PMML-esi- ja jälkikäsittelyelementit, mukaan lukien muunnokset, rivifunktiot, lähdöt ja kohteet.
- Zementis PMML Converter : Tarkistaa, muokkaa ja muuntaa PMML-versiot 2.0, 2.1, 3.0, 3.1, 3.2 ja 4.0.
- Zementis Universal PMML Plug-in : Tietokannan sisäinen arviointi PMML 2.0, 2.1, 3.0, 3.1, 3.2 ja 4.0 useille kaivosmalleille. Saatavilla EMC Greenplum -tietokannasta.
- Intersystems IRIS : Hyväksyy ja suorittaa version 4.1, 4.2 PMML-malleja.
Transform Generator
PMML tarjoaa laajan valikoiman datamuunnoksia, mukaan lukien arvokartoitus, normalisointi ja diskretisointi. Se tarjoaa myös useita sisäänrakennettuja toimintoja sekä aritmeettisia ja loogisia operaatioita, jotka voidaan yhdistää esittämään monimutkaisia esikäsittelyvaiheita. Transformations Generator -sovelluksella voit luoda muunnoksen graafisesti ja saada vastaavan PMML-koodin
.
Muistiinpanot
- ↑ A. Guazzelli, M. Zeller, W. Chen ja G. Williams. PMML: avoin standardi mallien jakamiseen . The R Journal , osa 1/1, toukokuu 2009.
- ↑ A. Guazzelli, W. Lin, T. Jena (2010). PMML toiminnassa: Tietojen louhinnan ja ennakoivan analytiikan avoimien standardien voiman vapauttaminen . luoda tilaa.
- ↑ Data Mining Groupin verkkosivusto | PMML 4.0 - Muutoksia PMML 3.2:sta Arkistoitu alkuperäisestä 28. heinäkuuta 2012.
- ↑ Zementis-verkkosivusto | PMML 4.0 on täällä! (linkki ei saatavilla) . Haettu 2. syyskuuta 2011. Arkistoitu alkuperäisestä 3. lokakuuta 2011. (määrätön)
- ↑ R. Pechter. Mikä on PMML ja mitä uutta PMML 4.0:ssa? ACM SIGKDD Explorations -uutiskirje , osa 11/1, heinäkuu 2009.
- ↑ Data Mining Groupin verkkosivusto | PMML 4.1 - Muutoksia PMML 4.0:sta
- ↑ Ennustava analytiikkatietosivusto | PMML 4.1 on täällä!
- ↑ Data Mining Groupin verkkosivusto | PMML 4.2 - Muutokset PMML 4.1:stä Arkistoitu alkuperäisestä 20. toukokuuta 2014.
- ↑ Ennustava analytiikkatietosivusto | PMML 4.2 on täällä!
- ↑ Data Mining Groupin verkkosivusto | PMML 4.3 - Muutoksia PMML 4.2.1:stä
- ↑ Ennakoivan mallinkuvauskielen tuotesivusto | projektitoimintaa
Linkit