Päätöspuun koulutus

Päätöspuukoulutus käyttää päätöspuuta ( ennustavana mallina ) siirtyäkseen objektien havainnoista (esitetty oksissa) päätelmiin objektien tavoitearvoista (esitetty lehdissä). Tämä oppiminen on yksi tilastoissa , tiedon louhinnassa ja koneoppimisessa käytetyistä ennustemallinnusmenetelmistä . Puumalleja, joissa kohdemuuttuja voi saada erilliset arvot, kutsutaan luokituspuiksi . Näissä puurakenteissa lehdet edustavat luokkatunnisteita, ja oksat edustavat ominaisuusliitoksia , jotka johtavat näihin luokkatunnisteisiin . Päätöspuita, joissa kohdemuuttuja voi saada jatkuvia arvoja (yleensä reaalilukuja ), kutsutaan regressiopuiksi .

Päätösanalyysissä päätöspuuta voidaan käyttää visuaalisesti ja eksplisiittisesti esittämään päätöksentekoa . Tiedonlouhinnassa päätöspuu kuvaa tiedot (mutta tuloksena oleva luokituspuu voi olla syöte päätöksentekoon ). Tämä sivu käsittelee tiedon louhinnan päätöspuita .

Keskustelu

Päätöspuuharjoittelu on tiedon louhinnassa yleisesti käytetty tekniikka [1] . Tavoitteena on luoda malli, joka ennustaa kohdemuuttujan arvon joidenkin syötemuuttujien perusteella. Esimerkki näkyy oikealla olevassa kaaviossa. Jokainen sisäinen solmu vastaa yhtä syöttömuuttujista. Tämän syöttömuuttujan jokaiselle mahdolliselle arvolle on lapsille suunnattu reuna. Jokainen lehti edustaa kohdemuuttujan arvoa, joka määräytyy syöttömuuttujien arvojen perusteella juuresta lehtiin.

Päätöspuu on yksinkertainen esitys luokitusesimerkeille. Tässä osiossa oletetaan, että kaikki syöteominaisuudet ovat äärellisiä diskreettejä joukkoja ja että on olemassa yksi kohdeominaisuus nimeltä "luokitus". Jokaista luokituksen elementtiä kutsutaan luokaksi . Päätöspuu tai luokituspuu on puu, jossa jokainen sisäinen (ei-lehti) solmu on merkitty syötteellä. Syöttöparametrilla merkityistä solmusta lähtevät kaaret on merkitty kaikilla mahdollisilla lähtöominaisuuden arvoilla tai kaari johtaa alisteiseen päätössolmuun, jossa on eri tuloominaisuus. Jokainen puun lehti on merkitty luokalla tai todennäköisyysjakaumalla luokkien kesken.

Puu voidaan "kouluttaa" jakamalla joukko osajoukkoihin määritteen arvon tarkistusten perusteella. Tätä prosessia, joka toistetaan rekursiivisesti jokaisessa tuloksena olevassa osajoukossa, kutsutaan rekursiiviseksi osiointiksi . Rekursio lopetetaan, kun solmun osajoukolla on sama kohdemuuttujan arvo tai kun jako ei lisää arvoa ennusteisiin. Tämä päätöspuiden ylhäältä alas induktio ( TDIDT ) prosessi [2] on esimerkki ahneesta algoritmista , ja se on yleisimmin käytetty strategia päätöspuiden oppimiseen tiedoista.

Tiedonlouhinnassa päätöspuita voidaan kuvata myös matemaattisten ja laskennallisten tekniikoiden yhdistelmänä, jolla kuvataan, luokitellaan ja yleistetään tietty tietojoukko.

Tiedot tulevat lomakkeen tietueiden muodossa:

({\textbf {x}},Y)=(x_{1},x_{2},x_{3},...,x_{k},Y)

Riippuva muuttuja Y on kohdemuuttuja, jota yritämme ymmärtää, luokitella tai yleistää. Vektori x koostuu piirteistä x 1 , x 2 , x 3 jne., joita käytetään tehtävässä.

Päätöspuutyypit

Päätöspuita käytetään tiedon louhinnassa , ja niitä on kahta päätyyppiä:

Luokittelupuuanalyysi [ , kun ennustettu tulos on luokka, johon data kuuluu.
Regressiopuuanalyysi , kun ennustettua tuottoa voidaan pitää reaalilukuna (esimerkiksi talon hinta tai potilaan sairaalassaoloaika).

Termi Classification And Regression Tree ( CART) -analyysi on yleinen termi, ja sitä käytetään viittaamaan kahteen edellä mainittuun menettelyyn, joista ensimmäisen otettiin käyttöön Breiman ym. vuonna 1984 [3] . Regressioon käytetyillä puilla ja luokittelussa käytetyillä puilla on joitain yhtäläisyyksiä, mutta niillä on myös eroja, kuten esimerkiksi jaon sijainnin määrittämiseen käytetty menettely [3] .

Jotkut tekniikat, joita usein kutsutaan rakennusmenetelmiksi , rakentavat useamman kuin yhden päätöspuun:

Trees rakentaavaiheittaisen uudenilmentymän painottaen koulutusesiintymiä, joita ei aiemmin sisällytetty malliin. Tyypillinen esimerkki onAdaBoost. Tätä voidaan käyttää sekä regressiotyyppisiin ongelmiin että luokitteluongelmiin [4] [5] .
Päätöspuun pussittaminen, varhainen kokoonpanomenetelmä, joka rakentaa useita päätöspuita ottamalla koulutustiedoista uudelleen näytteitä korvaavilla ja äänestyspuilla ennusteen mukaisiksi [6] .
- Satunnainen metsäluokitin on erityinen säkitystyyppi .
Kiertometsä on lähestymistapa, jossa jokainen päätöspuu opetetaan ensin pääkomponenttianalyysillä ( PCA ) satunnaisessa syöteominaisuuksien osajoukossa [7] .

Päätöspuiden erikoistapaus on päätöslista [8] , joka on yksisuuntainen päätöspuu siten, että missä tahansa sisäisessä solmussa on täsmälleen 1 lehti ja täsmälleen 1 sisäinen solmu lapsina (paitsi alimmainen solmu, jonka ainoa lapsi on yksi arkki). Vaikka nämä luettelot ovat vähemmän ilmeikäs, niitä on helpompi ymmärtää kuin yleiset päätöspuut, koska ne ovat harvassa, mikä mahdollistaa ei-ahneet oppimismenetelmät [9] ja mahdollistaa myös monotoniset rajoitukset [10] .

Päätöspuuharjoittelu on päätöspuun rakentamista luokkamerkityistä harjoituskerroksista. Päätöspuu on vuokaaviomainen rakenne, jossa jokainen sisäinen (ei-lehti) solmu edustaa attribuuttitestiä, jokainen haara edustaa testitulosta ja jokainen lehti (päätesolmu) sisältää luokkatunnisteen. Yläpiste on juurisolmu.

Päätöspuualgoritmeja on monia. Merkittävimpiä ovat:

ID3 ( eng. Iterative Dichotomiser 3 )
C4.5 (ID3-algoritmin seuraaja)
Luokittelu ja regressio rakentamalla päätöspuu. ( englanninkielinen luokitus- ja regressiopuu , CART)
Automaattinen riippuvuuksien havaitseminen khin neliön kriteerillä ( CHi - neliöinen automaattinen vuorovaikutuksen ilmaisin , CHAID). Suorittaa monitasoisen jaon laskeessaan luokituspuita [11] .
Multivariate adaptive regression splines ( eng. Multivariate adaptive regression splines , MARS): laajentaa päätöspuita kvantitatiivisten tietojen parempaa käsittelyä varten.
Ehdolliset päättelypuut . _ Tilastopohjainen lähestymistapa, joka käyttää ei-parametrisia testejä jaettuna kriteerinä, joka on säädetty useille testauksille ylisovituksen välttämiseksi. Tämä lähestymistapa johtaa puolueettoman ennustajan valintaan, eikä se vaadi karsimista [12] [13] .

ID3 ja CART kehitettiin itsenäisesti ja suunnilleen samaan aikaan (vuosina 1970-1980), mutta käyttävät samanlaisia lähestymistapoja päätöspuun kouluttamiseen harjoitustupleista.

Mittarit

Päätöspuun rakennusalgoritmit toimivat yleensä ylhäältä alas valitsemalla jokaisessa vaiheessa muuttujan, joka parhaiten jakaa elementtijoukon [14] . Eri algoritmit käyttävät erilaisia mittareita mitatakseen "paras" ratkaisu. Ne yleensä mittaavat kohdemuuttujan homogeenisuutta osajoukoissa. Alla on joitain esimerkkejä. Näitä mittareita sovelletaan jokaiseen osajoukkoon ja tuloksena saadut arvot yhdistetään (esim. lasketaan keskiarvo) osion laadun mittaamiseksi.

Epäpuhtaus (kriteeri) Gini

Luokittelu- ja regressiopuun (CART) algoritmissa käytetty Gini - kriteeri on mitta siitä, kuinka usein joukosta satunnaisesti valittu elementti on merkitty väärin, jos se on merkitty satunnaisesti alajoukon otsikoiden jakautumisen mukaan. Gini-kriteeri voidaan laskea summaamalla valitulla tunnisteella varustetun elementin todennäköisyys kerrottuna kyseisen elementin luokitteluvirheen todennäköisyydellä. Kriteeri hyväksyy minimiarvon (nolla), kun kaikki solmun tapaukset kuuluvat samaan kohdeluokkaan. $p_{i}$ $i$ ${\displaystyle \sum _{k\neq i}p_{k}=1-p_{i))$

Jos haluat laskea Gini-kriteerin joukolle elementtejä, joissa on luokkia, oletetaan, että , ja anna olla luokalla merkittyjen elementtien osuus joukossa. $J$ ${\displaystyle i\in \{1,2,...,J\))$ $p_{i}$ $i$

\operaattorinimi {I} _{G}(p)=\sum _{i=1}^{J}p_{i}\sum _{k\neq i}p_{k}=\sum _{ i=1}^{J}p_{i}(1-p_{i})=\summa _{i=1}^{J}(p_{i}-{p_{i}}^{2}) =\sum _{i=1}^{J}p_{i}-\sum _{i=1}^{J}{p_{i}}^{2}=1-\sum _{i=1 }^{J}{p_{i}}^{2}

Tietojen saanti

Puun generointialgoritmeissa ID3 , C4.5 ja C5.0. käytetään informaation voittoa , joka perustuu entropian käsitteeseen ja informaatioteorian tiedon määrään .

Entropia määritellään seuraavasti

\mathrm {H} (T)=\operaattorin nimi {I} _{E}\left(p_{1},p_{2},...,p_{J}\right)=-\sum _ {i=1}^{J}{p_{i}\log _{2}p_{i}}

missä ovat murtoluvut, joiden summa on 1, mikä edustaa kunkin luokan prosenttiosuutta, joka on saatu puun jaosta [15] . $p_{1},p_{2},...$

minä G ( T , a ) ⏞ Tietojen saanti = H ( T ) ⏞ Entropia (emo) − H ( T | a ) ⏞ Entropian painotettu summa (lapset) {\displaystyle \overbrace {IG(T,a)} ^{\text{Information Gain}}=\overbrace {\mathrm {H} (T)} ^{\teksti{Entropia (emo))))-\yliviiva { \mathrm {H} (T|a)} ^{\text{Entropian painotettu summa (lapset)}}}

\overbrace {IG(T,a)} ^{\text{Information Gain}}=\overbrace {\mathrm {H} (T)} ^{\teksti{Entropia (emo))))-\yliviiva { \mathrm {H} (T|a)} ^{\text{Entropian painotettu summa (lapset)}}

=-\sum _{i=1}^{J}p_{i}\log _{2}{p_{i}}-\sum _{a}{p(a)\sum _{i =1}^{J}-\Pr(i|a)\log _{2}{\Pr(i|a)))

Kaavassa

Information Gain=Information Gain
Entropia (parent) = Entropia (emo)
Entropian painotettu summa (lapset) = entropian painotettu summa (lapset)

Tietojen vahvistusta käytetään päätettäessä, mitä ominaisuutta käytetään halkaisuun puun rakentamisen jokaisessa vaiheessa. Yksinkertaisuus on paras valinta, joten haluamme pitää puun pienenä. Tätä varten meidän on jokaisessa vaiheessa valittava jako, joka johtaa yksinkertaisimpiin jälkeläisiin solmuihin. Yleisesti käytettyä yksinkertaisuuden mittaa kutsutaan informaatioksi , joka mitataan bitteinä . Puun jokaiselle solmulle tiedon arvo " edustaa odotettua numeroa, joka tarvitaan määrittämään, pitäisikö uusi objekti luokitella kyllä vai ei, kun otetaan huomioon, että esimerkki saavuttaa kyseisen solmun" [15] .

Harkitse esimerkkidatajoukkoa, jossa on neljä attribuuttia: sää (aurinkoinen, pilvinen, sade), lämpötila (kuuma, leuto, kylmä), kosteus (korkea, normaali) ja tuuli (kyllä, ei) binaarisen kohdemuuttujan (kyllä tai ei) kanssa. ja 14 datapistettä. Päätöspuun rakentamiseksi näiden tietojen perusteella meidän on verrattava kunkin neljän puun tiedon vahvistusta, johon se jaetaan yhden neljästä ominaisuudesta mukaan. Jako, jolla on suurin informaatiovahvistus, otetaan ensimmäiseksi jakoksi, ja prosessia jatketaan, kunnes kaikki jälkeläiset ovat alkuarvoja tai kunnes informaatiovahvistus on nolla.

Ominaisuustuulella tehty jako tuottaa kaksi alisolmua , yhden ominaisuuden tuulen , jonka arvo on kyllä , ja yhden solmun, jonka arvo on ei . Tässä tietojoukossa on kuusi datapistettä, joiden arvo on kyllä tuulelle , kolme tavoitearvopelille kyllä ja kolme arvoa ei . Tuuliparametrin kahdeksan jäljellä olevaa datapistettä , joiden arvo on ei , sisältävät kaksi ei ja kuusi kyllä . Tietotuuli = kyllä-solmu lasketaan käyttämällä yllä olevaa entropiayhtälöä. Koska tässä solmussa on yhtä monta kyllä ja ei , meillä on

I_{E}([3,3])=-{\frac {3}{6}}\log _{2}^{}{\frac {3}{6}}-{\frac { 3}{6}}\log _{2}^{}{\frac {3}{6}}=-{\frac {1}{2}}\log _{2}^{}{\frac { 1}{2}}-{\frac {1}{2}}\log _{2}^{}{\frac {1}{2}}=1

Solmulle, jossa tuuli = ei, oli kahdeksan datapistettä, kuusi, joilla oli kyllä -kohde ja kaksi, joilla ei . Näin meillä on

I_{E}([6,2])=-{\frac {6}{8}}\log _{2}^{}{\frac {6}{8}}-{\frac { 2}{8}}\log _{2}^{}{\frac {2}{8}}=-{\frac {3}{4}}\log _{2}^{}{\frac { 3}{4}}-{\frac {1}{4}}\log _{2}^{}{\frac {1}{4}}=0,8112781

Jakamistietojen löytämiseksi laskemme näiden kahden luvun painotetun keskiarvon kuhunkin solmuun osuneiden havaintojen lukumäärän perusteella.

{\displaystyle I_{E}([3,3],[6,2])=I_{E))

(tuuli - kyllä tai ei)

={\frac {6}{14}}\cdot 1+{\frac {8}{14}}\cdot 0.8112781=0.8921589

Löytääksemme jaon tiedonsaannin tuulen avulla meidän on laskettava tiedoissa olevat tiedot ennen jakamista. Alkuperäiset tiedot sisälsivät yhdeksän kyllä ja viisi ei .

I_{E}([9,5])=-{\frac {9}{14}}\log _{2}^{}{\frac {9}{14}}-{\frac { 5}{14}}\log _{2}{\frac {5}{14}}=0,940286

Nyt voidaan laskea informaatiovahvistus, joka saadaan jakamalla tuuliattribuutin mukaan .

IG

(tuuli)

=I_{E}([9,5])-I_{E}([3,3],[6,2])=0,940286-0,8921589=0,0481271

Puun rakentamiseksi meidän on laskettava kunkin mahdollisen ensimmäisen jaon informaatiohyöty. Paras ensimmäinen jako on se, joka tuottaa eniten tietoa. Tämä prosessi toistetaan jokaiselle solmulle (sekalaisten ominaisuuksien kanssa), kunnes puu on rakennettu. Tämä esimerkki on otettu Wittenin, Frankin ja Hallin artikkelista [15] .

Varianssin pienentäminen

CART:ssa [3] esitettyä varianssivähennystä käytetään usein tapauksissa, joissa kohdemuuttuja on jatkuva (regressiopuu), mikä tarkoittaa, että monien muiden mittareiden käyttö vaatisi otantaa ennen käyttöä. Solmun N varianssivähennys määritellään kohdemuuttujan x varianssin kokonaisvähenemisenä , joka johtuu kyseisessä solmussa tapahtuvasta jaosta:

I_{V}(N)={\frac {1}{|S|^{2}}}\sum _{i\in S}\sum _{j\in S}{\frac {1 }{2}}(x_{i}-x_{j})^{2}-\left({\frac {1}{|S_{t}|^{2}}}\sum _{i\in S_{t}}\sum _{j\in S_{t}}{\frac {1}{2}}(x_{i}-x_{j})^{2}+{\frac {1}{ |S_{f}|^{2}}}\summa _{i\in S_{f}}\sum _{j\in S_{f}}{\frac {1}{2}}(x_{i }-x_{j})^{2}\oikea)

jossa , ja ovat indeksien joukko ennen jakamista, indeksien joukko, jonka testi arvioi arvoksi tosi, ja indeksien joukko, joiden testi arvioi epätosi. Jokainen yllä olevista termeistä on arvio poikkeaman suuruudesta , vaikkakin kirjoitettu ilman suoraa viittausta keskiarvoon. $S$ $S_t$ $S_{f}$

Sovellus

Edut

Muiden tietojen analysointimenetelmien joukossa päätöspuilla on useita etuja:

Helppo ymmärtää ja tulkita. Ihmiset pystyvät ymmärtämään päätöspuumalleja lyhyen selityksen jälkeen. Puut voidaan esittää graafisesti siten, että ne on helppo tulkita ilman asiantuntijaa [16] .
Pystyy työskentelemään sekä numeerisen että laadullisen tiedon kanssa [16] . Muut teknikot ovat yleensä erikoistuneet analysoimaan tietoja, joissa on vain yksi muuttujatyyppi. (Esimerkiksi suhdesääntöjä voidaan käyttää vain kategoristen muuttujien kanssa, kun taas hermoverkkoja voidaan käyttää vain numeeristen (määrä)muuttujien kanssa tai skaalata 0/1-arvoihin.)
Vaatii vähän tietojen valmistelua. Muut tekniikat vaativat usein tietojen normalisoimista. Koska puut voivat käsitellä kvalitatiivisia riippumattomia muuttujia, ei ole tarvetta luoda valemuuttujia [16] .
Käyttää valkoista laatikkomallia . Jos annettu tilanne on mallissa havaittavissa, ehdot on helppo selittää Boolen logiikan avulla. Sitä vastoin musta laatikko -mallissa tulosten selitystä on yleensä vaikea ymmärtää esimerkiksi keinotekoisen hermoverkon käytön vuoksi .
Voit varmistaa mallin oikeellisuuden tilastollisilla testeillä. Tämä mahdollistaa mallin oikeellisuuden tarkistamisen.
Ei-tilastollinen lähestymistapa, jossa ei tehdä oletuksia koulutustiedoista tai ennusteiden vaihteluista. Esimerkiksi varianssin jakautumisesta, riippumattomuudesta tai pysyvyydestä ei tehdä oletuksia
Toimii hyvin suurten tietojoukkojen kanssa. Suuri määrä dataa voidaan analysoida tavallisilla laskentaresursseilla kohtuullisessa ajassa.
Heijastavat ihmisen päätöksentekoa tarkemmin kuin muut lähestymistavat [16] . Tästä voi olla hyötyä mallinnettaessa ihmisten päätöksiä ja käyttäytymistä.
Kestää paremmin kollineaarisuutta.
Suoritetun ominaisuuden valinnan mukaan . Muita hyödyttömiä ominaisuuksia käytetään vähemmässä määrin, jotta ne voidaan poistaa myöhemmiltä ajoilta.
Päätöspuut voidaan approksimoida millä tahansa Boolen funktiolla, joka vastaa XOR:ta [17] .

Rajoitukset

Puut voivat olla erittäin epävakaita. Pienet muutokset harjoitustiedoissa voivat johtaa merkittäviin muutoksiin puussa ja lopulta lopullisiin ennusteisiin [16] .
Tiedetään, että optimaaliseen päätöspuuhun oppimisen ongelma on NP-täydellinen joidenkin optimiteettikysymysten ja jopa yksinkertaisten käsitteiden osalta [18] [19] . Tämän seurauksena käytännön päätöspuun oppimisalgoritmit luottavat heuristiikkaan, kuten ahneeseen algoritmiin , jossa jokaiselle solmulle tehdään paikalliset optimaaliset päätökset. Tällaiset algoritmit eivät voi taata globaalisti optimaalista päätöspuuta. Paikallisen optimiteetin vaikutuksen vähentämiseksi ehdotetaan joitain menetelmiä, kuten kaksoisinformaatioetäisyyspuu ( DID ) [ 20] .

Päätöspuun harjoittelu voi luoda liian monimutkaisia puita, jotka eivät yleisty hyvin harjoitustiedoista (jota kutsutaan ylisovitukseksi [21] ). Mekanismit, kuten trimmaus , ovat välttämättömiä tämän ongelman välttämiseksi (lukuun ottamatta joitakin algoritmeja, lähestymistapoja, kuten ehdollinen päättely , jotka eivät vaadi trimmausta) [ 12] [13] .
Tiedoilla, joilla on laadullisia muuttujia, joilla on eri tasomäärä , tiedon vahvistus päätöspuussa siirretään kohti attribuutteja, joilla on korkeampi taso [22] . Kuitenkin harhaongelma käyttämällä ehdollista päättelyä [12] , kaksivaiheista lähestymistapaa [23] tai mukautuvaa ominaisuuden valintaa yksittäisille objekteille [24] .

Toteutukset

Monet tiedonlouhintapaketit toteuttavat yhden tai useampia päätöspuualgoritmeja.

Esimerkkejä ovat Salford Systems CART (joka lisensoi alkuperäisten CART-tekijöiden omaa koodia) [3] , IBM SPSS Modeler , RapidMiner , SAS Enterprise Miner , Matlab , R (avoimen lähdekoodin ohjelmisto tilastolaskentaan , joka sisältää useita CART-toteutuksia, kuten rpart-, party- ja randomForest-paketit), Weka (avoimen lähdekoodin tiedonlouhintapaketti, joka sisältää useita päätöspuualgoritmeja), Orange , KNIME , Microsoft SQL Server [1] ja scikit -learn (ilmainen ja avoimen lähdekoodin Python -kirjasto koneoppimiseen).

Laajennukset

Päätöskaaviot

Päätöspuussa kaikki polut juurisolmusta lehteen kulkevat konjunktion ( AND ) kautta. Päätöskaaviossa on mahdollista käyttää disjunktiota ( OR ) yhdistää polkuja käyttämällä minimipituista viestiä ( englanniksi Minimum message length , MML) [25] . Päätöskaavioita laajennetaan entisestään aiemmin käyttämättömien attribuuttien resoluutiolla, jotta niitä voidaan harjoitella dynaamisesti ja käyttää graafin eri paikoissa [26] . Yleisempi koodausjärjestelmä johtaa parempiin ennusteisiin ja log-häviön suorituskykyyn. Yleensä päätöskaaviot tuottavat malleja, joissa on vähemmän lehtiä kuin päätöspuut.

Vaihtoehtoiset hakutavat

Evoluutioalgoritmeja on käytetty eliminoimaan paikallisia optimaalisia ratkaisuja ja etsimään päätöspuita pienemmällä ennakkobiasilla [ 27] [28] .

Puut voidaan yksinkertaistaa Monte Carlo -menetelmällä Markov-ketjuille ( Markov chain Monte Carlo , MCMC) [29] .

Puuta voi katsella alhaalta ylös [30] .

Katso myös

Päätöspuiden karsiminen
Binääripäätöskaavio
CHAID
OSTOSKORI
ID3 (algoritmi)
Algoritmi C4.5
Ratkaisevat kannot , joita käytetään esimerkiksi AdaBoost-algoritmissa
Lista ratkaisuista
Inkrementaaliset päätöspuut
Limitetyt päätöspuut
Strukturoitu data-analyysi
Logistinen mallipuu
Hierarkkinen klusterointi

Muistiinpanot

↑ Rokach, Maimon, 2008 .
↑ Quinlan, 1986 , s. 81-106.
↑ 1 2 3 4 Breiman, Friedman, Olshen, Stone, 1984 .
↑ Friedman, 1999 .
↑ Hastie, Tibshirani, Friedman, 2001 .
↑ Breiman, 1996 , s. 123-140.
↑ Rodriguez, Kuncheva, Alonso, 2006 , s. 1619-1630.
↑ Rivest, 1987 , s. 229-246.
↑ Letham, Rudin, McCormick, Madigan, 2015 , s. 1350-1371.
↑ Wang, Rudin, 2015 .
↑ Kass, 1980 , s. 119-127.
↑ 1 2 3 Hothorn, Hornik, Zeileis, 2006 , s. 651–674.
↑ 1 2 Strobl, Malley, Tutz, 2009 , s. 323-348.
↑ Rokach, Maimon, 2005 , s. 476–487.
↑ 1 2 3 Witten, Frank, Hall, 2011 , s. 102–103.
↑ 1 2 3 4 5 Gareth, Witten, Hastie, Tibshirani, 2015 , s. 315.
↑ Mehtaa, Raghavan, 2002 , s. 609–623.
↑ Hyafil, Rivest, 1976 , s. 15-17.
↑ Murthy, 1998 .
↑ Ben-Gal, Dana, Shkolnik, laulaja, 2014 , s. 133-147.
↑ Bramer, 2007 .
↑ Deng, Runger, Tuv, 2011 , s. 293-300.
↑ Brandmaier, von Oertzen, McArdle, Lindenberger, 2012 , s. 71–86.
↑ Painsky ja Rosset, 2017 , s. 2142–2153.
↑ CiteSeerX . Haettu 2. tammikuuta 2019. Arkistoitu alkuperäisestä 21. maaliskuuta 2008. (määrätön)
↑ Tan & Dowe (2003) . Haettu 2. tammikuuta 2019. Arkistoitu alkuperäisestä 28. toukokuuta 2016. (määrätön)
↑ Papagelis, Kalles, 2001 , s. 393-400.
↑ Barros, Basgalupp, Carvalho, Freitas, 2012 , s. 291–312.
↑ Chipman, George, McCulloch, 1998 , s. 935–948.
↑ Barros, Cerri, Jaskowiak, Carvalho, 2011 , s. 450–456.

Kirjallisuus

Lior Rokach, Maimon O. Tiedonlouhinta päätöspuilla: teoria ja sovellukset. - World Scientific Pub Co Inc, 2008. - ISBN 978-9812771711 .
Quinlan JR Päätöspuiden induktio // Koneoppiminen. - Kluwer Academic Publishers, 1986. - Voi. 1 . - S. 81-106 .
Leo Breiman, Friedman JH, Olshen RA, Stone CJ Luokittelu- ja regressiopuut. - Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software, 1984. - ISBN 978-0-412-04841-8 .
Friedman JH Stokastinen gradientin tehostus . - Stanfordin yliopisto, 1999.
Hastie T., Tibshirani R., Friedman JH Tilastollisen oppimisen elementit: Tiedon louhinta, päättely ja ennustaminen. – 2. - New York: Springer Verlag, 2001. - (Springer-sarja tilastoissa). - ISBN 978-0-387-84857-0 .
Breiman L. Bagging Predictors // Koneoppiminen. - 1996. - T. 24 , no. 2 . - doi : 10.1007/BF00058655 .
Rodriguez JJ, Kuncheva LI, Alonso CJ Kiertometsä : Uusi luokitinkokonaisuusmenetelmä // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 2006. - T. 28 , no. 10 . - doi : 10.1109/TPAMI.2006.211 . — PMID 16986543 .
Ron Rivest. Päätösluetteloiden oppiminen // Koneoppiminen. - 1987. - marraskuu ( osa 3 , numero 2 ). - doi : 10.1023/A:1022607331053 .
Ben Letham, Cynthia Rudin, Tyler McCormick, David Madigan. Sääntöjä ja bayesilaista analyysiä käyttävät tulkittavat luokittimet: Paremman aivohalvauksen ennustusmallin rakentaminen // Sovellettujen tilastojen kirjat. - 2015. - T. 9 , no. 3 . - doi : 10.1214/15-AOAS848 . - arXiv : 1511.01644 .
Fulton Wang, Cynthia Rudin. Falling Rule Lists // Journal of Machine Learning Research. - 2015. - T. 38 .
Kass G.V. - 1980. - T. 29 , no. 2 . - doi : 10.2307/2986296 . — .
Hothorn T., Hornik K., Zeileis A. Puolueeton rekursiivinen osiointi: ehdollinen päättelykehys // Journal of Computational and Graphical Statistics. - 2006. - T. 15 , no. 3 . - doi : 10.1198/106186006X133933 . — .
Strobl C., Malley J., Tutz G. Johdatus rekursiiviseen osiointiin: Luokittelu- ja regressiopuiden, pussituksen ja satunnaisten metsien perusteet, sovellus ja ominaisuudet // Psykologiset menetelmät. - 2009. - T. 14 , no. 4 . - doi : 10.1037/a0016973 . — PMID 19968396 .
Rokach L., Maimon O. Päätöspuuluokittajien ylhäältä alas induktio - tutkimus // IEEE Transactions on Systems, Man, and Cybernetics, Osa C. - 2005. - Vol. 35 , no. 4 . - doi : 10.1109/TSMCC.2004.843247 .
Ian Witten, Eibe Frank, Mark Hall. tiedon louhinta. - Burlington, MA: Morgan Kaufmann, 2011. - ISBN 978-0-12-374856-0 .
Max Bramer. Tiedonlouhinnan periaatteet. - Springer-Verlag, 2007. - (Tietojenkäsittelytieteen perustutkinto-aiheet). — ISBN 978-1-84628-765-7 . - doi : 10.1007/978-1-84628-766-4 .
James Gareth, Daniela Witten, Trevor Hastie, Robert Tibshirani. Johdatus tilastooppimiseen. — New York: Springer, 2015. — ISBN 978-1-4614-7137-0 .
Dinesh Mehtaa, Vijay Raghavan. Boolen funktioiden päätöspuun approksimaatiot // Tietojenkäsittelyteoria. - 2002. - T. 270 , no. 1-2 . — S. 609–623 . - doi : 10.1016/S0304-3975(01)00011-1 .
Laurent Hyafil, Rivest RL Optimaalisten binaaristen päätöspuiden rakentaminen on NP-täydellinen // Information Processing Letters. - 1976. - V. 5 , no. 1 . - S. 15-17 . - doi : 10.1016/0020-0190(76)90095-8 .
Murthy S. Päätöspuiden automaattinen rakentaminen tiedoista: Monitieteinen tutkimus // Data Mining and Knowledge Discovery. – 1998.

Irad Ben-Gal, Alexandra Dana, Niv Shkolnik, Gonen Singer. Tehokas päätöspuiden rakentaminen kaksoistietoetäisyysmenetelmällä // Laatuteknologia ja määrällinen hallinta. - 2014. - T. 11 , nro 1 . — s. 133–147 .
Deng H., Runger G., Tuv E. Moniarvoisten attribuuttien ja ratkaisujen tärkeysmittausten harha // Proceedings of the 21st International Conference on Artificial Neural Networks (ICANN) . - 2011. - S. 293-300.
Andreas M. Brandmaier, Timo von Oertzen, John J. McArdle, Ulman Lindenberger. Rakenneyhtälömallipuut. // Psykologiset menetelmät. - 2012. - T. 18 , nro 1 . — s. 71–86 . - doi : 10.1037/a0030001 . — PMID 22984789 .
Amichai Painsky, Saharon Rosset. Puupohjaisten menetelmien ristiin validoitu muuttujavalinta parantaa ennakoivaa suorituskykyä // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 2017. - T. 39 , no. 11 . — S. 2142–2153 . - doi : 10.1109/TPAMI.2016.2636831 . — PMID 28114007 .
Papagelis A., Kalles D. Evolutionaarisia tekniikoita käyttävien päätöspuiden kasvattaminen // Proceedings of the Eightenth International Conference on Machine Learning, 28.6.-1.7.2001. - 2001. - P. 393-400.
Rodrigo C. Barros, Basgalupp kansanedustaja, Carvalho ACPLF, Alex A. Freitas. Tutkimus evoluutioalgoritmeista päätöspuun induktioon // IEEE-transaktiot järjestelmissä, ihmisessä ja kybernetiikassa. - 2012. - T. 42 , no. 3 . — S. 291–312 . - doi : 10.1109/TSMCC.2011.2157494 .
Hugh A. Chipman, Edward I. George, Robert E. McCulloch. Bayesian CART mallihaku // Journal of the American Statistical Association. - 1998. - T. 93 , no. 443 . — S. 935–948 . - doi : 10.1080/01621459.1998.10473750 .
Barros RC, Cerri R., Jaskowiak PA, Carvalho ACPLF Alhaalta ylöspäin suuntautuva vino päätöspuun induktioalgoritmi // Proceedings of the 11th International Conference on Intelligent Systems Design and Applications (ISDA 2011). - 2011. - S. 450-456. — ISBN 978-1-4577-1676-8 . - doi : 10.1109/ISDA.2011.6121697 .

Lue lisää lukemista varten

Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. Tree-Based Methods // An Introduction to Statistical Learning: with Applications in R. - New York: Springer, 2017. - s. 303–336. — ISBN 978-1-4614-7137-0 .

Linkit

Päätöspuiden rakentaminen Pythonissa O'Reillystä.
O'Reillyn lisäys "Päätöspuiden rakentamiseen Pythonissa" .
Päätöspuut opetusohjelma Microsoft Excelillä.
Päätöspuut -sivu osoitteessa aitopics.org , sivu, jolla on kommentoituja linkkejä.
Päätöspuun toteutus Rubyssa (AI4R)
Deep Decision Tree | Toteutus
Päätöspuiden evoluutiooppiminen C++:ssa
Tietojen saamiseen perustuvien päätöspuiden Java-toteutus
Erittäin yksityiskohtainen selitys tiedon saamisesta jakokriteerinä

Koneoppiminen ja tiedon louhinta
Tehtävät	Luokitteluongelma Oppiminen ilman opettajaa Opettajan avustama oppiminen Taantumisanalyysi AutoML Yhdistyksen säännöt Ominaisuuksien erottaminen Ominaisuuksien koulutus Ranking koulutus Kieliopillinen johtaminen Verkko-oppiminen
Opettajan kanssa oppimista	k-lähimmän naapurin menetelmä Naiivi Bayesin luokitin päätöspuu Tuki vektorikonetta Lineaarinen regressio Logistinen regressio perceptron Mallien kokoonpanot Pussittaminen tehostaa satunnainen metsä Asiaankuuluva vektorimenetelmä
ryhmäanalyysi	k-keinomenetelmä Sumea klusterointimenetelmä Hierarkkinen klusterointi EM-algoritmi KOIVU PARANTAA DBSCAN OPTIIKKA Keskimääräinen siirto
Mittasuhteiden vähentäminen	Tekijäanalyysi Pääkomponenttimenetelmä CCA ICA LDA Ei-negatiivinen matriisin laajennus t-SNE
Rakenteellinen ennustaminen	Graafinen todennäköisyysmalli Bayesin verkko Piilotettu Markovin malli CRF
Anomalian havaitseminen	k-lähimmän naapurin menetelmä Paikallinen päästötaso
Piirrä todennäköisyysmallit	Bayesin verkko Markovin verkko Piilotettu Markovin malli
Neuroverkot	Rajoitettu Boltzmann-kone itseorganisoituva kartta Aktivointitoiminto Sigmoidi softmax Radiaalinen kantafunktio Takaisin lisäysmenetelmä Syväoppiminen Monikerroksinen perceptroni Toistuva neuroverkko pitkä lyhytaikainen muisti Hallittu toistuva esto Konvoluutiohermoverkko U-Net Autoenkooderi
Vahvistusoppiminen	Markovin prosessi Bellmanin yhtälö Ahne algoritmi Q-oppiminen SARSA Aikaero (TD)
Teoria	Vapnik-Chervonenkis teoria Bias-dispersion dilemma Laskennallinen oppimisteoria Empiirinen riskin minimointi Occam oppii PAC-oppiminen Tilastollinen oppimisteoria
Lehdet ja konferenssit	NeurIPS ICML ML JMLR ArXiv:cs.LG