CART (Classification and Regression Tree) -algoritmi , kuten nimestä voi päätellä, ratkaisee luokittelu- ja regressioongelmat rakentamalla päätöspuun. Sen kehittivät vuosina 1974-1984 neljä tilastotieteen professoria: Leo Breiman ( Berkeley ), Jerome Friedman( Stanford ), Charles Stone (Charles Stone, Berkeley ) ja Richard Olshen (Richard A. Olshen, Stanford ).
Tähän mennessä on olemassa suuri määrä algoritmeja, jotka toteuttavat päätöspuita: CART , C4.5 , CHAID, CN2, NewId , ITrule ja muut [1] .
CART-algoritmi on suunniteltu rakentamaan binäärinen päätöspuu. Binääripuut (binääripuut) ovat puita, joiden jokaisella solmulla on jaettuna vain kaksi lasta. CART-algoritmissa valitun ryhmän kohteiden "käyttäytyminen" tarkoittaa osuutta lähtöominaisuuden modaalisesta (yleisimmästä) arvosta. Valitut ryhmät ovat sellaisia, joissa tämä osuus on melko korkea. Jokaisessa puun rakentamisen vaiheessa solmuun muodostettu sääntö jakaa annetun esimerkkijoukon kahteen osaan - osaan, jossa sääntö on tosi (lapsi - oikea) ja osaan, jossa sääntö ei ole tosi (lapsi - vasen). [2]
CART-algoritmin etuna on tietty takuu siitä, että jos halutut määritykset ovat olemassa tutkittavassa populaatiossa, ne paljastuvat. Lisäksi CART antaa sinun olla "sulkematta" yhdestä lähtöominaisuuden arvosta, vaan etsiä kaikkia sellaisia arvoja, joille löydät vastaavan selittävän lausekkeen. [3]
CART-menetelmää käytetään nimellisille (yleensä kaksitasoisille) ja ordinaalisille ennustajamuuttujille. Tässä menetelmässä jokaisen solmun kaikki mahdolliset haarautumisvaihtoehdot luetellaan ja valitaan se ennustajamuuttuja, jolle estimaattori antaa parhaan pistemäärän.
Nimelliselle ennustajamuuttujalle , joka ottaa k arvoa tietyssä solmussa, on tasan 2 (k-1) −1 vaihtoehtoa sen arvojen joukon jakamiseksi kahteen osaan.
Järjestysennustajalle , jolla on k eri tasoa tietyssä solmussa, on k-1 pistettä, jotka erottavat eri tasot. Tarkasteltavien eri haaroitusvaihtoehtojen määrä tulee olemaan erittäin suuri: jos tehtävässä on monta ennustajaa, niin niillä on monta arvotasoa, mikä tarkoittaa, että puussa on useita päätepisteitä. Lisäksi tällä menetelmällä on taipumus valita haaroittamiseen niitä ennustajamuuttujia, joilla on enemmän tasoja, joten tarvitaan indikaattori, joka mahdollistaisi konstruoidun mallin laadun arvioinnin. [neljä]
CART-algoritmin käyttämä arviointitoiminto perustuu intuitiiviseen ajatukseen solmun epävarmuuden (heterogeenisyyden) vähentämisestä. Harkitse esimerkkinä ongelmaa, jossa on kaksi luokkaa ja solmu, jossa on 50 esiintymää kustakin luokasta. Solmulla on suurin epävarmuus. Jos löydetään osio, joka jakaa tiedot kahteen alaryhmään, joissa toisessa on 40:5 esimerkkiä ja toisessa 10:45, heterogeenisuus vähenee intuitiivisesti. Se katoaa kokonaan, kun löydetään jako, joka luo alaryhmät 50:0 ja 0:50. CART-algoritmissa epävarmuuden idea on muotoiltu Gini -indeksiin . Jos tietojoukko T sisältää n luokkatietoa, Gini -indeksi määritellään seuraavasti [5]
, jossa pi on luokan i todennäköisyys (suhteellinen esiintyvyys ) T :ssä . Jos joukko T jaetaan kahteen osaan T1 ja T2 esimerkkien lukumäärällä kummassakin N1 ja N2 vastaavasti, niin jakamisen laatuindeksi on yhtä suuri:
Paras osio on se, jolle Ginisplit(T) on minimaalinen. Olkoon N esi-isolmussa olevien esimerkkien lukumäärä, L , R ovat esimerkkien lukumäärä vasemmassa ja oikeassa lapsissa, li ja ri ovat i :nnen luokan esiintymien lukumäärä vasemmassa/oikeassa lapsissa. Sitten osion laatu arvioidaan seuraavalla kaavalla:
Laskelmien määrän vähentämiseksi kaava voidaan muuntaa:
Koska kertomisella vakiolla ei ole merkitystä minimoinnissa:
Tämän seurauksena paras osio on se, jonka arvo on suurin. Näin ollen CART-menetelmällä ”päätöspuuta” rakennettaessa etsitään sellainen haarautumisvaihtoehto, jossa indikaattorin Ginisplit(T) arvo pienenee mahdollisimman paljon .
Tämä mekanismi, jota kutsutaan minimaalisen kustannus-monimutkaisuuden puun karsimiseksi (katso englanninkielisen Wikipedian Karsinta -artikkeli), CART-algoritmi eroaa olennaisesti joistakin muista päätöspuun rakennusalgoritmeista. Tarkasteltavana olevassa algoritmissa karsiminen on kompromissi "oikean kokoisen" puun ja tarkimman luokitusarvion välillä. Karsiminen (harvennus) on tärkeää paitsi puiden yksinkertaistamiseksi, myös liiallisen istutuksen välttämiseksi . Menetelmä koostuu vähenevien puiden sarjan hankkimisesta, mutta kaikkia puita ei oteta huomioon, vaan vain "parhaat edustajat". [yksi]
Ristiinvalidointi on CART-algoritmin monimutkaisin ja samalla alkuperäinen osa. Se on tapa valita lopullinen puu edellyttäen, että tietojoukko on pieni tai tietojoukon tietueet ovat niin spesifisiä, ettei joukkoa ole mahdollista jakaa harjoitus- ja testijoukkoon [1] .
Edut:
Virheet: