Tilastollinen oppimisteoria on malli oppimiskoneille, joka perustuu tilastoihin ja funktionaaliseen analyysiin [1] [2] . Tilastollinen oppimisteoria käsittelee datan perusteella ennustavan funktion löytämisen ongelmia. Tilastollinen oppimisteoria on johtanut menestyksekkäisiin sovelluksiin sellaisilla aloilla kuin tietokonenäkö , puheentunnistus ja bioinformatiikka .
Oppimisen tarkoitus on ymmärrys ja ennakointi. Oppiminen jakautuu useisiin luokkiin, mukaan lukien ohjattu oppiminen , ohjaamaton oppiminen, verkko - oppiminen ja vahvistusoppiminen . Tilastollisen oppimisteorian kannalta ohjattu oppiminen on ymmärrettävintä [3] . Ohjattu oppiminen sisältää oppimisen harjoitustietojoukon avulla Mikä tahansa harjoitushetki on tulo/lähtö-pari, jossa tuloarvo on kartoitettu lähtöarvoon. Oppimisongelmana on rekonstruoida funktio, joka kartoittaa syötteet lähtöihin, jotta funktiota voidaan käyttää tulevien tulojen tulosten ennustamiseen.
Päätelmän tyypistä riippuen ohjatut oppimisongelmat ovat joko regressioongelmia tai luokitteluongelmia . Jos tulos voi olla jatkuvalla alueella, se on regressioongelma. Ohmin lakia käyttämällä esimerkkinä regressio voisi ottaa jännitteen tulona ja antaa virran ulostulona. Regressio voisi löytää jännitteen ja virran välisen suhteen as , niin että
Luokittelutehtävät ovat niitä, joiden tulos on elementti tunnistejoukosta. Luokittelu on hyvin yleistä koneoppimissovelluksissa. Esimerkiksi kasvojentunnistusjärjestelmässä syötteenä olisi kasvojen kuva ja tuloste voisi olla henkilön sukunimi. Syöte voidaan esittää suurena moniulotteisena vektorina, jonka elementit edustavat kuvan pikseleitä.
Harjoittelusarjaan perustuvan ominaisuuden harjoittamisen jälkeen kyseinen ominaisuus testataan testisarjassa, joka ei näy harjoitussarjassa.
Olkoon kaikkien mahdollisten tulojen vektoriavaruus ja kaikkien mahdollisten lähtöjen vektoriavaruus. Tilastollinen oppimisteoria olettaa, että avaruustulon yli on jokin tuntematon todennäköisyysjakauma , eli on olemassa tuntematonta . Harjoitusjoukko koostuu tämän todennäköisyysjakauman esiintymistä ja on merkitty
Jokainen on syöttövektori opetusdatasta ja on tuota tulovektoria vastaava lähtö.
Tällaisessa formalisoinnissa päättelyongelma on löytää sellainen funktio , että . Antaa olla funktioiden tila , jota kutsutaan hypoteesien tilaksi. Hypoteesiavaruus on tila, jota algoritmi tarkastelee. Olkoon tappiofunktio , ennustetun arvon ja todellisen arvon välisen eron metriikka . Odotettu riski määritellään seuraavasti
Objektiivifunktio, paras funktio , joka voidaan valita, on funktio, joka täyttää ehdon
Koska todennäköisyysjakauma ei ole tiedossa, on käytettävä odotetun riskin vertauslukuja. Nämä pisteet perustuvat harjoitussarjaan, otteeseen tästä tuntemattomasta todennäköisyysjakaumasta. Tällaista mittaa kutsutaan empiiriseksi riskiksi: Oppimisalgoritmia, joka valitsee funktion , joka minimoi empiirisen riskin, kutsutaan empiiriseksi riskin minimoimiseksi .
Häviöfunktion valinta on oppimisalgoritmin valitseman funktion määräävän tekijän määrittäminen . Häviöfunktio vaikuttaa myös algoritmin konvergenssinopeuteen. On tärkeää, että häviöfunktio on konveksi [4] .
Erilaisia häviöfunktioita käytetään sen mukaan, onko ongelma regressio vai luokittelu.
Yleisimmin käytetty regression häviöfunktio on neliöllinen häviöfunktio (tunnetaan myös nimellä L2-normi ). Tätä tuttua häviöfunktiota käytetään tavallisessa pienimmän neliösumman menetelmässä . Kaava:
Absoluuttista häviön arvoa (tunnetaan myös nimellä L1-normi ) käytetään myös joskus:
Eräässä mielessä 0-1- indikaattorifunktio on luokitteluongelmien luonnollisin häviöfunktio. Funktio ottaa arvon 0, jos ennustettu tulos vastaa oikeaa arvoa, ja arvon 1, jos ennustettu tulos ei vastaa oikeaa arvoa. Binääriluokituksessa tämä olisi:
missä on Heaviside-funktio .
Koneoppimistehtävissä ylisovituksesta tulee suuri ongelma . Koska oppiminen on ennustetehtävä, tavoitteena ei ole löytää ominaisuutta, joka sopii parhaiten (esikatseltaviin) tietoihin, vaan löytää ominaisuus, joka ennustaa tarkimmin tulevien syötteiden tulosteen. Empiirinen riskien minimointi kuuluu tähän ylisovitusriskiin – löytää funktio, joka sopii dataan tarkasti, mutta ei ennusta tulevaisuutta.
Ylisovitus on oire epävakaista ratkaisuista – pienet muutokset harjoitussarjassa voivat aiheuttaa suuria vaihteluita oppimistoiminnassa. Voidaan osoittaa, että ratkaisun stabiilius voidaan taata [5] [6] . Säännöllistäminen voi ratkaista ylisovitusongelman ja tarjota vakautta.
Regularisointi voidaan tehdä rajoittamalla hypoteesien tilaa . Se voidaan rajoittaa esimerkiksi lineaarisiin funktioihin - tätä voidaan pitää standardin lineaarisen regression ongelman rajoituksena . voidaan rajoittaa astepolynomeihin , eksponentiaaleihin tai rajallisiin funktioihin L1 :ssä . Hypoteesiavaruuden rajoitus sulkee pois ylisovituksen rajoittamalla potentiaalisten funktioiden muotoa, mikä ei salli funktioiden valitsemista, jotka antavat empiirisen riskin mielivaltaisesti lähellä nollaa.
Eräs esimerkki regularisoinnista on Tihonovin regularisointi . Se koostuu minimoinnista
,missä on kiinteä positiivinen parametri. Tikhonov-regulointimenetelmä varmistaa ratkaisun olemassaolon, ainutlaatuisuuden ja stabiilisuuden [7] .
Koneoppiminen ja tiedon louhinta | |
---|---|
Tehtävät | |
Opettajan kanssa oppimista | |
ryhmäanalyysi | |
Mittasuhteiden vähentäminen | |
Rakenteellinen ennustaminen | |
Anomalian havaitseminen | |
Piirrä todennäköisyysmallit | |
Neuroverkot | |
Vahvistusoppiminen |
|
Teoria | |
Lehdet ja konferenssit |
|