Puoliohjattu oppiminen ( myös puoliautomaattinen oppiminen tai osittainen oppiminen ) on koneoppimisen menetelmä, ohjatun oppimisen tyyppi , jossa käytetään myös koulutukseen merkitsemätöntä dataa – yleensä pieni määrä merkittyä dataa ja suuri määrä merkitsemätöntä dataa .
Osittain ohjattu oppiminen on väliasemassa ohjaamattoman oppimisen (ilman merkittyjä koulutustietoja) ja ohjatun oppimisen (käyttäen vain merkittyjä tietoja) välillä.
Monet koneoppimisen tutkijat ovat havainneet, että merkitsemätön data, kun sitä käytetään yhdessä pienen määrän merkittyä dataa, voi parantaa harjoittelun tarkkuutta huomattavasti.
Merkittyjen tietojen asettaminen oppimistehtävää varten vaatii usein ammattitaitoista henkilöä (esimerkiksi ääniraidan kääntäminen tekstiksi) tai fyysistä koetta (esimerkiksi proteiinin 3D-rakenteen määrittämiseksi tai öljyn esiintymisen havaitsemiseksi tietyssä aineessa) alue). Siksi tietojen merkitsemisen kustannukset voivat tehdä oppimisprosessista, jossa käytetään vain merkittyjä tietoja, mahdottomaksi, kun taas merkitsemättömän tiedon määrittely ei ole kovin kallista. Tällaisissa tilanteissa puoliautomaattisella oppimisella voi olla suurta käytännön arvoa. Tällainen oppiminen kiinnostaa myös koneoppimisen alalla ja mallina ihmisen oppimiselle.
Kuten ohjatussa oppimisessa, meille annetaan joukko itsenäisiä, identtisesti hajautettuja esimerkkejä sopivilla tunnisteilla . Lisäksi meille annetaan merkitsemättömiä esimerkkejä . Puoliautomaattisen oppimisen tavoitteena on käyttää tätä yhdistettyä tietoa parempien luokittelutulosten saavuttamiseen , jotka voidaan saada joko pudottamalla merkitsemätöntä dataa ja käyttämällä ohjattua oppimista tai pudottamalla tunnisteita ja käyttämällä ohjaamatonta oppimista.
Puoliautomaattinen oppiminen voi kuulua transduktiiviseen oppimiseen tai induktiiviseen oppimiseen . Transduktiivisen oppimisen tavoitteena on johtaa oikeat tunnisteet vain merkitsemättömälle datalle . Induktion tavoitteena on johtaa oikea kartoitus kohteesta - .
Voimme ajatella oppimistehtävää kokeena ja merkittyä dataa muutamaksi esimerkiksi, joita opettaja ratkaisi tunnilla. Opettaja tarjoaa myös joukon ratkaisemattomia ongelmia. Transduktiivisen oppimisen ympäristössä nämä ratkaisemattomat ongelmat ovat kotitentti, jonka haluat tehdä yleisesti ottaen hyvin. Induktiivisessa oppimisympäristössä nämä harjoitusongelmat ovat samanlaisia kuin ne, joita kohtaat luokan kokeessa. Ei ole välttämätöntä (ja Vapnikin periaatteen mukaan järjetöntä) suorittaa transduktiivista oppimista päättelemällä luokittelusääntö kaikille syötteille. Käytännössä muodollisesti transduktioon tai induktioon tarkoitettuja algoritmeja käytetään kuitenkin usein vaihtokelpoisina.
Jotta raakadataa voidaan käyttää, datan taustalla olevalle jakelulle on määritettävä jokin rakenne. Puoliautomaattiset oppimisalgoritmit käyttävät ainakin yhtä näistä oletuksista. [yksi]
Pisteet, jotka sijaitsevat lähellä toisiaan, merkitään yhtä suurella todennäköisyydellä. Samaa oletusta käytetään pääasiassa ohjatussa oppimisessa ja sen etuna on geometrisesti yksinkertaisten ratkaisujen käyttö. Puoliautomaattisen oppimisen tapauksessa sileysoletus tarjoaa lisäksi edun rajaamiseen pienitiheyksisille alueille, joissa on vähemmän pisteitä, jotka ovat lähellä toisiaan mutta eri luokkia.
Tiedoilla on taipumus muodostaa erillisiä klustereita, ja saman klusterin pisteet merkitään todennäköisemmin samoin (vaikka samoja tunnisteita käyttävät tiedot voivat sijaita useissa eri klustereissa). Tämä on sileysoletuksen erityinen tapaus, joka johtaa ominaisuuksien oppimiseen käyttämällä klusterointialgoritmeja .
Tämä oletus pätee, kun datadimensiot ovat redundantteja, eli ne on generoitu tietyllä prosessilla, jolla on vain muutama vapausaste. Tässä tapauksessa merkitsemätön data mahdollistaa generointiprosessin tutkimisen ja sitä kautta pienentämisen .
Esimerkiksi ihmisen ääntä ohjaavat useat äänihuulet, [2] ja eri kasvojen ilmeitä ohjaavat useat lihakset. Näissä tapauksissa on kätevämpää käyttää generoivaa tilaa kuin kaikkien mahdollisten akustisten aaltojen tai vastaavasti kuvien tilaa.
Heuristinen lähestymistapa itseoppimiseen on varhaisin. [1] Se on ollut käytössä 1960-luvulta lähtien (katso esimerkiksi Scudder 1965) [3] ).
Transduktiivisen oppimisen perusteet loi Vladimir Vapnik 1970-luvulla. [4] 1970-luvulla syntyi myös kiinnostus induktiiviseen oppimiseen käyttämällä generatiivisia malleja. Ratsaby ja Venkatesh osoittivat vuonna 1995 Approximate Correct Learningin soveltamisen puoliautomaattiseen oppimiseen, joka perustuu Gaussin sekoitusmalliin. [5]
Puoliautomaattinen oppiminen on viime aikoina tullut suositummaksi ja merkityksellisemmäksi useiden tehtävien vuoksi, joihin on saatavilla valtava määrä merkitsemätöntä dataa (esimerkiksi verkkosivun tekstiä, proteiinisekvenssejä tai kuvia. Katsaus viimeaikaiseen työhön tällä alalla , katso Zhu (2008 [6
Generatiiviset lähestymistavat tilastolliseen oppimiseen pyrkivät ensisijaisesti arvioimaan datapisteiden jakautumista kullekin luokalle. Todennäköisyys , että tietyllä pisteellä on nimike , on verrannollinen Bayesin lauseeseen . Puoliautomaattinen oppiminen, jossa käytetään generatiivisia lähestymistapoja, voidaan nähdä joko ohjatun oppimisen jatkeena (luokittelu ja tiedot aiheesta ) tai ohjaamattoman oppimisen (klusterointi ja jotkin tunnisteet).
Generatiiviset mallit olettavat, että jakaumat ottavat tietyn muodon vektorilla parametroituina . Jos nämä oletukset ovat virheellisiä, merkitsemättömät tiedot voivat itse asiassa heikentää ratkaisun tarkkuutta verrattuna siihen, mikä saataisiin pelkällä merkityllä tiedolla. [7] Jos nämä oletukset ovat kuitenkin oikeita, merkitsemättömät tiedot parantavat suorituskykyä. [5]
Merkitsemätön data jaetaan yksittäisten luokkajakojen sekoituksen mukaan. Jotta leimaamattoman datan sekoituksen jakaumaa voitaisiin tutkia, datan on oltava tunnistettavissa, eli eri parametrien on johdettava erilaisiin tuloksena oleviin jakaumiin. Gaussin sekoitusjakaumat ovat tunnistettavissa ja niitä käytetään yleisesti generatiivisissa malleissa.
Parametrisoitu yhteisjakauma voidaan kirjoittaa ketjusäännöksi. Jokainen vektori liittyy funktioon . Parametri valitaan sitten sen mukaan, että se sopii sekä merkittyihin että merkitsemättömiin tietoihin, tasapainotettuna :
[6]Tämä on toinen tärkeä menetelmäluokka, joka yrittää rajata alueita, jotka sisältävät useita datapisteitä (merkittyjä tai merkitsemättömiä). Yksi yleisimmin käytetyistä algoritmeista on transduktiivinen tukivektorikone tai TSVM (jolla nimestä huolimatta voidaan käyttää myös induktiivista oppimista). Kun SVM ohjattuun oppimiseen etsii erotuspintaratkaisua, jossa on suurin aukko merkityistä tiedoista, TMST:n tavoitteena on merkitä leimaamaton data siten, että erotuspinnan ratkaisussa on suurin aukko kaikkeen dataan verrattuna. Merkittyjen tietojen vakiohäviösilmukan lisäksi merkitsemättömille tiedoille otetaan käyttöön häviötoiminto, joka tarkoittaa . TMOV valitsee sitten toistettavan ytimen Hilbert- avaruudesta minimoimalla säädetyn empiirisen riskin :
Tarkkaa ratkaisua ei voida päättää ei-kuperan termin vuoksi, joten tutkimus keskittyy hyödyllisten approksimaatioiden löytämiseen. [6]
Muita matalatiheyttä jakaumaa toteuttavia lähestymistapoja ovat Gaussin prosessimallit, tiedon järjestäminen ja entropian minimointi (joista TMOV on erikoistapaus).
Graafipohjaiset menetelmät puoliautomaattista oppimista varten käyttävät dataa, joka on esitetty kaaviolla, jossa on solmu jokaiselle nimetylle tai merkitsemättömälle esimerkille. Kaavio voidaan rakentaa käyttämällä aluetietoa tai esimerkkien samankaltaisuuden perusteella. Kaksi yleistä lähestymistapaa ovat kunkin datapisteen yhdistäminen sen lähimpiin naapureihin tai etäisyyden sisällä oleviin esimerkkeihin . Välissä olevan reunan paino on asetettu arvoon .
Monistoregulaation [8] [9] puitteissa graafi toimii moniston edustajana. Lauseke lisätään standardi Tihonov -regulointitehtävään varmistamaan ratkaisun sujuvuus monimuotoisuuden (tehtävän omassa tilassa) sekä ympäröivän syöttöavaruuden suhteen. Minimoimisen tehtävänä on:
[6]missä on toistettavan ytimen Hilbert-avaruus ja monimuotoinen data. Säädösparametrit ja säätelevät tasaisuutta lähi- ja sisätiloissa, vastaavasti. Kaaviota käytetään likimääräiseen sisäiseen regularisointitermiin. Kun olet määritellyt Kirchhoff-matriisin , jossa ja on vektori, saamme:
Joitakin puoliautomaattisia oppimismenetelmiä ei ole mukautettu käyttämään sekä merkittyä että merkitsemätöntä dataa samanaikaisesti, mutta ne voivat käyttää nimeämätöntä dataa ohjattuun oppimiseen. Esimerkiksi merkityt ja nimeämättömät esimerkit voivat kertoa esityksen, metriikan tai datan ytimistä ensimmäisessä valvomattomassa vaiheessa. Sitten ohjatut oppimisprosessit merkitsivät vain esimerkkejä.
Itseoppiminen on puoliautomaattisen oppimisen kääremenetelmä. [10] Aluksi valvotut oppimisprosessit vain merkitsivät dataa. Tätä luokittelua käytetään sitten nimeämättömiin tietoihin, jotta voidaan luoda lisää merkittyjä esimerkkejä ohjattua oppimista varten. Yleisesti ottaen voi olla varma, että jokaisessa vaiheessa lisätään vain luokittelijatunnisteet. [yksitoista]
Yhteistyössä oppiminen on itseoppimisen laajennus, jossa useat luokittelijat työskentelevät erilaisten (ihanteellisessa tapauksessa ei-päällekkäisten) ominaisuusjoukkojen parissa ja luovat merkittyjä esimerkkejä toisilleen. [12]
Ihmisten vastaukset muodollisiin puoliautomaattisiin oppimistehtäviin ovat tuottaneet vaihtelevia johtopäätöksiä merkitsemättömän datan vaikutusasteesta (katso yhteenveto [13] ). Monet luonnolliset oppimistehtävät voidaan nähdä myös esimerkkeinä puoliautomaattisesta oppimisesta. Useimpiin ihmisen oppimisen periaatteisiin liittyy pieni määrä suoria ohjeita (esim. vanhempien lapsuudessa tekemää esineiden merkitseminen) yhdistettynä suureen määrään merkitsemättömiä esimerkkejä (esim. kohteiden tarkkailu nimeämättä tai laskematta niitä tai ainakin jättämättä niitä kuvailematta).
Vauvat ovat herkkiä merkitsemättömän tiedon rakenteelle, kuten kuville koirista ja kissoista tai uros- ja naaraskasvoista. [14] Viimeaikaiset tutkimukset ovat osoittaneet, että imeväiset ja lapset ottavat huomioon paitsi saatavilla olevat merkitsemättömät esimerkit, myös niiden valintaprosessin, joka johtaa merkittyihin esimerkkeihin. [15] [16]
Koneoppiminen ja tiedon louhinta | |
---|---|
Tehtävät | |
Opettajan kanssa oppimista | |
ryhmäanalyysi | |
Mittasuhteiden vähentäminen | |
Rakenteellinen ennustaminen | |
Anomalian havaitseminen | |
Piirrä todennäköisyysmallit | |
Neuroverkot | |
Vahvistusoppiminen |
|
Teoria | |
Lehdet ja konferenssit |
|