Rajoitettu Boltzmann-kone

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 23.5.2021 tarkistetusta versiosta . tarkastukset vaativat 3 muokkausta .

Rajoitettu Boltzmann-kone ( eng. rajoitettu Boltzmann-kone ), lyhennettynä RBM , on eräänlainen generatiivinen stokastinen hermoverkko , joka määrittää syötetietonäytteiden todennäköisyysjakauman.

Ensimmäisen rajoitetun Boltzmann-koneen rakensi vuonna 1986 Paul Smolensky nimellä Harmonium [1] , mutta se saavutti suosion vasta Hintonin keksittyä nopeasti oppivat algoritmit 2000-luvun puolivälissä.

Kone sai tämän nimen muunnelmana tavanomaisesta Boltzmann-koneesta , jossa hermosolut jaettiin näkyviin ja piilotettuihin, ja yhteydet ovat sallittuja vain erityyppisten hermosolujen välillä, mikä rajoittaa yhteyksiä. Paljon myöhemmin, 2000-luvulla, rajoitetut Boltzmann-koneet saivat lisää suosiota, eikä niitä enää pidetty Boltzmann-koneen muunnelmina, vaan erityiskomponentteina syväoppimisverkkojen arkkitehtuurissa . Yhdistämällä useita kaskadeja rajoitettuja Boltzmann-koneita muodostaa syvä uskomusverkosto , erityinen monikerroksinen hermoverkko, joka voi oppia itse ilman opettajaa backpropagation-algoritmin avulla [2] .

Rajoitettujen Boltzmann-koneiden ominaisuus on kyky kouluttaa ilman opettajaa , mutta tietyissä sovelluksissa rajoitetut Boltzmann-koneet koulutetaan opettajan kanssa. Koneen piilotettu kerros on tiedon syvälliset ominaisuudet, jotka paljastuvat oppimisprosessin aikana (katso myös Tiedon louhinta ).

Rajoitettuilla Boltzmann-koneilla on laaja valikoima sovelluksia - nämä ovat datan ulottuvuuden vähentämisongelmat [ 3 ] , luokitteluongelmat [4] , yhteistyösuodatus [5] , ominaisuuksien oppiminen [ 6] ja aihemallinnus [ 7] .

Rajoitetussa Boltzmann-koneessa neuronit muodostavat kaksiosaisen graafin , graafin toisella puolella on näkyviä hermosoluja (sisääntulo) ja toisella puolella piilotettuja, ja jokaisen näkyvän ja jokaisen piilotetun hermosolun välille muodostuu ristikkäitä. Tällainen kytkentäjärjestelmä mahdollistaa gradienttilaskeutumismenetelmän soveltamisen kontrastiivisella divergenssillä verkkoa opetettaessa [8] .

Verkon rakenne

Rajoitettu Boltzmann-kone perustuu Bernoulli-jakauman binäärielementteihin , jotka muodostavat verkon näkyvät ja piilotetut kerrokset. Tasojen väliset linkit määritetään käyttämällä painomatriisia (koko m × n ) sekä siirtymiä näkyvälle ja piilotetulle tasolle. $v_{i}$ ${\displaystyle h_{j))$ $W=(w_{i,j})$ $a_{i}$ $b_{j}$

Verkkoenergian ( v , h ) käsite otetaan käyttöön muodossa

E(v,h)=-\sum _{i}a_{i}v_{i}-\sum _{j}b_{j}h_{j}-\sum _{i}\sum _ {j}v_{i}w_{i,j}h_{j},

tai matriisimuodossa

E(v,h)=-a^{\mathrm {T} }vb^{\mathrm {T} }hv^{\mathrm {T} }Wh.

Myös Hopfield-verkolla on samanlainen energiatoiminto . Mitä tulee tavalliseen Boltzmannin koneeseen , näkyvän ja piilotetun kerroksen vektoreihin jakautumisen todennäköisyys määräytyy energian avulla [9] :

P(v,h)={\frac {1}{Z}}e^{-E(v,h)},

missä on kaikille mahdollisille verkoille määritelty osiofunktio (toisin sanoen normalisointivakio, joka takaa, että kaikkien todennäköisyyksien summa on yksi). Todennäköisyyden määritys erilliselle syöttövektorille (marginaalijakauma) suoritetaan samalla tavalla kaikkien mahdollisten piilokerrosten konfiguraatioiden summalla [9] : $Z$ ${\näyttötyyli \sum e^{-E(v,h)))$ $Z$

P(v)={\frac {1}{Z}}\sum _{h}e^{-E(v,h)}.

Verkon rakenteesta johtuen kaksiosaisena graafina piilokerroksen yksittäiset elementit ovat toisistaan riippumattomia ja aktivoivat näkyvän kerroksen, ja päinvastoin näkyvän kerroksen yksittäiset elementit ovat toisistaan riippumattomia ja aktivoivat piilotetun kerroksen. kerros [8] . Näkyville elementeille ja piilotetuille elementeille ehdolliset todennäköisyydet v määritetään todennäköisyyksien h tuloilla : $m$ $n$

P(v|h)=\prod _{i=1}^{m}P(v_{i}|h),

ja päinvastoin, ehdolliset todennäköisyydet h määritellään todennäköisyyksien v tulona :

P(h|v)=\prod _{j=1}^{n}P(h_{j}|v).

Erityiset aktivointitodennäköisyydet yhdelle elementille määritellään seuraavasti

P(h_{j}=1|v)=\sigma \left(b_{j}+\sum _{i=1}^{m}w_{i,j}v_{i}\oikea)

P(v_{i}=1|h)=\sigma \left(a_{i}+\sum _{j=1}^{n}w_{i,j}h_{j}\right) ,

missä on kerroksen aktivoinnin logistinen funktio . $\sigma$

Näkyvillä kerroksilla voi olla myös moninominen jakauma , kun taas piilotetuilla kerroksilla on Bernoulli -jakauma . Multinomiaalisuuden tapauksessa softmaxia käytetään logistisen funktion sijasta :

P(v_{i}^{k}=1|h)={\frac {\exp(a_{i}^{k}+\Sigma _{j}W_{ij}^{k}h_ {j})}{\Sigma _{k'=1}^{K}\exp(a_{i}^{k'}+\Sigma _{j}W_{ij}^{k'}h_{j })}},

jossa K on näkyvien elementtien diskreettien arvojen lukumäärä. Tätä esitystapaa käytetään aihemallinnusongelmissa [ 7] ja suositusjärjestelmissä [5] .

Suhde muihin malleihin

Rajoitettu Boltzmann-kone on erikoistapaus tavallisesta Boltzmannin koneesta ja Markovin verkosta [10] [11] . Heidän graafimallinsa vastaa tekijäanalyysin graafimallia [12] .

Oppimisalgoritmi

Oppimistavoitteena on maksimoida järjestelmän todennäköisyys tietyllä näytejoukolla (matriisi, jossa jokainen rivi vastaa yhtä näkyvän vektorin näytettä ), joka määritellään todennäköisyyksien tulona. $V$ $v$

\arg \max _{W}\prod _{v\in V}P(v),

tai, mikä on sama, maksimoi tuotteen logaritmi: [10] [11]

\arg \max _{W}\mathbb {E} [\log P(v)].

Neuraaliverkon kouluttamiseen käytetään kontrastiivisen divergenssin (CD) algoritmia optimaalisten matriisipainojen löytämiseen , Geoffrey Hinton ehdotti sitä alun perin PoE-mallien ("asiantuntija-arvioiden tuote") -mallien harjoittamiseen [13] [14] . Algoritmi käyttää Gibbs-näytteenottoa gradientin laskeutumisproseduurin järjestämiseen , joka on samanlainen kuin neuroverkkojen takaisinetenemismenetelmä. $W$

Yleisesti ottaen yksi kontrastiivisen eron (CD-1) vaihe näyttää tältä:

Yhdelle datanäytteelle v lasketaan piiloelementin todennäköisyydet ja aktivointia sovelletaan piilokerrokselle h annetulle todennäköisyysjakaumakselle.
Lasketaan v :n ja h :n ulkotulo (näytteenotto) , jota kutsutaan positiiviseksi gradienttiksi .
Näytteen h kautta rekonstruoidaan näkyvän kerroksen v' näyte, jonka jälkeen näytteistys suoritetaan uudelleen aktivoimalla piilotettu kerros h' . (Tätä vaihetta kutsutaan Gibbs-näytteenottoksi .)
Seuraavaksi lasketaan ulkotulo , mutta jo vektorit v' ja h' , jota kutsutaan negatiiviseksi gradienttiksi .
Painomatriisi korjataan positiivisen ja negatiivisen gradientin erolla kerrottuna oppimisnopeuden määrittävällä kertoimella: . $W$ $\Delta W=\varepsilon (vh^{\mathsf {T}}-v'h'^{\mathsf {T}})$
Bias a ja b korjataan samalla tavalla: , . $\Delta a=\varepsilon (vv')$ $\Delta b=\varepsilon (tt')$

Käytännön ohjeita oppimisprosessin toteuttamiseen löytyy Jeffrey Hintonin henkilökohtaiselta sivulta [9] .

Katso myös

Linkit

↑ Smolenski, Paul. Luku 6: Tietojenkäsittely dynaamisissa järjestelmissä: Harmony-teorian perusteet // Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Volume 1: Funds (englanniksi) / Rumelhart, David E.; McLelland, James L. - MIT Press , 1986. - s. 194-281. — ISBN 0-262-68053-X . Arkistoitu kopio (linkki ei saatavilla) . Haettu 10. marraskuuta 2017. Arkistoitu alkuperäisestä 13. kesäkuuta 2013. (määrätön)
↑ Hinton, G. Deep belief networks (indefinite) // Scholarpedia . - 2009. - T. 4 , nro 5 . - S. 5947 . doi : 10.4249 /scholarpedia.5947 .
↑ Hinton, G.E.; Salakhutdinov, RR Reducing the Dimensionality of Data with Neural Networks (englanti) // Science : Journal. - 2006. - Voi. 313 , nro. 5786 . - s. 504-507 . - doi : 10.1126/tiede.1127647 . — PMID 16873662 .
↑ Larocelle, H.; Bengio, Y. (2008). Luokittelu erottelevilla rajoitetuilla Boltzmann-koneilla (PDF) . 25. kansainvälisen koneoppimista käsittelevän konferenssin julkaisut - ICML '08. s. 536. DOI : 10.1145/1390156.1390224 . ISBN 9781605582054 . Arkistoitu alkuperäisestä (PDF) 13.10.2017 . Haettu 10.11.2017 . Käytöstä poistettu parametri |deadlink=( ohje )
↑ 1 2 Salakhutdinov, R.; Mnih, A.; Hinton, G. (2007). Rajoitetut Boltzmann-koneet yhteissuodatukseen . Koneoppimista käsittelevän 24. kansainvälisen konferenssin aineisto - ICML '07. s. 791. doi : 10.1145 / 1273496.1273596 . ISBN 9781595937933 .
↑ Coates, Adam; Lee, Honglak; Ng, Andrew Y. (2011). Yksikerroksisten verkkojen analyysi valvomattomassa ominaisuusoppimisessa (PDF) . Kansainvälinen tekoäly- ja tilastokonferenssi (AISTATS). Arkistoitu alkuperäisestä (PDF) 20.12.2014 . Haettu 10.11.2017 . Käytöstä poistettu parametri |deadlink=( ohje )
↑ 1 2 Ruslan Salakhutdinov ja Geoffrey Hinton (2010). Replikoitu softmax: ohjaamaton aihemalli Arkistoitu 25. toukokuuta 2012 Wayback Machinessa . Neuraaliset tiedonkäsittelyjärjestelmät 23
↑ 1 2 Miguel A. Carreira-Perpiñán ja Geoffrey Hinton (2005). Kontrastitiivisesta divergenssioppimisesta. Tekoäly ja tilastot .
↑ 1 2 3 Geoffrey Hinton (2010). Käytännön opas rajoitettujen Boltzmann-koneiden kouluttamiseen arkistoitu 25. syyskuuta 2014 Wayback Machinessa . UTML TR 2010-003, Toronton yliopisto.
↑ 1 2 Sutskever, Ilja; Tieleman, Tijmen. Kontrastsiivisen divergenssin konvergenssiominaisuuksista // Proc . 13. kansainvälinen konferenssi on AI and Statistics (AISTATS): aikakauslehti. - 2010. Arkistoitu 10. kesäkuuta 2015.
↑ 1 2 Asja Fischer ja Christian Igel. Rajoitettujen Boltzmann-koneiden koulutus: Johdanto . Arkistoitu 10. kesäkuuta 2015 Wayback Machinessa . Pattern Recognition 47, s. 25-39, 2014.
↑ María Angélica Cueto; Jason Morton; Bernd Sturmfels. Rajoitettu Boltzmann-koneen geometria (neopr.) // Algebralliset menetelmät tilastoissa ja todennäköisyydessä. - American Mathematical Society, 2010. - V. 516 . - arXiv : 0908.4425 . (linkki ei saatavilla)
↑ Geoffrey Hinton (1999). Products of Experts Arkistoitu 24. syyskuuta 2015 Wayback Machinessa . ICANN 1999 .
↑ Hinton, GE Training Products of Experts Minimizing Contrastive Divergence // Neural Computation : päiväkirja. - 2002. - Voi. 14 , ei. 8 . - P. 1771-1800 . - doi : 10.1162/089976602760128018 . — PMID 12180402 .

Kirjallisuus

Introduction to Restricted Boltzmann Machines Arkistoitu 29. lokakuuta 2012 Wayback Machinessa . Edwin Chenin blogi, 18. heinäkuuta 2011.
Aloittelijan opas rajoitettuihin Boltzmann-koneisiin . Deeplearning4j- dokumentaatio
Rengasmekanismien ymmärtäminen . Deeplearning4j-dokumentaatio, 4. elokuuta 2015.
Python - toteutus arkistoitu 5. maaliskuuta 2017 Wayback Machine of Bernoulli RBM ja opetusohjelma Arkistoitu 5. maaliskuuta 2017 Wayback Machinessa
SimpleRBM arkistoitu 10. kesäkuuta 2018 Wayback Machinessa on erittäin pieni RBM-koodi (24 kt), josta voit oppia kuinka RBM:t oppivat.

Keinotekoisten neuroverkkojen tyypit

Feed-forward-verkko ( Säteittäisten perustoimintojen verkko )
Yksikerroksinen perceptroni
Monikerroksinen Perceptron ( Rosenblatt • Rumelhart )
Hopfieldin verkko
Markovin ketju
Boltzmannin kone
Rajoitettu Boltzmann-kone
Autoencoder ( Denoise autoencoder • Sparse autoencoder • Variational autoencoder )
Syvä luottamuksen verkko
Konvoluutiohermoverkko
Syvä konvoluutiohermoverkko
Käyttöönoton hermoverkko
Deep Convolutional Inverse Graphic Network
Generatiivinen kontradiktorinen verkosto
Toistuva neuroverkko
Rekursiiviset hermoverkot
pitkä lyhytaikainen muisti
Hallittu toistuva esto
Neuraaliset Turingin koneet
Kaksisuuntainen verkko ( Kaksisuuntainen toistuva hermoverkko • Kaksisuuntainen verkko pitkällä lyhytaikaisella muistilla • Kaksisuuntaisesti ohjatut toistuvat neuronit )
Deep Residual Network
Neuraalinen kaikuverkko
Extreme Learning Method
Epävakaiden tilojen menetelmä
Tuki vektorikonetta
Kohosen verkko
Kohosen itseorganisoituva kartta
Kapselin hermoverkko
Assosiatiivinen muisti neuroverkoissa

Koneoppiminen ja tiedon louhinta
Tehtävät	Luokitteluongelma Oppiminen ilman opettajaa Opettajan avustama oppiminen Taantumisanalyysi AutoML Yhdistyksen säännöt Ominaisuuksien erottaminen Ominaisuuksien koulutus Ranking koulutus Kieliopillinen johtaminen Verkko-oppiminen
Opettajan kanssa oppimista	k-lähimmän naapurin menetelmä Naiivi Bayesin luokitin päätöspuu Tuki vektorikonetta Lineaarinen regressio Logistinen regressio perceptron Mallien kokoonpanot Pussittaminen tehostaa satunnainen metsä Asiaankuuluva vektorimenetelmä
ryhmäanalyysi	k-keinomenetelmä Sumea klusterointimenetelmä Hierarkkinen klusterointi EM-algoritmi KOIVU PARANTAA DBSCAN OPTIIKKA Keskimääräinen siirto
Mittasuhteiden vähentäminen	Tekijäanalyysi Pääkomponenttimenetelmä CCA ICA LDA Ei-negatiivinen matriisin laajennus t-SNE
Rakenteellinen ennustaminen	Graafinen todennäköisyysmalli Bayesin verkko Piilotettu Markovin malli CRF
Anomalian havaitseminen	k-lähimmän naapurin menetelmä Paikallinen päästötaso
Piirrä todennäköisyysmallit	Bayesin verkko Markovin verkko Piilotettu Markovin malli
Neuroverkot	Rajoitettu Boltzmann-kone itseorganisoituva kartta Aktivointitoiminto Sigmoidi softmax Radiaalinen kantafunktio Takaisin lisäysmenetelmä Syväoppiminen Monikerroksinen perceptroni Toistuva neuroverkko pitkä lyhytaikainen muisti Hallittu toistuva esto Konvoluutiohermoverkko U-Net Autoenkooderi
Vahvistusoppiminen	Markovin prosessi Bellmanin yhtälö Ahne algoritmi Q-oppiminen SARSA Aikaero (TD)
Teoria	Vapnik-Chervonenkis teoria Bias-dispersion dilemma Laskennallinen oppimisteoria Empiirinen riskin minimointi Occam oppii PAC-oppiminen Tilastollinen oppimisteoria
Lehdet ja konferenssit	NeurIPS ICML ML JMLR ArXiv:cs.LG