Boltzmannin kone

Boltzmann - kone on eräänlainen stokastinen toistuva neuroverkko, jonka Jeffrey Hinton ja Terry Sejnowski keksivät vuonna 1985 [1] . Boltzmannin konetta voidaan pitää Hopfield-verkon stokastisena generatiivisena muunnelmana .

Tilastomiehet kutsuvat tällaisia verkkoja satunnaisiksi Markov-kentiksi . Verkko on nimetty Boltzmann-koneeksi itävaltalaisen fyysikon Ludwig Boltzmannin mukaan, joka on yksi tilastollisen fysiikan perustajista .

Tämä verkko käyttää hehkutussimulaatioalgoritmia oppimiseen ja osoittautui ensimmäiseksi hermoverkoksi, joka pystyy oppimaan sisäisiä esityksiä ja ratkaisemaan monimutkaisia kombinatorisia ongelmia. Tästä huolimatta useiden ongelmien vuoksi Boltzmann-koneita, joissa on rajoittamaton yhteys , ei voida käyttää käytännön ongelmien ratkaisemiseen. Jos yhteydet ovat rajalliset, koulutus voi olla tarpeeksi tehokasta käytettäväksi käytännössä. Erityisesti niin kutsuttu syvä luottamusverkko on rakennettu rajoitettujen Boltzmann-koneiden sarjasta .

Malli

Kuten Hopfield-verkko, Boltzmann-kone on neuronien verkosto, jolle on määritelty "energian" käsite. Globaalin energian laskenta tehdään muodoltaan identtisellä tavalla Hopfield-verkon kanssa: [2]

E=-\sum _{i<j}w_{ij}\,s_{i}\,s_{j}-\sum _{i}\theta _{i}\,s_{i}

Missä:

$w_{ij}$ hermosolujen välisen yhteyden vahvuus ja . $j$ $i$
$si}$ tila , , neuroni . $s_{i}\in \{0,1\}$ $i$
$\theta _{i}$ kynnys neuronille . $i$

Linkeillä on seuraavat rajoitukset:

$w_{ii}=0\qquad \forall i$ . (hermosolulla ei voi olla yhteyttä itsensä kanssa);
$w_{ij}=w_{ji}\qquad \forall i,j$ (kaikki linkit ovat symmetrisiä).

Terminen tasapaino

Yksi Hopfield-verkon päähaitoista on pyrkimys "vakauttaa" verkon tila paikalliseen eikä globaaliin minimiin. Käytännössä on toivottavaa, että verkko siirtyy useammin syviin energiaminimiin kuin mataliin ja että verkon suhteellinen todennäköisyys siirtyä toiseen kahdesta eri energiaisesta minimistä riippuu vain niiden syvyyksien suhteesta. Tämä mahdollistaisi tiettyjen lähtötilavektoreiden saamisen todennäköisyyksien säätelyn muuttamalla järjestelmän energiapinnan profiilia muuttamalla sidospainoja. Näiden näkökohtien perusteella Boltzmannin kone rakennettiin.

Ajatus käyttää "lämpökohinaa" päästä eroon paikallisista minimiistä ja lisätä todennäköisyyttä osua syvemmälle minimiin kuuluu S. Kirpatrickille. Tämän idean pohjalta on kehitetty hehkutussimulaatioalgoritmi .

Otetaan käyttöön jokin parametri - lämpökohinatason analogi. Sitten määritetään tietyn hermosolun aktiivisuuden todennäköisyys Boltzmannin todennäköisyysfunktion perusteella: $t$ $k$

Pk=1/(1+e^{-E_{k}/t}),

missä on lämpömelun taso verkossa; on th neuronin ja kaikkien tällä hetkellä aktiivisten hermosolujen välisten yhteyksien painojen summa . $t$ $E_k$ $k$

Rajoitettu Boltzmann-kone

Vaikka Boltzmann-koneen koulutusmahdollisuudet ovat käytännössä rajalliset, nämä ongelmat voidaan ratkaista käyttämällä rajoitettua Boltzmann-koneen (RBM) arkkitehtuuria. Tässä arkkitehtuurissa yhteyksiä on vain piilotettujen ja näkyvien hermosolujen välillä, mutta saman luokan neuronien välillä ei ole yhteyksiä. Tällaista arkkitehtuuria käytti alun perin Paul Smolensky vuonna 1986 nimellä Harmonium [3] , mutta se saavutti suosion vasta Hintonin keksittyä nopeasti oppivat algoritmit 2000-luvun puolivälissä.

Rajoitettuja Boltzmann-koneita käytetään syväoppimisverkoissa . Erityisesti syvää uskomusverkostoa voidaan saada "päällekkäisellä" RBM:llä ja sitten uudelleenkoulutuksella käyttämällä backpropagation-algoritmia.

Muistiinpanot

↑ Ackley, David H.; Hinton, Geoffrey E.; Sejnowski, Terrence J. A Learning Algorithm for Boltzmann Machines. - Cognitive Science 9 (1), 1985. - S. 147-169.
↑ Loskutov A. Yu. , Mikhailov A. S. Johdatus synergiaan. - M., Nauka, 1990. - ISBN 5-02-014475-4 . - Kanssa. 233-237
↑ Smolenski, Paul. Luku 6: Tietojenkäsittely dynaamisissa järjestelmissä: Harmony-teorian perusteet // Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Volume 1: Funds (englanniksi) / Rumelhart, David E.; McLelland, James L. - MIT Press , 1986. - s. 194-281. — ISBN 0-262-68053-X . Arkistoitu kopio (linkki ei saatavilla) . Haettu 12. kesäkuuta 2014. Arkistoitu alkuperäisestä 13. kesäkuuta 2013. (määrätön)

Linkit

Talk at Google by Geoffrey Hinton

Keinotekoisten neuroverkkojen tyypit

Feed-forward-verkko ( Säteittäisten perustoimintojen verkko )
Yksikerroksinen perceptroni
Monikerroksinen Perceptron ( Rosenblatt • Rumelhart )
Hopfieldin verkko
Markovin ketju
Boltzmannin kone
Rajoitettu Boltzmann-kone
Autoencoder ( Denoise autoencoder • Sparse autoencoder • Variational autoencoder )
Syvä luottamuksen verkko
Konvoluutiohermoverkko
Syvä konvoluutiohermoverkko
Käyttöönoton hermoverkko
Deep Convolutional Inverse Graphic Network
Generatiivinen kontradiktorinen verkosto
Toistuva neuroverkko
Rekursiiviset hermoverkot
pitkä lyhytaikainen muisti
Hallittu toistuva esto
Neuraaliset Turingin koneet
Kaksisuuntainen verkko ( Kaksisuuntainen toistuva hermoverkko • Kaksisuuntainen verkko pitkällä lyhytaikaisella muistilla • Kaksisuuntaisesti ohjatut toistuvat neuronit )
Deep Residual Network
Neuraalinen kaikuverkko
Extreme Learning Method
Epävakaiden tilojen menetelmä
Tuki vektorikonetta
Kohosen verkko
Kohosen itseorganisoituva kartta
Kapselin hermoverkko
Assosiatiivinen muisti neuroverkoissa

Koneoppiminen ja tiedon louhinta
Tehtävät	Luokittelu ongelma Oppiminen ilman opettajaa Opettajan avustama oppiminen Taantumisanalyysi AutoML Yhdistyksen säännöt Ominaisuuksien erottaminen Ominaisuuksien koulutus Ranking koulutus Kieliopillinen johtaminen Verkko-oppiminen
Opettajan kanssa oppimista	k-lähimmän naapurin menetelmä Naiivi Bayesin luokitin päätöspuu Tuki vektorikonetta Lineaarinen regressio Logistinen regressio perceptron Mallien kokoonpanot Pussittaminen tehostaa satunnainen metsä Asiaankuuluva vektorimenetelmä
ryhmäanalyysi	k-keinomenetelmä Sumea klusterointimenetelmä Hierarkkinen klusterointi EM-algoritmi KOIVU PARANTAA DBSCAN OPTIIKKA Keskimääräinen siirto
Mittasuhteiden vähentäminen	Tekijäanalyysi Pääkomponenttimenetelmä CCA ICA LDA Ei-negatiivinen matriisin laajennus t-SNE
Rakenteellinen ennustaminen	Graafinen todennäköisyysmalli Bayesin verkko Piilotettu Markovin malli CRF
Anomalian havaitseminen	k-lähimmän naapurin menetelmä Paikallinen päästötaso
Piirrä todennäköisyysmallit	Bayesin verkko Markovin verkko Piilotettu Markovin malli
Neuroverkot	Rajoitettu Boltzmann-kone itseorganisoituva kartta Aktivointitoiminto Sigmoidi softmax Radiaalinen kantafunktio Takaisin lisäysmenetelmä Syväoppiminen Monikerroksinen perceptroni Toistuva neuroverkko pitkä lyhytaikainen muisti Hallittu toistuva esto Konvoluutiohermoverkko U-Net Autoenkooderi
Vahvistusoppiminen	Markovin prosessi Bellmanin yhtälö Ahne algoritmi Q-oppiminen SARSA Aikaero (TD)
Teoria	Vapnik-Chervonenkis teoria Bias-dispersion dilemma Laskennallinen oppimisteoria Empiirinen riskin minimointi Occam oppii PAC-oppiminen Tilastollinen oppimisteoria
Lehdet ja konferenssit	NeurIPS ICML ML JMLR ArXiv:cs.LG