Markovin päätösprosessi

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 27. maaliskuuta 2020 tarkistetusta versiosta . vahvistus vaatii 1 muokkauksen .

Markovin päätösprosessi ( MDP) on peräkkäisen päätösongelman määrittely täysin havaittavassa ympäristössä Markovin siirtymämallilla ja lisäpalkkioilla. Sana Markov nimessä kuvastaa Markovin ominaisuuden täyttymistä tällaisissa prosesseissa. Tällainen prosessi toimii matemaattisena pohjana peräkkäisen päätöksenteon mallintamiseen tilanteissa, joissa tulokset ovat osittain satunnaisia ja osittain päätöksentekijän hallinnassa. Nykyään tätä määritystä käytetään useilla aloilla, mukaan lukien robotiikka , automaattinen ohjaus , taloustiede ja valmistus .

Määritelmä

Markovin päätösprosessin määrittelemiseksi meidän on määritettävä 4 - monikko missä $(S,A,P_{\cdot }(\cdot ,\cdot ),R_{\cdot }(\cdot ,\cdot ))$

$S$ rajallinen joukko tiloja,
$A$ rajallinen joukko toimintoja (usein esitetty joukoina, jotka ovat käytettävissä tilasta ), $Kuten$ $s$
$P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ todennäköisyys , että toiminta jossakin tilassa hetkellä johtaa tilaan ajanhetkellä , $a$ $s$ $t$ $s'$ $t+1$
$R_{a}(s,s')$ palkkio, joka saadaan siirtymisen jälkeen tilasta siirtymistodennäköisyydellä . $s'$ $s$ $P_{a}(s,s')$

Markovin päätösprosessi

Määritelmä

Katso myös