Q-oppiminen

Q -learning on tekoälyssä käytetty menetelmä agenttipohjaisella lähestymistavalla . Viittaa vahvistusoppimiskokeisiin . Agentti muodostaa ympäristöstä saamansa palkkion perusteella hyödyllisyysfunktion Q, joka antaa hänelle myöhemmin mahdollisuuden olla valitsematta satunnaisesti käyttäytymisstrategiaa, vaan ottaa huomioon aikaisemman vuorovaikutuksen ympäristön kanssa. Yksi Q-learningin eduista on, että se pystyy vertailemaan käytettävissä olevien toimintojen odotettua hyödyllisyyttä ilman, että ympäristöä tarvitsee mallintaa. Koskee tilanteita, jotka voidaan esittää Markovin päätösprosessina .

Q-oppimisalgoritmi

  1. Alustus :
    1. kullekin s ja a do Q[s, a] = RND // alusta hyödyllisyysfunktio Q toiminnasta a tilanteessa s satunnaiseksi mille tahansa syötteelle
  2. Huomioi :
    1. s' = s // Muista aiemmat tilat
    2. a' = a // Muista aiemmat toiminnot
    3. s = FROM_SENSOR // Hanki nykyiset tilat anturilta
    4. r = FROM_SENSOR // Saat palkinnon edellisestä toiminnasta
  3. Päivitys (apuohjelman päivitys):
    1. Q[s',a'] = Q[s',a'] + LF * (r + DF * MAX(Q,s) - Q[s',a'])
  4. Päätös :
    1. a = ARGMAX(Q, s)
    2. TO_ACTIVATOR = a
  5. Toista : SIIRRY 2

Merkintä

MAX(Q,s)-funktio

  1. max = minArvo
  2. jokaiselle ACTIONS:lle a
    1. jos Q[s, a] > max, niin max = Q[s, a]
  3. palautus max

ARGMAX(Q,s)

  1. amax = ensimmäinen ACTION(s)
  2. jokaiselle TOIMINNOlle a
    1. jos Q[s, a] > Q[s, amax] niin amax = a
  3. paluu max

Kirjallisuus

Katso myös

Linkit