【强化学习】强化学习相关概念

Posted by ShawnD on July 6, 2020

agent

一个RL agent可能包含一个或多个这些成分:

  • policy: policy是一个agent的行为, 它是从state到action的一个映射:
\[a = \pi(s)\]
  • value: value函数是未来reward的预测, 用来评价state的好坏
\[v_\pi(s) = E_\pi [R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + ... \mid S_t = s]\]
  • model: model预测environment接下来会做什么, $P$预测下一个state, $R$预测下一个reward
\[P_{SS'}^a = P[S' = s' \mid S=s, A=a]\] \[R_s^a = E[R \mid S=s, A=a]\]

强化学习的分类

基于value

  • No Policy(Implicit)
  • Value Function

基于policy

  • Policy
  • No Value Function

Actor Critic

  • Policy
  • Value Function

Model Free

  • Policy 或者 Value Function
  • No Model

序列决策中两个基本问题

强化学习:

  • environment是未知的
  • agent和environment进行交互
  • agent提升它的policy

Planning(规划):

  • 一个已知environment的的model
  • agent通过model计算(不需要和环境交互)
  • agent提升它的policy