agent
一个RL agent可能包含一个或多个这些成分:
- policy: policy是一个agent的行为, 它是从state到action的一个映射:
- value: value函数是未来reward的预测, 用来评价state的好坏
- model: model预测environment接下来会做什么, $P$预测下一个state, $R$预测下一个reward
强化学习的分类
基于value
- No Policy(Implicit)
- Value Function
基于policy
- Policy
- No Value Function
Actor Critic
- Policy
- Value Function
Model Free
- Policy 或者 Value Function
- No Model
序列决策中两个基本问题
强化学习:
- environment是未知的
- agent和environment进行交互
- agent提升它的policy
Planning(规划):
- 一个已知environment的的model
- agent通过model计算(不需要和环境交互)
- agent提升它的policy