Yubo Dong's Page

On this page

☰

agent

一个RL agent可能包含一个或多个这些成分：

policy: policy是一个agent的行为，它是从state到action的一个映射：

\[a = \pi(s)\]

value: value函数是未来reward的预测，用来评价state的好坏

\[v_\pi(s) = E_\pi [R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + ... \mid S_t = s]\]

model: model预测environment接下来会做什么， $P$预测下一个state， $R$预测下一个reward

\[P_{SS'}^a = P[S' = s' \mid S=s, A=a]\] \[R_s^a = E[R \mid S=s, A=a]\]

强化学习的分类

基于value

No Policy（Implicit）
Value Function

基于policy

Policy
No Value Function

Actor Critic

Policy
Value Function

Model Free

Policy 或者 Value Function
No Model

序列决策中两个基本问题

强化学习：

environment是未知的
agent和environment进行交互
agent提升它的policy

Planning（规划）：

一个已知environment的的model
agent通过model计算（不需要和环境交互）
agent提升它的policy