【强化学习】强化学习环境相关

Posted by ShawnD on July 17, 2020

OpenAI gym

安装:

pip install gym

env.step(action): 通过应用action使环境进一步。 将会返回四样东西: observation, reward, done, info, 其中done是一个布尔类型的值表示episode是否结束。 info包含一些用户感兴趣的信息。

env.reset(): 重启环境, 回到初始化状态。 将返回初始化的observation。

env.render():为人类呈现环境的现状

env.action_space() : 允许的动作格式。 在我们的例子中,它是 Discrete(4), 它意味着action是一个范围[0, 1, 2, 3]的整数。 因此, action for step(action)应该遵守动作空间的限制。

env.observation_space(): 观察的空间

env.seed(seed) 设置环境的随机种子。 因此结果是可复现的。

Reference

  1. ierg6130-assignment/assignment1/IERG 6130 Assignment 1.ipynb