OpenAI gym

安装：

pip install gym

env.step(action)：通过应用action使环境进一步。将会返回四样东西： observation, reward, done, info, 其中done是一个布尔类型的值表示episode是否结束。 info包含一些用户感兴趣的信息。

env.reset()：重启环境，回到初始化状态。将返回初始化的observation。

env.render()：为人类呈现环境的现状

env.action_space() ：允许的动作格式。在我们的例子中，它是 Discrete(4)，它意味着action是一个范围[0, 1, 2, 3]的整数。因此， action for step(action)应该遵守动作空间的限制。

env.observation_space()：观察的空间

env.seed(seed) 设置环境的随机种子。因此结果是可复现的。

Reference