OpenAI gym
安装:
pip install gym
env.step(action): 通过应用action使环境进一步。 将会返回四样东西: observation, reward, done, info, 其中done是一个布尔类型的值表示episode是否结束。 info包含一些用户感兴趣的信息。
env.reset(): 重启环境, 回到初始化状态。 将返回初始化的observation。
env.render():为人类呈现环境的现状
env.action_space() : 允许的动作格式。 在我们的例子中,它是 Discrete(4), 它意味着action是一个范围[0, 1, 2, 3]的整数。 因此, action for step(action)应该遵守动作空间的限制。
env.observation_space(): 观察的空间
env.seed(seed) 设置环境的随机种子。 因此结果是可复现的。