格子世界(Grid World)

使用马尔科夫决策过程或者 q 学习方法计算最佳路径

功能

格子时间是一个不确定的世界, 如何在此世界生存呢? 智能体将使用使用马尔科夫决策过程或者 q 学习方法计算最佳路径

界面

选择格子世界的地图
智能体运行方式
- 手动: 使用键盘控制智能体
- 自动: 按照设置自动运行
更多设置
- 噪音比例: 控制智能体行动, 有多大比例智能体不听指挥
- 折扣比例: 折扣导致回报随着时间的流逝而指数降低
- 生存回报: 每走一步的回报值. 负数表示每走一步都会有一定的惩罚, 0 表示没有回报, 整数表示每走一步都会有一定的正向奖励.
- 贪婪程度: 智能体的探索欲望
- 迭代次数: 迭代计算的次数
- 尝试次数: 运行计算出的策略的次数
- 智能体类型
  - random: 智能体随机走动
  - value: 使用值迭代的智能体
  - q: 使用 q 学习的智能体
开始运行

格子世界中，1 和 -1 分别为回报值，蓝色圆点为智能体，我们想要得分尽量高，这里就是得 1 分。在控制智能体的时候，会有噪音在里面，噪音导致智能体不按照要求行动，比如要求向前，智能体却可能不动，向右或者向左（不会向后）。改变噪音量，感受一下这个不确定的世界。（使用键盘方向键控制智能体，到达目标后游戏不会结束，要再走任意一步才会结束）

反馈问题

文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈

点我反馈

进入反馈页面不知道如何反馈, 请点击这里