格子世界(Grid World)

使用马尔科夫决策过程或者 q 学习方法计算最佳路径

功能

格子时间是一个不确定的世界, 如何在此世界生存呢? 智能体将使用使用马尔科夫决策过程或者 q 学习方法计算最佳路径

界面

  1. 选择格子世界的地图
  2. 智能体运行方式
    • 手动: 使用键盘控制智能体
    • 自动: 按照设置自动运行
  3. 更多设置
    • 噪音比例: 控制智能体行动, 有多大比例智能体不听指挥
    • 折扣比例: 折扣导致回报随着时间的流逝而指数降低
    • 生存回报: 每走一步的回报值. 负数表示每走一步都会有一定的惩罚, 0 表示没有回报, 整数表示每走一步都会有一定的正向奖励.
    • 贪婪程度: 智能体的探索欲望
    • 迭代次数: 迭代计算的次数
    • 尝试次数: 运行计算出的策略的次数
    • 智能体类型
      • random: 智能体随机走动
      • value: 使用值迭代的智能体
      • q: 使用 q 学习的智能体
  4. 开始运行

格子世界中,1 和 -1 分别为回报值,蓝色圆点为智能体,我们想要得分尽量高,这里就是得 1 分。在控制智能体的时候,会有噪音在里面,噪音导致智能体不按照要求行动,比如要求向前,智能体却可能不动,向右或者向左(不会向后)。改变噪音量,感受一下这个不确定的世界。(使用键盘方向键控制智能体,到达目标后游戏不会结束,要再走任意一步才会结束)

反馈问题

文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈

点我反馈

进入反馈页面不知道如何反馈, 请点击这里