格子世界(Grid World)
使用马尔科夫决策过程或者 q 学习方法计算最佳路径
功能
格子时间是一个不确定的世界, 如何在此世界生存呢? 智能体将使用使用马尔科夫决策过程或者 q 学习方法计算最佳路径
界面
- 选择格子世界的地图
- 智能体运行方式
- 手动: 使用键盘控制智能体
- 自动: 按照设置自动运行
- 更多设置
- 噪音比例: 控制智能体行动, 有多大比例智能体不听指挥
- 折扣比例: 折扣导致回报随着时间的流逝而指数降低
- 生存回报: 每走一步的回报值. 负数表示每走一步都会有一定的惩罚, 0 表示没有回报, 整数表示每走一步都会有一定的正向奖励.
- 贪婪程度: 智能体的探索欲望
- 迭代次数: 迭代计算的次数
- 尝试次数: 运行计算出的策略的次数
- 智能体类型
- random: 智能体随机走动
- value: 使用值迭代的智能体
- q: 使用 q 学习的智能体
- 开始运行
格子世界中,1 和 -1 分别为回报值,蓝色圆点为智能体,我们想要得分尽量高,这里就是得 1 分。在控制智能体的时候,会有噪音在里面,噪音导致智能体不按照要求行动,比如要求向前,智能体却可能不动,向右或者向左(不会向后)。改变噪音量,感受一下这个不确定的世界。(使用键盘方向键控制智能体,到达目标后游戏不会结束,要再走任意一步才会结束)
反馈问题
文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈
点我反馈进入反馈页面不知道如何反馈, 请点击这里