爬行者(Crawler)
使用强化学习训练一个爬行者机器人
功能
强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。在这个小部件中, 我们使用强化学习方法训练一个爬行者机器人
界面
- 点击运行即可开始, 显示爬行者游戏界面
- 设置爬行者机器人的运行速度
- 设置折扣系数. 折扣导致回报随着时间的流逝而指数降低.
- $\varepsilon$ 贪婪($\varepsilon$-greedy)系数. 给爬行者想要找到更好的爬行方法的“贪婪性”做一个量化:$\varepsilon$。每次行动都有 $\varepsilon$ 的可能性随机行动,而 1-$\varepsilon$ 的可能性遵循现在的策略行动。这个方法就是 $\varepsilon$ 贪婪($\varepsilon$-greedy)
- 学习率. 当前学习成果和历史经验的相比有多重要, 学习率越大, 当前学习成果的权重越大.
- 爬行者机器人的状态显示
Step
: 计算迭代次数Positon
: 当前位置Velocity
: 爬行速度100-step Avg Velocity
: 100次迭代计算的平均爬行速度- 注: 如果比赛训练成果, 可以比较爬行者第一次到达最右侧时候的
100-step Avg Velocity
反馈问题
文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈
点我反馈进入反馈页面不知道如何反馈, 请点击这里