Skip to content

Commit

Permalink
Merge branch 'master' of github.com:datawhalechina/easy-rl
Browse files Browse the repository at this point in the history
  • Loading branch information
qiwang067 committed Feb 6, 2022
2 parents 25ff26c + e50d2ba commit 419d58a
Showing 1 changed file with 2 additions and 2 deletions.
4 changes: 2 additions & 2 deletions docs/chapter3/project1.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
# 使用Q-learning解决悬崖寻路问题

强化学习在运动规划方面也有很大的应用前景,具体包括路径规划与决策,群体派单等等,本次项目就将单体运动规划抽象并简化,让大家初步认识到强化学习在这方面的应用。在运动规划方面,其实已有很多适用于强化学习的仿真环境,小到迷宫,大到贴近真实的自动驾驶环境[CARLA](http://carla.org/),对这块感兴趣的童鞋可以再多搜集一点。本项目采用gym开发的```CliffWalking-v0```环境,在上面实现一个简单的Q-learning入门demo。
强化学习在运动规划方面也有很大的应用前景,具体包括路径规划与决策,智能派单等等,本次项目就将单体运动规划抽象并简化,让大家初步认识到强化学习在这方面的应用。在运动规划方面,其实已有很多适用于强化学习的仿真环境,小到迷宫,大到贴近真实的自动驾驶环境[CARLA](http://carla.org/),对这块感兴趣的童鞋可以再多搜集一点。本项目采用gym开发的```CliffWalking-v0```环境,在上面实现一个简单的Q-learning入门demo。

## CliffWalking-v0环境简介

Expand Down Expand Up @@ -83,4 +83,4 @@ for i_ep in range(cfg.train_eps): # train_eps: 训练的最大episodes数
* 注意 $\varepsilon$-greedy 策略的使用,以及相应的参数$\varepsilon$如何衰减
* 训练模型和测试模型的时候选择动作有一些不同,训练时采取 $\varepsilon$-greedy策略,而测试时直接选取Q值最大对应的动作,所以算法在动作选择的时候会包括sample(训练时的动作采样)和predict(测试时的动作选择)

* Q值最大对应的动作可能不止一个,此时可以随机选择一个输出结果
* Q值最大对应的动作可能不止一个,此时可以随机选择一个输出结果

0 comments on commit 419d58a

Please sign in to comment.