Skip to content

Commit

Permalink
udpate ch2
Browse files Browse the repository at this point in the history
  • Loading branch information
qiwang committed Jun 24, 2024
1 parent 262664c commit 32516ee
Showing 1 changed file with 1 addition and 0 deletions.
1 change: 1 addition & 0 deletions docs/errata.md
Original file line number Diff line number Diff line change
Expand Up @@ -6,6 +6,7 @@
* 17页,第一段倒数第4行:有 Q 学习(Q-learning)、Sarsa 等 → 有 Q 学习(Q-learning)、Sarsa 、深度Q网络(deep Q-network,DQN)等
* 17页,第一段倒数第3行:价值评估 → 价值函数
* 25页,第一段倒数第2行:游戏就结束了,我们就输了。 → 游戏就结束了。
* 67页,表 2.1的第2行第2列:贝尔曼方程 → 贝尔曼期望方程
* 135页,第一段1~2行:我们来看一下 **PPO1** 算法,即近端策略优化惩罚算法。它先初始化一个策略的参数 $\theta^{0}$。在每一个迭代中 → 我们先看一下近端策略优化惩罚算法,其先初始化一个策略的参数 $\theta^{0}$,在每一个迭代中
* 135页,第二段第2行:这里会遇到一个问题就,即 $\beta$ 要设置为多少?→ 这里会有一个问题:$\beta$ 要设置为多少。
* 135页,倒数第一段:如果我们觉得计算 KL 散度很复杂,那么还有一个 PPO2 算法,PPO2 即近端策略优化裁剪算法。→ 如果我们觉得计算 KL 散度很复杂,可以使用近端策略优化裁剪算法。
Expand Down

0 comments on commit 32516ee

Please sign in to comment.