udpate ch2

datawhalechina · Jun 24, 2024 · 32516ee · 32516ee
1 parent 262664c
commit 32516ee
Showing 1 changed file with 1 addition and 0 deletions.
diff --git a/docs/errata.md b/docs/errata.md
@@ -6,6 +6,7 @@
 * 17页，第一段倒数第4行：有 Q 学习（Q-learning）、Sarsa 等 → 有 Q 学习（Q-learning）、Sarsa 、深度Q网络（deep Q-network，DQN）等
 * 17页，第一段倒数第3行：价值评估 → 价值函数
 * 25页，第一段倒数第2行：游戏就结束了，我们就输了。 → 游戏就结束了。
+* 67页，表 2.1的第2行第2列：贝尔曼方程 → 贝尔曼期望方程
 * 135页，第一段1~2行：我们来看一下 **PPO1** 算法，即近端策略优化惩罚算法。它先初始化一个策略的参数 $\theta^{0}$。在每一个迭代中 → 我们先看一下近端策略优化惩罚算法，其先初始化一个策略的参数 $\theta^{0}$，在每一个迭代中
 * 135页，第二段第2行：这里会遇到一个问题就，即 $\beta$ 要设置为多少？→ 这里会有一个问题：$\beta$ 要设置为多少。
 * 135页，倒数第一段：如果我们觉得计算 KL 散度很复杂，那么还有一个 PPO2 算法，PPO2 即近端策略优化裁剪算法。→ 如果我们觉得计算 KL 散度很复杂，可以使用近端策略优化裁剪算法。