Skip to content

Commit

Permalink
update errata
Browse files Browse the repository at this point in the history
  • Loading branch information
qiwang067 committed Jun 13, 2024
1 parent 00e91b5 commit 75ffda1
Showing 1 changed file with 5 additions and 0 deletions.
5 changes: 5 additions & 0 deletions docs/errata.md
Original file line number Diff line number Diff line change
Expand Up @@ -3,6 +3,8 @@
**如何使用勘误?首先找到你的书的印次,接下来对着下表索引印次,该印次之后所有的勘误都是你的书中所要注意的勘误,印次前的所有勘误在当印次和之后印次均已印刷修正。为方便读者,所有修订内容都列举在此。其中部分修订是为了更便于读者理解,并非原文有误。**

## 第1版第9次印刷(2024.01)
* 17页,第一段倒数第4行:有 Q 学习(Q-learning)、Sarsa 等 → 有 Q 学习(Q-learning)、Sarsa 、深度Q网络(deep Q-network,DQN)等
* 17页,第一段倒数第3行:价值评估 → 价值函数
* 135页,第一段1~2行:我们来看一下 **PPO1** 算法,即近端策略优化惩罚算法。它先初始化一个策略的参数 $\theta^{0}$。在每一个迭代中 → 我们先看一下近端策略优化惩罚算法,其先初始化一个策略的参数 $\theta^{0}$,在每一个迭代中
* 135页,第二段第2行:这里会遇到一个问题就,即 $\beta$ 要设置为多少?→ 这里会有一个问题:$\beta$ 要设置为多少。
* 135页,倒数第一段:如果我们觉得计算 KL 散度很复杂,那么还有一个 PPO2 算法,PPO2 即近端策略优化裁剪算法。→ 如果我们觉得计算 KL 散度很复杂,可以使用近端策略优化裁剪算法。
Expand All @@ -17,6 +19,9 @@ J_{\mathrm{PPO}}^{\theta^k}(\theta) \approx \sum_{\left(s_t, a_t\right)} \min &
\tag{5.19}
$$

* 140页,第一段最前面加上:本章介绍基于价值的典型强化学习算法——**深度Q网络(deep Q-network,DQN)**
* 140页,第三段第一行:深度 Q 网络(deep Q-network,DQN)→ 深度 Q 网络。

## 第1版第8次印刷(2023.11)

* 封面(后)推荐辞:李宏毅老师职称改为:台湾大学教授
Expand Down

0 comments on commit 75ffda1

Please sign in to comment.