Skip to content

Commit

Permalink
Merge pull request #162 from goodmorning-hwt/a-small-typo-in-chap4
Browse files Browse the repository at this point in the history
udpate chap4
  • Loading branch information
qiwang067 authored Sep 8, 2024
2 parents 6d39750 + b8251ad commit fceb23c
Showing 1 changed file with 1 addition and 1 deletion.
2 changes: 1 addition & 1 deletion docs/chapter4/chapter4.md
Original file line number Diff line number Diff line change
Expand Up @@ -205,7 +205,7 @@ $$
\nabla \bar{R}_{\theta} \approx \frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}} R\left(\tau^{n}\right) \nabla \log p_{\theta}\left(a_{t}^{n} \mid s_{t}^{n}\right) \tag{4.6}
$$

这是一个理想的情况,但是实际上,我们是在做采样本来这边应该是一个期望(expectation),对所有可能的$s$与$a$的对进行求和。 但我们真正在学习的时候,只是采样了少量的$s$与$a$的对。 因为我们做的是采样,所以有一些动作可能从来都没有被采样到。如图 4.11 所示,在某一个状态,虽然可以执行的动作有 a、b、c,但我们可能只采样到动作 b 或者 只采样到动作 c,没有采样到动作 a。但现在所有动作的奖励都是正的,所以根据式(4.6),在这个状态采取a、b、c的概率都应该要提高。我们会遇到的问题是,因为 a 没有被采样到,所以其他动作的概率如果都要提高,a 的概率就要下降。 所以a不一定是一个不好的动作, 它只是没有被采样到。但因为 a 没有被采样到,它的概率就会下降,这显然是有问题的。要怎么解决这个问题呢?我们会希望奖励不总是正的。
这是一个理想的情况,但是实际上,我们是在做采样。本来这边应该是一个期望(expectation),对所有可能的$s$与$a$的对进行求和。 但我们真正在学习的时候,只是采样了少量的$s$与$a$的对。 因为我们做的是采样,所以有一些动作可能从来都没有被采样到。如图 4.11 所示,在某一个状态,虽然可以执行的动作有 a、b、c,但我们可能只采样到动作 b 或者 只采样到动作 c,没有采样到动作 a。但现在所有动作的奖励都是正的,所以根据式(4.6),在这个状态采取a、b、c的概率都应该要提高。我们会遇到的问题是,因为 a 没有被采样到,所以其他动作的概率如果都要提高,a 的概率就要下降。 所以a不一定是一个不好的动作, 它只是没有被采样到。但因为 a 没有被采样到,它的概率就会下降,这显然是有问题的。要怎么解决这个问题呢?我们会希望奖励不总是正的。


<div align=center>
Expand Down

0 comments on commit fceb23c

Please sign in to comment.