引言篇信息熵解释 #3

Day333 · 2023-09-11T07:38:56Z

自我感觉信息熵解释不太清楚，所以自己写了一个例子：
● 熵的计算公式：H(X) = - Σ P(x) * log2(P(x))，其中，H(X)表示随机变量X的熵，P(x)表示X取值为x的概率。
● 以骰子为例，每面出现的概率如下：P(1) = 1/6；P(2) = 1/6；P(3) = 1/6；P(4) = 1/6；P(5) = 1/6；P(6) = 1/6
● 带入公式得到：H(X) = - log2(1/6)，大约为2.58496比特（bits）
● 这个结果表示了骰子的信息熵，由于骰子是均匀的，所以熵到达了最大值，如果骰子不均匀，某个面的概率更高，那么熵就会减少，不确定性降低了。
● 硬币均匀的信息熵为：H(X) = - (0.5) * log2(0.5) - (0.5) * log2(0.5)，计算结果约为1比特（bits）；假设不均匀，其中一面概率是0.8，则：H(X) = - (0.8) * log2(0.8) - (0.2) * log2(0.2)，计算结果约为0.721928比特（bits）。可见，在硬币不均匀的情况下，不确定性更小，只猜概率大的那面猜中的可能性更大。
这样理解没有问题吧

andongBlue · 2023-09-13T08:51:54Z

@Day333 感谢您对信息熵解释不清楚这个问题的指出。这块的数学问题我们会进一步解释，我稍后阅读完您的整体的推导并验证正确后，在下一版本中采纳这个建议。

hrjtju · 2024-01-16T16:46:33Z

@Day333 感谢您对信息熵解释不清楚这个问题的指出。这块的数学问题我们会进一步解释，我稍后阅读完您的整体的推导并验证正确后，在下一版本中采纳这个建议。

分享一下我的解释：

关于交叉熵的理解

交叉熵也可以看作是对于一个事物的不断提问。以底数为$2$的交叉熵定义为例，$\log q(x)$可看作是提问的次数（假设每一个问题被回答‘是’或‘否’的概率相同），而$p(x)$则是对应答案的真实概率。对所有$x$求期望就得到了交叉熵的定义。从交叉熵的观点看信息熵，可见$H(p) = H(p,p)$，可见信息熵是一个通过$n$叉树对目标概率分布的完全建模——这是看起来一个极其理想的情况，而其最优性则由负对数函数的凸性保证：

$$
\begin{align} H(p,q) &= -\sum\limits_{x \in \mathcal{X}} p(x) \log q(x) \&= -\sum\limits_{x \in \mathcal{X}} p(x)\log p(x) - \underbrace{\left( \sum\limits_{x \in \mathcal{X}} p(x) \log \frac{q(x)}{p(x)} \right)}{-D{\mathrm{KL}}[p|q]}\ &\geqslant -\sum\limits_{x \in \mathcal{X}}p(x) \log p(x) - \log \left[ \sum\limits_{x \in \mathcal{X}} \frac{p(x)q(x)}{p(x)} \right] \ &= H(p) - \log \left[ \sum\limits_{x \in \mathcal{X}- A}q(x) \right] \ &\geqslant H(p) \end{align}
$$

需要注意的是，这里的最后一步依然是小于号，这是因为如果$p(x)$在某些点等于零，则这些点对应的$q(x)$将会丢失，于是有$\displaystyle \sum\limits_{x \in \mathcal{X}-A} q(x) \leqslant 1$.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

引言篇信息熵解释 #3

引言篇信息熵解释 #3

Day333 commented Sep 11, 2023

andongBlue commented Sep 13, 2023

hrjtju commented Jan 16, 2024

引言篇信息熵解释 #3

引言篇信息熵解释 #3

Comments

Day333 commented Sep 11, 2023

andongBlue commented Sep 13, 2023

hrjtju commented Jan 16, 2024

关于交叉熵的理解