Skip to content

Commit

Permalink
adjusting
Browse files Browse the repository at this point in the history
  • Loading branch information
futianfan committed Mar 10, 2017
1 parent 4bc4253 commit 4133f0b
Show file tree
Hide file tree
Showing 2 changed files with 19 additions and 17 deletions.
10 changes: 6 additions & 4 deletions Chapter17/monte_carlo_methods.tex
Original file line number Diff line number Diff line change
Expand Up @@ -4,7 +4,7 @@ \chapter{\glsentrytext{monte_carlo}方法}
\label{chap:monte_carlo_methods}
% 581

随机算法可以粗略的分为两类\ENNAME{Las Vegas}\,算法和\gls{monte_carlo}算法。
随机算法可以粗略地分为两类\ENNAME{Las Vegas}\,算法和\gls{monte_carlo}算法。
\ENNAME{Las Vegas}\,算法通常精确地返回一个正确答案 (或者返回算法失败了)。
这类方法通常需要占用随机量的计算资源(一般指内存和运行时间)。 %?? “和” 换成 “或” , “通常“是修饰 内存 和 运行 时间的。
与此相对的,\gls{monte_carlo}方法返回的答案具有随机大小的错误。
Expand Down Expand Up @@ -380,7 +380,7 @@ \section{不同的\glsentrytext{mode}之间的\glsentrytext{mixing}挑战}
当我们考虑\gls{gibbs_sampling}算法(见\secref{sec:gibbs_sampling})时,这种现象格外明显。
在这种情况下,我们考虑在一定步数内从一个\gls{mode}移动到一个临近\gls{mode}的概率。
决定这个概率的是两个\gls{mode}之间的``能量障碍''的形状。
隔着一个巨大``能量障碍'' (低概率的区域)的两个\gls{mode}之间的转移概率是(随着能量障碍的高度)指数下降的,如在\figref{fig:chap17_good_bad_really_bad_mixing_color}中展示的一样
隔着一个巨大``能量障碍'' (低概率的区域)的两个\gls{mode}之间的转移概率是(随着能量障碍的高度)指数下降的,\figref{fig:chap17_good_bad_really_bad_mixing_color}所示
当目标分布有很多\gls{mode}并且以很高的概率被低概率区域所分割,尤其当\,\gls{gibbs_sampling}的每一步都只是更新变量的一小部分而这一小部分变量又严重依赖其他的变量时,这会导致严重的问题。
% 591

Expand Down Expand Up @@ -425,7 +425,9 @@ \section{不同的\glsentrytext{mode}之间的\glsentrytext{mixing}挑战}
归根结底,\gls{markov_chain}最初就是被提出来解决这个问题,即从大量变量中采样的问题。
% 592

含有\gls{latent_variable}的模型中定义了一个联合分布$p_{\text{model}}(\Vx,\Vh)$,我们经常通过交替地从$p_{\text{model}}(\Vx\mid \Vh)$$p_{\text{model}}(\Vh\mid \Vx)$中采样来达到抽$\Vx$的目的。 %?? 在定以了一个联合分布$p_{\text{model}}(\Vx,\Vh)$的\gls{latent_variable}模型中,

% 593 head
在定义了一个联合分布$p_{\text{model}}(\Vx,\Vh)$\gls{latent_variable}模型中,我们经常通过交替地从$p_{\text{model}}(\Vx\mid \Vh)$$p_{\text{model}}(\Vh\mid \Vx)$中采样来达到抽$\Vx$的目的。
从快速\gls{mixing}的角度上说,我们更希望$p_{\text{model}}(\Vh\mid \Vx)$有很大的熵。
然而,从学习一个$\Vh$的有用表示的角度上考虑,我们还是希望$\Vh$能够包含$\Vx$的足够信息从而能够较完整地重构它,这意味$\Vh$$\Vx$有着非常高的互信息。
这两个目标是相互矛盾的。
Expand Down Expand Up @@ -454,7 +456,7 @@ \section{不同的\glsentrytext{mode}之间的\glsentrytext{mixing}挑战}
但是对于吉布斯链来说从分布的一个\gls{mode}转移到另一个仍然是很困难的,比如说改变数字。
\emph{(右)}从\gls{generative_adversarial_networks}中抽出的连续原始样本。
因为\gls{ancestral_sampling}生成的样本之间互相独立,所以不存在\gls{mixing}问题。
{译者注:原书此处左右搞反了。}} %??
{译者注:原书此处左右搞反了。}}
\label{fig:chap17_fig-dbm-bad-mixing}
\end{figure}
% 593 end
Expand Down
26 changes: 13 additions & 13 deletions Chapter19/approximate_inference.tex
Original file line number Diff line number Diff line change
Expand Up @@ -12,19 +12,19 @@ \chapter{\glsentrytext{approximate_inference}}
% 623

许多诸如\gls{RBM}和\gls{PPCA}这样的仅仅含有一层\gls{hidden_layer}的简单\gls{graphical_models}的定义,往往使得推断操作如计算$p(\Vh\mid\Vv)$或者计算分布$p(\Vh\mid\Vv)$下的期望是非常容易的。
不幸的是,大多数的具有多层\gls{latent_variable}的\gls{graphical_models}的后验分布都很难处理。
对于这些模型精确的推断算法需要指数量级的运行时间
不幸的是,大多数具有多层\gls{latent_variable}的\gls{graphical_models}的后验分布都很难处理。
对于这些模型而言,精确推断算法需要指数量级的运行时间
即使一些只有单层的模型,如\gls{sparse_coding},也存在着这样的问题。
% 623


在本章中,我们介绍了几个基本的技巧,用来解决难以处理的推断问题。
稍后,在\chapref{chap:deep_generative_models}中,我们还将描述如何将这些技巧应用到训练其他方法难以奏效的概率模型中,如\gls{DBN}\gls{DBM}。
在本章中,我们将会介绍几个基本的技巧,用来解决难以处理的推断问题。
稍后,在\chapref{chap:deep_generative_models}中,我们还将描述如何将这些技巧应用到训练其他方法难以奏效的概率模型中,如\gls{DBN}\gls{DBM}。
% 623


\gls{DL}中难以处理的推断问题通常源于结构化图模型中\gls{latent_variable}之间的相互作用。
详见\figref{fig:intractable_graphs}的几个例子。
可以参考\figref{fig:intractable_graphs}的几个例子。
这些相互作用可能是\gls{undirected_model}的直接作用,也可能是\gls{directed_model}中同一个可见变量的共同祖先之间的``\gls{explaining_away}''作用。
% 623 end

Expand Down Expand Up @@ -100,14 +100,14 @@ \section{推断是一个优化问题}


对于一个较好的选择$q$来说,$\CalL$是容易计算的。
对任意选择$q$来说,$\CalL$提供了一个似然函数的下界
越好的近似$q$的分布$q(\Vh\mid\Vv)$得到的下界就越紧,换句话说,就是与$\log p(\Vv)$更加接近。
对任意选择$q$来说,$\CalL$提供了似然函数的一个下界
越好的近似$p(\Vh\mid\Vv)$的分布$q(\Vh\mid\Vv)$得到的下界就越紧,换句话说,就是与$\log p(\Vv)$更加接近。
$q(\Vh\mid\Vv) = p(\Vh\mid\Vv)$时,这个近似是完美的,也意味着$\CalL(\Vv,{\Vtheta},q) = \log {p(\Vv;{\Vtheta})} $
% 625


因此我们可以将推断问题看做是找一个分布$q$使得$\CalL$最大的过程。
精确的推断能够在包含分布$p(\Vh\mid\Vv)$的函数族中搜索一个函数,完美地最大化$\CalL$
精确推断能够在包含分布$p(\Vh\mid\Vv)$的函数族中搜索一个函数,完美地最大化$\CalL$
在本章中,我们将会讲到如何通过近似优化寻找分布$q$的方法来推导出不同形式的\gls{approximate_inference}。
我们可以通过限定分布$q$的形式或者使用并不彻底的优化方法来使得优化的过程更加高效(却更粗略),但是优化的结果是不完美的,因为只能显著地提升$\CalL$而无法彻底地最大化$\CalL$
% 625 end
Expand Down Expand Up @@ -156,7 +156,7 @@ \section{\glsentrytext{EM}}


即使\gls{e_step}采用的是精确推断,我们仍然可以将\glssymbol{EM}算法视作是某种程度上的\gls{approximate_inference}。
具体地说,\gls{m_step}假设了一个$q$分布可以被所有的$\Vtheta$值分享。
具体地说,\gls{m_step}假设一个$q$分布可以被所有的$\Vtheta$值分享。
\gls{m_step}越来越远离\gls{e_step}中的$\Vtheta^{(0)}$时,这将会导致$\CalL$和真实的$\log p(\Vv)$的差距。
幸运的事,当下一个循环时,\gls{e_step}把这种差距又降到了$0$
% 627 head
Expand Down Expand Up @@ -232,7 +232,7 @@ \section{\glsentrytext{MAP}推断和\glsentrytext{sparse_coding}}



\glssymbol{MAP}推断作为特征提取器以及一种学习机制被广泛的应用在了\gls{DL}中。
\glssymbol{MAP}推断作为\gls{feature_extractor}以及一种学习机制被广泛地应用在了\gls{DL}中。
\gls{sparse_coding}模型中,它起到了关键作用。
% 628

Expand Down Expand Up @@ -328,7 +328,7 @@ \section{变分推断和学习}
在这种情况下,我们要用$q$来拟合$p$
然而,我们并不是直接拟合一个近似,而是处理一个\gls{KL}的问题。
当我们使用\gls{MLE}来用模型拟合数据时,我们最小化$D_{\text{KL}}(p_{\text{data}} \Vert p_{\text{model}})$
如同\figref{fig:chap3_kl_direction_color}中所示,这意味着\gls{maximum_likelihood}促进模型在每一个数据达到更高概率的地方达到更高的概率,而基于优化的推断则促进了$q$在每一个真实后验分布概率较低的地方概率较小。
\figref{fig:chap3_kl_direction_color}所示,这意味着\gls{maximum_likelihood}促进模型在每一个数据达到更高概率的地方达到更高的概率,而基于优化的推断则促进了$q$在每一个真实后验分布概率较低的地方概率较小。
这两种基于\gls{KL}的方法都有各自的优点与缺点。
选择哪一种方法取决于在具体每一个应用中哪一种性质更受偏好。
在基于优化的推断问题中,从计算角度考虑,我们选择使用$D_{\text{KL}}(q(\Vh\mid\Vv)\Vert p(\Vh\mid\Vv))$
Expand Down Expand Up @@ -405,7 +405,7 @@ \subsection{离散型\gls{latent_variable}}

这需要计算$p(\Vh\mid\Vv)$下的期望。
不幸的是,$p(\Vh\mid\Vv)$是一个很复杂的分布。
$p(\Vh,\Vv)$$p(\Vh\mid\Vv)$的图结构见\figref{fig:bsc}。
关于$p(\Vh,\Vv)$$p(\Vh\mid\Vv)$的图结构可以参考\figref{fig:bsc}。
\gls{hidden_unit}的后验分布对应的是关于\gls{hidden_unit}的完全图,所以相对于暴力算法,消元算法并不能有助于提高计算所需要的期望的效率。
% 633 head

Expand Down Expand Up @@ -584,7 +584,7 @@ \subsection{\glsentrytext{calculus_of_variations}}


许多\gls{ML}的技巧是基于寻找一个输入向量$\Vtheta\in\SetR^n$来最小化函数$J(\Vtheta)$,使得它取到最小值。
这个步骤可以利用多元微积分以及线性代数的知识找到满足$\nabla_{\Vtheta} J(\Vtheta) = 0$的临界点来完成
这个步骤可以利用多元微积分以及线性代数的知识找到满足$\nabla_{\Vtheta} J(\Vtheta) = 0$\gls{critical_points}来完成
在某些情况下,我们希望能够解一个函数$f(\Vx)$,比如当我们希望找到一些随机变量的\gls{PDF}时。
正是\gls{calculus_of_variations}能够让我们完成这个目标。
% p 637
Expand Down

0 comments on commit 4133f0b

Please sign in to comment.