Skip to content

Commit

Permalink
Update chapter5
Browse files Browse the repository at this point in the history
  • Loading branch information
liber145 committed Aug 8, 2017
1 parent bfb03b5 commit a959190
Showing 1 changed file with 9 additions and 9 deletions.
18 changes: 9 additions & 9 deletions Chapter5/machine_learning_basics.tex
Original file line number Diff line number Diff line change
Expand Up @@ -1756,14 +1756,14 @@ \subsection{\glsentrytext{curse_of_dimensionality}}

\gls{curse_of_dimensionality}带来的一个挑战是统计挑战。
\figref{fig:chap5_curse}所示,统计挑战产生于$\Vx$的可能配置数目远大于训练\gls{example:chap5}的数目。
为了充分理解这个问题,我们假设输入空间如图所示被分成网格
低维时我们可以用由数据占据的少量网格去描述这个空间
泛化到新数据点时,通过检测和新输入在相同网格中的训练\gls{example:chap5},我们可以判断如何处理新数据点。
例如,如果要估计某点$\Vx$处的概率密度,我们可以返回$\Vx$处单位体积内训练\gls{example:chap5}的数目除以训练\gls{example:chap5}的总数。
如果我们希望对一个\gls{example:chap5}进行分类,我们可以返回相同网格中训练\gls{example:chap5}最多的类别。
如果我们是做回归分析,我们可以平均该网格中\gls{example:chap5}对应的\gls{target}值。
但是,如果该网格中没有\gls{example:chap5},该怎么办呢?
因为在高维空间中参数配置数目远大于\gls{example:chap5}数目,大部分配置没有相关的\gls{example:chap5}。 %?? 配置
为了充分理解这个问题,我们假设输入空间如图所示被分成单元格
空间是低维时,我们可以用由大部分数据占据的少量单元格去描述这个空间
泛化到新数据点时,通过检测和新输入点在相同单元格中的训练\gls{example:chap5},我们可以判断如何处理新数据点。
例如,如果要估计某点$\Vx$处的概率密度,我们可以返回$\Vx$处单位体积单元格内训练\gls{example:chap5}的数目除以训练\gls{example:chap5}的总数。
如果我们希望对一个\gls{example:chap5}进行分类,我们可以返回相同单元格中训练\gls{example:chap5}最多的类别。
如果我们是做回归分析,我们可以平均该单元格中\gls{example:chap5}对应的\gls{target}值。
但是,如果该单元格中没有\gls{example:chap5},该怎么办呢?
因为在高维空间中参数配置数目远大于\gls{example:chap5}数目,大部分单元格中没有\gls{example:chap5}。
我们如何能在这些新配置中找到一些有意义的东西呢?
许多传统\gls{ML}算法只是简单地假设在一个新点的输出应大致和最接近的训练点的输出相同。

Expand All @@ -1777,7 +1777,7 @@ \subsection{\glsentrytext{curse_of_dimensionality}}
\includegraphics[width=0.3\textwidth]{Chapter5/figures/curse_1d_color} & \includegraphics[width=0.3\textwidth]{Chapter5/figures/curse_2d_color} & \includegraphics[width=0.3\textwidth]{Chapter5/figures/curse_3d_color}
\end{tabular}
\fi
\caption{当数据的相关维度增大时(从左向右),我们感兴趣的配置数目会随之指数级增长。\emph{(左)}在这个一维的例子中,我们用一个变量来区分所感兴趣的仅仅$10$个区域。当每个区域都有足够的样本数时(图中每个样本对应了一个细胞),学习算法能够轻易地\gls{generalization}得很好。\gls{generalization}的一个直接方法是估计目标函数在每个区域的值(可能是在相邻区域之间插值)。\emph{(中)}在二维情况下,对每个变量区分$10$个不同的值更加困难。我们需要追踪$10\times10=100$个区域,至少需要很多样本来覆盖所有的区域。\emph{(右)}三维情况下,区域数量增加到了$10^3=1000$,至少需要那么多的样本。对于需要区分的$d$维以及$v$个值来说,我们需要$O(v^d)$个区域和样本。这就是\gls{curse_of_dimensionality}的一个示例。感谢由Nicolas Chapados提供的图片。}
\caption{当数据的相关维度增大时(从左向右),我们感兴趣的配置数目会随之指数级增长。\emph{(左)}在这个一维的例子中,我们用一个变量来区分只感兴趣的$10$个区域。当每个区域都有足够的样本数时(每个区域对应图中的一个单元格),学习算法能够轻易地\gls{generalization}得很好。\gls{generalization}的一个直接方法是估计目标函数在每个区域的值(可能是在相邻区域之间插值)。\emph{(中)}在二维情况下,对每个变量区分$10$个不同的值更加困难。我们需要追踪$10\times10=100$个区域,至少需要很多样本来覆盖所有的区域。\emph{(右)}三维情况下,区域数量增加到了$10^3=1000$,至少需要那么多的样本。对于需要区分的$d$维以及$v$个值来说,我们需要$O(v^d)$个区域和样本。这就是\gls{curse_of_dimensionality}的一个示例。感谢由Nicolas Chapados提供的图片。}
\label{fig:chap5_curse}
\end{figure}

Expand Down

0 comments on commit a959190

Please sign in to comment.