Skip to content

Commit

Permalink
格式调整,概念->表示
Browse files Browse the repository at this point in the history
  • Loading branch information
CoderOverflow authored Apr 4, 2019
1 parent 0f5b62d commit 60abd75
Showing 1 changed file with 12 additions and 12 deletions.
24 changes: 12 additions & 12 deletions ch03_深度学习基础/第三章_深度学习基础.md
Original file line number Diff line number Diff line change
Expand Up @@ -85,7 +85,7 @@ $$

**参考3:对数据量及硬件的要求和支持**

深度学习在不同应用场景的数据量是不一样的,这也就导致我们可能需要考虑分布式计算、多 GPU 计算的问题。例如,对计算机图像处理研究的人员往往需要将图像文件和计算任务分部到多台计算机节点上进行执行。当下每个深度学习平台都在快速发展,每个平台对分布式计算等场景的支持也在不断演进。
深度学习在不同应用场景的数据量是不一样的,这也就导致我们可能需要考虑分布式计算、多GPU计算的问题。例如,对计算机图像处理研究的人员往往需要将图像文件和计算任务分部到多台计算机节点上进行执行。当下每个深度学习平台都在快速发展,每个平台对分布式计算等场景的支持也在不断演进。

**参考4:深度学习平台的成熟程度**

Expand All @@ -103,17 +103,17 @@ $$
### 3.1.5 为什么深层神经网络难以训练?


1. 梯度消失($Vanishing$ $Gradient$
1. 梯度消失(Vanishing Gradient)
梯度消失是指通过隐藏层从后向前看,梯度会变的越来越小,说明前面层的学习会显著慢于后面层的学习,所以学习会卡住,除非梯度变大。

梯度消失的原因受到多种因素影响,例如学习率的大小,网络参数的初始化,激活函数的边缘效应等。在深层神经网络中,每一个神经元计算得到的梯度都会传递给前一层,较浅层的神经元接收到的梯度受到之前所有层梯度的影响。如果计算得到的梯度值非常小,随着层数增多,求出的梯度更新信息将会以指数形式衰减,就会发生梯度消失。下图是不同隐含层的学习速率:

![](./img/ch3/3-8.png)

2. 梯度爆炸($Exploding$ $Gradient $
在深度网络或循环神经网络($Recurrent$ $Neural$ $Network$, $RNN$)等网络结构中,梯度可在网络更新的过程中不断累积,变成非常大的梯度,导致网络权重值的大幅更新,使得网络不稳定;在极端情况下,权重值甚至会溢出,变为$NaN$值,再也无法更新。
2. 梯度爆炸(Exploding Gradient)
在深度网络或循环神经网络(Recurrent Neural Network, RNN)等网络结构中,梯度可在网络更新的过程中不断累积,变成非常大的梯度,导致网络权重值的大幅更新,使得网络不稳定;在极端情况下,权重值甚至会溢出,变为$NaN$值,再也无法更新。

3. 权重矩阵的退化导致模型的有效自由度减少。参数空间中学习的退化速度减慢,导致减少了模型的有效维数,网络的可用自由度对学习中梯度范数的贡献不均衡,随着相乘矩阵的数量(即网络深度)的增加,矩阵的乘积变得越来越退化。在有硬饱和边界的非线性网络中(例如 $ReLU $网络),随着深度增加,退化过程会变得越来越快。$Duvenaud$ 等人 $2014 $年的论文里展示了关于该退化过程的可视化
3. 权重矩阵的退化导致模型的有效自由度减少。参数空间中学习的退化速度减慢,导致减少了模型的有效维数,网络的可用自由度对学习中梯度范数的贡献不均衡,随着相乘矩阵的数量(即网络深度)的增加,矩阵的乘积变得越来越退化。在有硬饱和边界的非线性网络中(例如 ReLU 网络),随着深度增加,退化过程会变得越来越快。Duvenaud等人2014年的论文里展示了关于该退化过程的可视化

![](./img/ch3/3-9.jpg)

Expand All @@ -123,7 +123,7 @@ $$

机器学习:利用计算机、概率论、统计学等知识,输入数据,让计算机学会新知识。机器学习的过程,就是训练数据去优化目标函数。

深度学习:是一种特殊的机器学习,具有强大的能力和灵活性。它通过学习将世界表示为嵌套的概念层次结构,每个概念都与更简单的概念相关,而抽象的概念则用于计算更抽象的表示
深度学习:是一种特殊的机器学习,具有强大的能力和灵活性。它通过学习将世界表示为嵌套的层次结构,每个表示都与更简单的特征相关,而抽象的表示则用于计算更抽象的表示

传统的机器学习需要定义一些手工特征,从而有目的的去提取目标信息, 非常依赖任务的特异性以及设计特征的专家经验。而深度学习可以从大数据中先学习简单的特征,并从其逐渐学习到更为复杂抽象的深层特征,不依赖人工的特征工程,这也是深度学习在大数据时代受欢迎的一大原因。

Expand All @@ -137,7 +137,7 @@ $$

### 3.2.1前向传播与反向传播?

神经网络的计算主要有两种:前向传播($foward​$ $propagation​$,$FP​$)作用于每一层的输入,通过逐层计算得到输出结果;反向传播($backward​$ $propagation​$,$BP​$)作用于网络的输出,通过计算梯度由深到浅更新网络参数。
神经网络的计算主要有两种:前向传播(foward propagation, FP)作用于每一层的输入,通过逐层计算得到输出结果;反向传播(backward propagation, BP)作用于网络的输出,通过计算梯度由深到浅更新网络参数。

**前向传播**

Expand Down Expand Up @@ -195,7 +195,7 @@ $$
a_{i,j} = f(\sum_{m=0}^2 \sum_{n=0}^2 w_{m,n} x_{i+m, j+n} + w_b )
$$

当步长为 $1$ 时,计算 feature map 元素 $ a_{0,0} $ 如下:
当步长为 $1$ 时,计算 feature map 元素 $ a_{0,0} $ 如下:

$$
a_{0,0} = f(\sum_{m=0}^2 \sum_{n=0}^2 w_{m,n} x_{0+m, 0+n} + w_b )
Expand Down Expand Up @@ -339,7 +339,7 @@ $$

1. 计算总误差

总误差:(这里使用$Square$ $Error$)
总误差:(这里使用Square Error)

$$
E_{total} = \sum \frac{1}{2}(target - output)^2
Expand Down Expand Up @@ -378,7 +378,7 @@ $$

### 3.3.1 什么是超参数?

**超参数** : 比如算法中的学习率 ( learning rate )、梯度下降法迭代的数量 ( iterations )、隐藏层数目 ( hidden layers )、隐藏层单元数目、激活函数 ( activation function ) 都需要根据实际情况来设置,这些数字实际上控制了最后的参数和的值,所以它们被称作超参数。
**超参数** : 比如算法中的学习率learning rate、梯度下降法迭代的数量iterations、隐藏层数目hidden layers、隐藏层单元数目、激活函数activation function都需要根据实际情况来设置,这些数字实际上控制了最后的参数和的值,所以它们被称作超参数。

### 3.3.2 如何寻找超参数的最优值?

Expand All @@ -392,9 +392,9 @@ $$

4. 贝叶斯优化:使用贝叶斯优化超参数,会遇到贝叶斯优化算法本身就需要很多的参数的困难。

5. $MITIE$ 方法,好初始猜测的前提下进行局部优化。它使用 $BOBYQA$ 算法,并有一个精心选择的起始点。由于 $BOBYQA$ 只寻找最近的局部最优解,所以这个方法是否成功很大程度上取决于是否有一个好的起点。在 $MITIE​$ 的情况下,我们知道一个好的起点,但这不是一个普遍的解决方案,因为通常你不会知道好的起点在哪里。从好的方面来说,这种方法非常适合寻找局部最优解。稍后我会再讨论这一点。
5. MITIE方法,好初始猜测的前提下进行局部优化。它使用BOBYQA算法,并有一个精心选择的起始点。由于BOBYQA只寻找最近的局部最优解,所以这个方法是否成功很大程度上取决于是否有一个好的起点。在MITIE的情况下,我们知道一个好的起点,但这不是一个普遍的解决方案,因为通常你不会知道好的起点在哪里。从好的方面来说,这种方法非常适合寻找局部最优解。稍后我会再讨论这一点。

6. 最新提出的 $LIPO​$ 的全局优化方法。这个方法没有参数,而且经验证比随机搜索方法好。
6. 最新提出的LIPO的全局优化方法。这个方法没有参数,而且经验证比随机搜索方法好。

### 3.3.3 超参数搜索一般过程?

Expand Down

0 comments on commit 60abd75

Please sign in to comment.