在本文中,我们回顾了深度学习的概念和技术,这些概念和技术对理解图神经网络至关重要。从将机器学习表述为优化问题开始,介绍了目标函数、梯度下降、非线性和反向传播的概念。

这篇我们主要讲第一部分深度学习的基础。
我们将机器学习问题、监督学习问题看作是优化问题:

我们需要学习这样一个映射函数:将输入 x x x映射为输出的预测标签 y y y。
将这样的函数学习表述为一个优化过程。

有两件重要的是:
交叉熵损失函数:

讨论多分类问题:
比如5分类问题,表示5种颜色,我们用one-hot编码表示。
我们要在某种意义上对它进行建模,使用 f ( x ) f(x) f(x)这是将某个函数 g ( x ) g(x) g(x)经过 S o f t m a x ( ) Softmax() Softmax()函数,得到一个预测5分类的概率,这些概率之和为1。
现在要衡量这个预测的质量。
通过单点的交叉熵损失函数 C E ( y , f ( x ) ) CE(y,f(x)) CE(y,f(x))得到的值越小,就表示预测值与真实的one-hot值越接近。
然后将所有单点的损失相加就得到了总的损失: L = ∑ ( x , y ) ∈ T CE ( y , f ( x ) ) \mathcal{L}=\sum_{(x,y)\in\mathcal{T}}\operatorname{CE}(y,f(x)) L=∑(x,y)∈TCE(y,f(x)),这是所有训练样本的真实值与预测值之间的总差异。
而我们想要的就是找到一个合适的函数 f ( x ) f(x) f(x)去最小化真实值与预测值之间的总差异。

经典的优化目标函数是通过梯度下降,所以梯度的概念很重要:
某个定点的梯度是一个方向,该方向是函数的最快增长速率。
现在,我们可以对损失函数进行“询问”,关于我的参数 Θ \Theta Θ,我应该朝着哪个方向?(梯度相反的方向)改变我的参数 Θ \Theta Θ使损失 L \mathcal{L} L减少最多。

上面是最基础的梯度下降版本,重复更新模型参数,直至收敛。
最基础的梯度下降有一些问题,所以后续提出了随机梯度下降(SGD):

传统的梯度下降每一轮迭代都需要计算所有点的梯度,计算量太大,而SGD只计算一部分。

这种小批量训练的思想是深度学习的核心。
对于简单的模型:


反向传播的概念:使用链式法则,来传播中间步骤的梯度,最终获得关于模型参数损失的梯度。
举例:


目前为止只使用了简单的两层神经网络,而 W 2 W 1 W_2W_1 W2W1可以表示为另一个矩阵,它依然可以表示为一层的线性变换。

这意味着,我们通过两侧的线性变换依然得到的是一个线性模型,没有获得更多的表达能力。
而如果我们引入非线性变换,实际上增加了模型的表示能力。这将我们引向多层感知机的概念(MLP)。

