机器学习笔记之线性回归

示例：
构建一个数据点集合表示如下：
请添加图片描述
通过拟合一条线，使得各样本点到函数图像映射结果之间距离之和最短。

如何构建这条红色线？或者说，在已知样本(蓝色点)的条件下，如何利用样本信息，获取模型参数，从而构建模型来拟合样本？
我们将拟合自变量 $x$ 与因变量 $y$ 之间关系的函数称为拟合方程，最小二乘法是常用于求解拟合方程参数的一种工具。

下面将介绍基于自变量 $x$ 与因变量 $y$ 的条件下，使用最小二乘法求解拟合方程参数的过程。

符号定义

定义数据集合 $D a t a$ 中包含 $N$ 个样本，每个样本包含一个自变量 $x$ 和因变量 $y$ ：
$\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(N)},y^{(N)})\} = \{(x^{(i)},y^{(i)})\}|_{i=1,2,\cdots,N}$

其中，任意自变量 $x^{(i)} \in \{x^{(1)},x^{(2)},\cdots,x^{(N)}\}$ 是 $p$ 维随机变量，因变量 $y$ 是一个标量、实数：
$x^{(i)} =$

(\begin{matrix} x_{1}^{(i)} \\ x_{2}^{(i)} \\ ⋮ \\ x_{p}^{(i)} \end{matrix})

x^{(i)} = ⎝ ⎛ x_{1}^{(i)} x_{2}^{(i)} ⋮ x_{p}^{(i)} ⎠ ⎞

记作： $x^{(i)} \in \mathbb R^{p},y^{(i)} \in \mathbb R(i=1,2,\cdots,N)$

将自变量从数据集合中分离出来，用 $\mathcal X$ 进行表示：
$\mathcal X = (x^{(1)},x^{(2)},\cdots,x^{(N)})^{T}$
根据上面的介绍，每一个自变量 $x^{(i)}(1=1,2,\cdots,N)$ 都是一个 $p$ 维列向量。因此，对上述结果继续展开：
$\mathcal X =$

(\begin{matrix} {x^{(1)}}^{T} \\ {x^{(2)}}^{T} \\ ⋮ \\ {x^{(N)}}^{T} \end{matrix})

=

(\begin{matrix} x_{1}^{(1)}, x_{2}^{(1)}, \dots, x_{p}^{(1)} \\ x_{1}^{(2)}, x_{2}^{(2)}, \dots, x_{p}^{(2)} \\ ⋮ \\ x_{1}^{(N)}, x_{2}^{(N)}, \dots, x_{p}^{(N)} \end{matrix})

_{N \times p}

X = ⎝ ⎛ x^{(1)}^{T} x^{(2)}^{T} ⋮ x^{(N)}^{T} ⎠ ⎞ = ⎝ ⎛ x_{1}^{(1)}, x_{2}^{(1)}, \dots, x_{p}^{(1)} x_{1}^{(2)}, x_{2}^{(2)}, \dots, x_{p}^{(2)} ⋮ x_{1}^{(N)}, x_{2}^{(N)}, \dots, x_{p}^{(N)} ⎠ ⎞_{N \times p}

同理，因变量

y

的集合

\mathcal Y

表示如下：

\mathcal Y

是一个列向量。

\mathcal Y = (y^{(1)},y^{(2)},\cdots,y^{(N)})^{T}|_{N \times 1}

一般情况下，将拟合方程定义为：
这里将偏置项‘归纳进’ $\mathcal W^{T}x$ 内部。
$f(\mathcal W) = \mathcal W^{T}x$
其中，拟合方程参数 $\mathcal W$ 是 $p$ 维列向量：
维度为p的目的是要与‘自变量’ $x^{(i)}(i=1,2,\cdots,N)$ 进行线性运算。
$\mathcal W =$

(\begin{matrix} w_{1} \\ w_{2} \\ ⋮ \\ w_{p} \end{matrix})

W = ⎝ ⎛ w_{1} w_{2} ⋮ w_{p} ⎠ ⎞

最小二乘法主要思想

针对数据集合 $\{(x^{(i)},y^{(i)})\}_{i=1,2,\cdots,N}$ ，计算基于样本 $x^{(i)}$ 的拟合方程结果 $\mathcal W^{T}x^{(i)}$ 和因变量 $y^{(i)}$ 之间的差距；对样本集合中所有样本的差距进行求和，当求和结果数值最小时，拟合方程 $f(\mathcal W)$ 对数据集合中样本的拟合效果最优。

最小二乘法求解拟合方程的模型参数

最小二乘法公式表达如下：
定义一个函数：该函数表示所有差距和的表现形式：
通常称这种函数为‘策略’——只是一种判别工具；也通常称它为‘损失函数’。
$\mathcal L(\mathcal W) = \sum_{i=1}^N ||\mathcal W^{T}x^{(i)} - y^{(i)}||^2$
由于 $x^{(i)},y^{(i)})$ 是数据集合中的具体样本，是已知量；因此，最小二乘法可以看成关于拟合方程参数 $\mathcal W$ 的函数形式。

继续观察上式，标准式中记录的是向量模的平方。由于 $x^{(i)}$ 是一个 $p$ 维列向量，则有：
$\mathcal W^{T}x^{(i)} -y^{(i)} = (w_1,w_2,\cdots,w_p)$

(\begin{matrix} x_{1}^{(i)} \\ x_{2}^{(i)} \\ ⋮ \\ x_{p}^{(i)} \end{matrix})

- y^{(i)}= w_1x_1^{(i)} + w_2x_2^{(i)} + \cdots + w_p x_p^{(i)} - y^{(i)}

W^{T} x^{(i)} - y^{(i)} = (w_{1}, w_{2}, \dots, w_{p}) ⎝ ⎛ x_{1}^{(i)} x_{2}^{(i)} ⋮ x_{p}^{(i)} ⎠ ⎞ - y^{(i)} = w_{1} x_{1}^{(i)} + w_{2} x_{2}^{(i)} + \dots + w_{p} x_{p}^{(i)} - y^{(i)}

该结果就是一个实数。因此，上面公式可直接表示为：
实际上， $\mathcal L(\mathcal W)$ 自身也是一个实数(标量)。
$\mathcal L(\mathcal W) = \sum_{i=1}^N(\mathcal W^{T}x^{(i)} - y^{(i)})^2$

将上述公式表达为符号定义中的矩阵运算格式：

将上述公式右侧展开，得到如下结果：
$(\mathcal W^{T}x^{(1)} - y^{(1)})^2 + (\mathcal W^{T}x^{(2)} - y^{(2)})^2 + \cdots + (\mathcal W^{T}x^{(N)} - y^{(N)})^2$
将上述公式看作为两向量的乘积格式。则有：
$(\begin{matrix} W^{T} x^{(1)} - y^{(1)} \\ W^{T} x^{(2)} - y^{(2)} \\ ⋮ \\ W^{T} x^{(N)} - y^{(N)} \end{matrix})$
- 观察第一项：可以将该向量向量写成两向量相减的形式：
  $\left(\mathcal W^{T}x^{(1)},\mathcal W^{T}x^{(2)},\cdots,\mathcal W^{T}x^{(N)}\right) - (y^{(1)},y^{(2)},\cdots,y^{(N)})$
- 继续化简，将 $\mathcal W^{T}$ 提出：
  注意公式中的行向量形式，使用 $\mathcal X^{T},\mathcal Y^{T}$ 替换。
  $\begin{aligned} W^{T} (x^{(1)}, x^{(2)}, \dots, x^{(N)}) - (y^{(1)}, y^{(2)}, \dots, y^{(N)}) = W^{T} X^{T} - Y^{T} \end{aligned}$
- 观察第二项，由于第二项就是第一项的转置，直接通过第一项结果进行求解：
  $(\mathcal W^{T}\mathcal X^{T} - \mathcal Y^{T})^{T} = \mathcal X \mathcal W - \mathcal Y$

至此，我们将损失函数 $\mathcal L(\mathcal W)$ 表示为如下形式：
展开~

\begin{aligned} L (W) & = (W^{T} X^{T} - Y^{T}) (X W - Y) \\ = W^{T} X^{T} X W - Y^{T} X W - W^{T} X^{T} Y + Y^{T} Y \end{aligned}

L (W) = (W^{T} X^{T} - Y^{T}) (X W - Y) = W^{T} X^{T} X W - Y^{T} X W - W^{T} X^{T} Y + Y^{T} Y

观察中间两项：

\mathcal Y^{T}\mathcal X \mathcal W

和

\mathcal W^{T}\mathcal X^{T}\mathcal Y

：

$\mathcal Y^{T}\mathcal X \mathcal W$ 中 $\mathcal Y^{T}$ 是 $\times p$ 维向量； $\mathcal X$ 是 $\times p$ 维向量； $\mathcal W$ 是 $\times 1$ 维向量；最终乘积结果是 $\times 1$ 维的向量，即标量、实数；
同理， $\mathcal W^{T}\mathcal X^{T}\mathcal Y$ 中 $\mathcal W^{T}$ 是 $\times p$ 维向量； $\mathcal X^{T}$ 是 $\times p$ 维向量； $\mathcal Y$ 是 $\times 1$ 维向量；最终乘积结果同样也是标量、实数。
并且， $\mathcal Y^{T}\mathcal X \mathcal W$ 和 $\mathcal W^{T}\mathcal X^{T}\mathcal Y$ 之间存在如下关系：
$(\mathcal Y^{T}\mathcal X \mathcal W)^{T} = \mathcal W^{T}\mathcal X^{T}\mathcal Y$

至此，我们得到结果：
$\mathcal W^{T}\mathcal X^{T}\mathcal Y = \mathcal Y^{T}\mathcal X \mathcal W$

因此， $\mathcal L(\mathcal W)$ 可以继续化简为：
$\mathcal L(\mathcal W) = \mathcal W^{T}\mathcal X^{T}\mathcal X \mathcal W - 2\mathcal W^{T}\mathcal X^{T}\mathcal Y + \mathcal Y^{T}\mathcal Y$

基于最小二乘法的思想，目的是求解一个最优 $\hat {\mathcal W}$ ，使得：
$\hat{\mathcal W} = \mathop{\arg\min}\limits_{\mathcal W}\mathcal L(\mathcal W)$

基于该思路，对 $\mathcal L(\mathcal W)$ 关于 $\mathcal W$ 求导：
这里用到了矩阵求导的相关知识，大家一起去恶补矩阵论吧。
$\frac{\partial \mathcal L(\mathcal W)}{\partial \mathcal W} = 2\mathcal X^{T}\mathcal X\mathcal W - 2\mathcal X^{T} \mathcal Y$
令 $\frac{\partial \mathcal L(\mathcal W)}{\partial \mathcal W} \triangleq 0$ ，则有：
$\mathcal X^{T}\mathcal X\mathcal W = \mathcal X^{T}\mathcal Y \\ \mathcal W = (\mathcal X^{T} \mathcal X)^{-1}\mathcal X^{T} \mathcal Y$

至此，基于最小二乘估计算法，拟合方程 $f(\mathcal W) = \mathcal W^{T}x$ 的模型参数 $\mathcal W$ 的矩阵形式表达。

模型参数 $\mathcal W$ 的几何解释

几何解释1

观察 $\mathcal L(\mathcal W)$ 的标准式：
$\mathcal L(\mathcal W) = \sum_{i=1}^N(\mathcal W^{T}x^{(i)} - y^{(i)})^2$

可以将其视为一个总误差：将所有误差分散在了每一个自变量中，如上图表示的箭头，箭头的长度表示误差的具体数值，这些数值有正有负(分别位于函数图像的上方与下方)。
取平方最朴素的思想即确定误差数值的符号均为正。总误差即所有所有样本构成的误差数值的总和；

几何解释2

如果将拟合函数进行变换：
$f(\mathcal W) = \mathcal W^{T}x^{(i)} ={x^{(i)}}^{T}\beta$

其中 $\mathcal W$ 和 $\beta$ 向量维度相同，即 $\times 1$ 。
因此，将 $x^{T}\beta$ 进行展开：

\begin{aligned} {x^{(i)}}^{T} β & = (x_{1}^{(i)}, x_{2}^{(i)}, \dots, x_{p}^{(i)}) (\begin{matrix} β_{1} \\ β_{2} \\ ⋮ \\ β_{p} \end{matrix}) \\ = x_{1}^{(i)} β_{1} + x_{2}^{(i)} β_{2} + \dots + x_{p}^{(i)} β_{p} \end{aligned}

x^{(i)}^{T} β = (x_{1}^{(i)}, x_{2}^{(i)}, \dots, x_{p}^{(i)}) ⎝ ⎛ β_{1} β_{2} ⋮ β_{p} ⎠ ⎞ = x_{1}^{(i)} β_{1} + x_{2}^{(i)} β_{2} + \dots + x_{p}^{(i)} β_{p}

观察发现， ${x^{(i)}}^{T}\beta$ 和 $\mathcal W^{T}x^{(i)}$ 的格式相同，其结果都是一个标量、实数。如果将 ${x^{(i)}}^{T}\beta$ 结果与 $p$ 维空间中的原点相连，构成一个向量，可以将 $x_1^{(i)}\beta_1,x_2^{(i)}\beta_2,\cdots,x_p^{(i)}\beta_p$ 看做 $p$ 维空间中每个维度空间的分量。

同理，自变量 $x^{(i)}$ 对应的因变量 $y^{(i)}$ 同样 也是一个数值，该值与 $p$ 维空间中的原点相连也会得到一个向量。什么时候 $y^{(i)}$ 对应的向量和 ${x^{(i)}}^{T}\beta$ 对应的向量是最接近的：

即 ${x^{(i)}}^{T}\beta$ 向量在各个维度的分量均在 $y^{(i)}$ 对应向量在 $p$ 维空间中，每个维度空间中的投影上。

如果满足上述条件， $y^{(i)} - {x^{(i)}}^{T}\beta$ 表示 $p$ 维度空间中各维度自变量的拟合方程结果与因变量之间的距离向量。如果满足上述条件，该 距离向量 应该与 自变量 $x^{(i)}$ 向量在各维度的分量相垂直，只有垂直情况下，两向量之间距离最近。
$y^{(i)} - {x^{(i)}}^{T}\beta$ 不仅要和 ${x^{(i)}}^{T}\beta$ 相垂直，而是和 ${x^{(i)}}^{T}\beta$ 所在 $p$ 维超平面相垂直，因此就要和自变量的每一个维度相垂直。
则有：
两向量夹角90，向量乘积结果为0
${x^{(i)}}^{T}(y^{(i)} - {x^{(i)}}^{T}\beta) = 0$
同理，所有自变量 $x^{(i)}(i=1,2,\cdots,N)$ 与对应的因变量 $y^{(i)}(1=1,2,\cdots,N)$ 都有相同关系。

因此，矩阵表达方式如下：
$\mathcal X^{T}(\mathcal Y - \mathcal X\beta) = 0$
将上式展开移项：
$\mathcal X^{T} \mathcal Y = \mathcal X^{T}\mathcal X\beta \\ \beta = (\mathcal X^{T} \mathcal X)^{-1}\mathcal X^{T} \mathcal Y$

下一节将介绍从概率视角认识最小二乘法

相关阅读:
Nginx配置参数详解一篇到底
【人工智能数学基础】几何解释——最小二乘法
Python图像处理丨图像缩放、旋转、翻转与图像平移
【wireshark报文解析ping baidu.com】
```，```中间添加 # + 空格 + 空行后遇到的底部空行出错，书接上回，处理空行
DOM
Linux 系统性能瓶颈分析(超详细)
Tomcat中,使用原生Servlet中的request和response对象处理请求和响应时的乱码问题
ElasticSearch（九）【SpringBoot整合】
HTML5期末大作业：基于HTML+CSS+JavaScript校园文化企业网站模板【学生网页设计作业源码】

原文地址：https://blog.csdn.net/qq_34758157/article/details/126367531

机器学习笔记之线性回归