线性回归模型（OLS）1

本系列文章基于R语言中lm函数的输出，介绍线性回归模型的例子和原理。

本文是系列文章的第一篇，将介绍线性回归模型的定义并给出一个R语言的示例。

线性回归模型是我们日常工作中处理数据时经常使用的一种基础模型。了解线性回归模型的原理和细节有助于我们学习其他模型，如广义线性模型（GLM模型）。
本文包括以下四个小节：
1. 定义
2. 示例：mtcars数据集
3. 模型推导
4. 附录代码

以下文章为免费试读部分，完整文章可到公号“生信了”付费阅读

假设我们观察到一些数据 $\{\mathbf{x}_i, y_i\}_{i=1}^n$ ，其中 $\mathbf{x}_i=(x_{i1},x_{i2},\ldots,x_{ip})^\mathsf{T}$ ，线性回归模型研究因变量 $y_i$ 和自变量 $\mathbf{x}_i$ 之间的关系：

\begin{aligned} y_{i} & = β_{0} + β_{1} x_{i 1} + β_{2} x_{i 2} + \dots + β_{p} x_{i p} + ϵ_{i} \\ (1.1) & = \sum_{j = 0}^{p} β_{j} x_{i j} + ϵ_{i}, (x_{i 0} = 1) \end{aligned}

y_{i} = β_{0} + β_{1} x_{i 1} + β_{2} x_{i 2} + \dots + β_{p} x_{i p} + ϵ_{i} = j = 0 \sum p β_{j} x_{ij} + ϵ_{i}, (x_{i 0} = 1) (1.1)

其中 $\beta_j$ 是回归系数，是我们要求解的模型参数；而 $\epsilon_i$ 是误差项，代表观测值 $y_i$ 与理论值 $\sum_{j=0}^p \beta_j x_{ij}$ 之间的偏差。这里我们需要注意的是线性回归模型中的“线性”是针对回归系数而言的，也就是说模型可以泛化为：

\begin{aligned} y_{i} & = β_{0} + β_{1} ϕ_{1} (x_{i 1}) + β_{2} ϕ_{2} (x_{i 2}) + \dots + β_{p} ϕ_{p} (x_{i p}) + ϵ_{i} \\ (1.2) & = \sum_{j = 0}^{p} β_{j} ϕ_{j} (x_{i j}) + ϵ_{i}, (ϕ_{0} (x_{i 0}) = 1) \end{aligned}

y_{i} = β_{0} + β_{1} ϕ_{1} (x_{i 1}) + β_{2} ϕ_{2} (x_{i 2}) + \dots + β_{p} ϕ_{p} (x_{i p}) + ϵ_{i} = j = 0 \sum p β_{j} ϕ_{j} (x_{ij}) + ϵ_{i}, (ϕ_{0} (x_{i 0}) = 1) (1.2)

其中 $\phi_j(\cdot)$ 可以是“非线性”函数（比如二次函数）。

我们希望模型的“拟合值”尽可能接近观测值。有多个指标可以用来衡量这个“接近”的程度，其中最常用的就是误差项的平方，也就是 $\epsilon_i^2$ 。在此指标下，最优的模型应该是让所有观测数据的误差项平方的和最小，也就是让“损失” $L$ 最小化：

\begin{aligned} L & = \sum_{i = 1}^{n} ϵ_{i}^{2} \\ (1.3) & = \sum_{i = 1}^{n} {(y_{i} - \sum_{j = 0}^{p} β_{j} x_{i j})}^{2} \end{aligned}

L = i = 1 \sum n ϵ_{i}^{2} = i = 1 \sum n (y_{i} - j = 0 \sum p β_{j} x_{ij})^{2} (1.3)

我们可以用矩阵形式来重新描述上面的式子（注意到 $L$ 是 $\beta_j$ 的函数）：

\begin{aligned} (1.4) & L = S (β) = ‖ y - X β ‖^{2} \end{aligned}

L = S (β) = ∥ y - X β ∥^{2} (1.4)

其中 $\mathbf{y}=(y_1, y_2, \ldots, y_n)^\mathsf{T}$ ， $\boldsymbol{\beta}=(\beta_0, \beta_1, \ldots, \beta_p)^\mathsf{T}$ ，而 $\mathbf{X}$ 稍微复杂一点，

\begin{matrix} (1.5) & X = (\begin{matrix} 1 & x_{11} & x_{12} & \dots & x_{1 p} \\ 1 & x_{21} & x_{22} & \dots & x_{2 p} \\ ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ 1 & x_{n 1} & x_{n 2} & \dots & x_{n p} \end{matrix}) \end{matrix}

X = ⎝ ⎛ 11 ⋮ 1 x_{11} x_{21} ⋮ x_{n 1} x_{12} x_{22} ⋮ x_{n 2} \dots \dots ⋱ \dots x_{1 p} x_{2 p} ⋮ x_{n p} ⎠ ⎞ (1.5)

此时，我们要求解的模型最优参数（用 $\hat{\boldsymbol{\beta}}$ 表示）就是：

\begin{aligned} (1.6) & \hat{β} & = \arg min_{β} ‖ y - X β ‖^{2} \end{aligned}

\hat{β} = ar g β min ∥ y - X β ∥^{2} (1.6)

我们可以比较容易地得到 $\hat{\boldsymbol{\beta}}$ 的解析解，

\begin{matrix} (1.7) & \hat{β} = (X^{T} X)^{- 1} X^{T} y \end{matrix}

\hat{β} = (X^{T} X)^{- 1} X^{T} y (1.7)

具体的推导过程见“模型推导”小节。上面这种根据最小误差平方和求解模型参数的方法称为普通最小二乘法（OLS），是最小二乘法中最常见的一种（其它包括加权最小二乘等）。

下文首先给出一个R语言中线性回归模型的例子，然后介绍其背后的原理。

很多人都了解，我们可以通过R语言中lm函数进行线性回归模型的分析。我们利用R语言中自带的mtcars数据集给出一个示例。mtcars数据集包含了32个品牌/型号的汽车11种不同属性的测量值。

在这里插入图片描述

相关阅读:
人工神经网络的应用实例,人工神经网络算法实例
99. 激光炸弹（二维前缀和）
使用HTML制作一个端午赛龙舟小游戏
[ACP云计算]组件介绍
Java编程语言是什么传递，即值传递和引用传递的区别
HK32F030MF4P6 红外遥控接收例程
C++精通之路：红黑树的应用（模拟实现map/set）
1027. 最长等差数列（leetcode）
基于python的数据结构与算法——线性表
perf使用

原文地址：https://blog.csdn.net/biocity/article/details/126165067