【李航统计学习笔记】第六章：Logistic regression

【李航统计学习笔记】第六章：Logistic regression
6.1 Logistic Regression

Logistic分布

回顾感知机：

$f(x)=\operatorname{sign}(w \cdot x+b)$

思考：
1. 只输出-1和+1是不是太生硬了？这样的判别方式真的有效吗？
2. 超平面左侧0.001距离的点和超平面右侧0.001距离的点真的有天壤之别吗？
感知机的缺陷：
1. 感知机通过梯度下降更新参数，但在 sign函数中， $x = 0$ 是间断点，不可微。
2. 感知机由于sign不是连续可微的，因此在梯度下降时脱去了壳子sign函数。
logistic regression定义：

$\begin{aligned} P (Y = 1 ∣ x) = \frac{\exp (w \cdot x)}{1 + \exp (w \cdot x)} \\ P (Y = 0 ∣ x) = \frac{1}{1 + \exp (w \cdot x)} \end{aligned}$
P(Y=1∣x)=1+exp(w⋅x)exp(w⋅x)P(Y=0∣x)=1+exp(w⋅x)1

参数估计：

Logistic regression模型学习时，对于给定的训练数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\right.\left.\left(x_{N}, y_{N}\right)\right\}$ ，其中， $x_{i} \in \mathbf{R}^{n}, \quad y_{i} \in\{0,1\}$ ，可以应用极大似然估计法估计模型参数，从而得到logistic regression模型。

设：
$\mid x)=\pi(x), \quad P(Y=0 \mid x)=1-\pi(x)$
似然函数为:
$\prod_{i=1}^{N}\left[\pi\left(x_{i}\right)\right]^{y_{i}}\left[1-\pi\left(x_{i}\right)\right]^{1-y_{i}}$
对数似然函数为：

$\begin{aligned} L (w) & = \sum_{i = 1}^{N} [y_{i} \log π (x_{i}) + (1 - y_{i}) \log (1 - π (x_{i}))] \\ = \sum_{i = 1}^{N} [y_{i} \log \frac{π (x_{i})}{1 - π (x_{i})} + \log (1 - π (x_{i}))] \\ = \sum_{i = 1}^{N} [y_{i} (w \cdot x_{i}) - \log (1 + \exp (w \cdot x_{i})] \end{aligned}$
L(w)=i=1∑N[yilogπ(xi)+(1−yi)log(1−π(xi))]=i=1∑N[yilog1−π(xi)π(xi)+log(1−π(xi))]=i=1∑N[yi(w⋅xi)−log(1+exp(w⋅xi)]
对 $L (w)$ 求极大值，得到 $w$ 的估计值。

似然函数对 $w$ 的求导：

$\begin{matrix} L (w) = \sum_{i = 1}^{N} [y_{i} (w \cdot x_{i}) - \log (1 + \exp (w \cdot x_{i}))] \\ \frac{\partial L (w)}{\partial w} = y_{i} \cdot x_{i} - \frac{1}{1 + \exp (w \cdot x_{i})} \exp (w \cdot x_{i}) \cdot x_{i} = y_{i} \cdot x_{i} - \frac{x_{i} \cdot \exp (w \cdot x_{i})}{1 + \exp (w \cdot x_{i})} \end{matrix}$
L(w)=i=1∑N[yi(w⋅xi)−log(1+exp(w⋅xi))]∂w∂L(w)=yi⋅xi−1+exp(w⋅xi)1exp(w⋅xi)⋅xi=yi⋅xi−1+exp(w⋅xi)xi⋅exp(w⋅xi)

总结：
1. 逻辑斯谛以输出概率的形式解决了极小距离带来的 + 1和-1的天壤之别。同时概率也可作为模型输出的置信程度。
2. 逻辑斯谛使得了最终的模型函数连续可微。训练目标与预测目标达成了一致。
3. 逻辑斯谛采用了极大似然估计来估计参数。
最大熵原理

什么是最大熵？

在我们猜测概率时，不确定的部分我们认为是等可能的，就好像骰子一样，我们知道有6个面，因此认为每个面的概率是 $1/6$ ，也就是等可能。
换句话说，就是趋向于均匀分布，最大熵使用的就是一个这么朴素的道理：凡是我们知道的，就把它考虑进去，凡是不知道的，通通均匀分布。

最大熵模型

终极目标：
$\mid X)$
熵:
$H(P)=-\sum_{x} p(x) \log P(x)$
将终极目标代入熵：
$H(P)=-\sum_{x} p(y \mid x) \log P(y \mid x)$
做些改变，调整熵:
$H(P)=-\sum_{x} \widetilde{P}(x) p(y \mid x) \log P(y \mid x)$

约束条件

特征函数

${\begin{cases} 1, & x 与 y 满足某一事实 \\ 0, & 否则 \end{cases}$
f(x,y)={1,0,x 与 y 满足某一事实否则
特征函数 $f (x, y)$ 关于经验分布 $\widetilde{P}(x, y)$ 的期望值：
$E_{\widetilde{p}}(f)=\sum_{x, y} \widetilde{P}(x, y) f(x, y)=\sum_{x, y} \widetilde{P}(x) \widetilde{P}(y \mid x) f(x, y)$
特征函数 $f (x, y)$ 关于经验分布 $P (x, y)$ 的期望值：
$E_{p}(f)=\sum_{x, y} P(x, y) f(x, y)=\sum_{x, y} \widetilde{P}(x) P(y \mid x) f(x, y)$
约束:
$E_{\widetilde{p}}(f)=E_{p}(f)$

$\begin{array}{ll} max_{P \in C} & H (P) = - \sum_{x, y} \tilde{P} (x) \tilde{P} (y ∣ x) f (x, y) \\ s.t. & E_{\tilde{p}} (f) - E_{p} (f) = 0 \\ \sum_{y} P (y ∣ x) = 1 \\ min_{P \in C} & H (P) = \sum_{x, y} \tilde{P} (x) \tilde{P} (y ∣ x) f (x, y) \\ s.t. & E_{\tilde{p}} (f) - E_{p} (f) = 0 \\ \sum_{y} P (y ∣ x) = 1 \end{array}$
maxP∈C s.t. minP∈C s.t. H(P)=−∑x,yP (x)P (y∣x)f(x,y)Ep (f)−Ep(f)=0∑yP(y∣x)=1H(P)=∑x,yP (x)P (y∣x)f(x,y)Ep (f)−Ep(f)=0∑yP(y∣x)=1

拉格朗日乘子法

$\begin{aligned} L (P, w) \equiv & - H (P) + w_{0} (1 - \sum_{y} P (y ∣ x)) + \sum_{i = 1}^{n} w_{i} (E_{\tilde{P}} (f_{i}) - E_{P} (f_{i})) \\ = & \sum_{x, y} \tilde{P} (x) P (y ∣ x) \log P (y ∣ x) + w_{0} (1 - \sum_{y} P (y ∣ x)) \\ + \sum_{i = 1}^{n} w_{i} (\sum_{x, y} \tilde{P} (x, y) f_{i} (x, y) - \sum_{x, y} \tilde{P} (x) P (y ∣ x) f_{i} (x, y)) \end{aligned}$
L(P,w)≡=−H(P)+w0(1−y∑P(y∣x))+i=1∑nwi(EP~(fi)−EP(fi))x,y∑P~(x)P(y∣x)logP(y∣x)+w0(1−y∑P(y∣x))+i=1∑nwi(x,y∑P~(x,y)fi(x,y)−x,y∑P~(x)P(y∣x)fi(x,y))

$\min _{P \in C} \max _{w} L(P, w) \rightarrow \max _{w} \min _{P \in C} L(P, w)$

$\begin{aligned} P_{w} (y ∣ x) & = \frac{1}{Z_{w} (x)} \exp (\sum_{i = 1}^{n} w_{i} f_{i} (x, y)) \\ Z_{w} (x) & = \sum_{y} \exp (\sum_{i = 1}^{n} w_{i} f_{i} (x, y)) \end{aligned}$
Pw(y∣x)Zw(x)=Zw(x)1exp(i=1∑nwifi(x,y))=y∑exp(i=1∑nwifi(x,y))

总结
1. 最大熵强调不提任何假设，以熵最大为目标。
2. 将终极目标代入熵的公式后，将其最大化。
3. 在训练集中寻找现有的约束，计算期望，将其作为约束。使用拉格朗日乘子法得到 $\mid x)$ ，之后使用优化算法得到 $\mid x)$ 中的参数 $w$ 。
6.2 改进的尺度迭代法（IIS）

已知要解决的目标:

$\begin{aligned} P_{w} (y ∣ x) & = \frac{1}{Z_{w} (x)} \exp (\sum_{i = 1}^{n} w_{i} f_{i} (x, y)) \\ Z_{w} (x) & = \sum_{y} \exp (\sum_{i = 1}^{n} w_{i} f_{i} (x, y)) \end{aligned}$
Pw(y∣x)Zw(x)=Zw(x)1exp(i=1∑nwifi(x,y))=y∑exp(i=1∑nwifi(x,y))
所有的式子连乘取对数转换为似然函数为:
$L(w)=\sum_{x, y}\left[\tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)\right]-\sum_{x}\left[\tilde{P}(x) \ln Z_{w}(x)\right]$
IIS核心思想：每次增加一个量 $\delta$ ，使得 $L(w+\delta)>L(w)$ ，以此不断提高 $L$ 的值，直到达到极大值
$L(w+\delta)-L(w)=\sum_{x, y}\left[\tilde{P}(x, y) \sum_{i=1}^{n} w_{i} \delta_{i} f_{i}(x, y)\right]-\sum_{x}\left[\tilde{P}(x) \ln \frac{Z_{w+\delta}(x)}{Z_{w}(x)}\right]$
其中
$\begin{aligned} \frac{Z_{w + δ} (x)}{Z_{w} (x)} & = \frac{1}{Z_{w} (x)} \sum_{y} \exp (\sum_{i = 1}^{n} (w_{i} + δ_{i}) f_{i} (x, y)]) \\ = \sum_{y} \frac{1}{Z_{w} (x)} \exp (\sum_{i = 1}^{n} w_{i} f_{i} (x, y)) \exp (\sum_{i = 1}^{n} δ_{i} f_{i} (x, y)) \\ = \sum_{y} P (y ∣ x) \exp (\sum_{i = 1}^{n} δ_{i} f_{i} (x, y)) \end{aligned}$
所以
$\begin{aligned} L (w + δ) - L (w) & = \sum_{x, y} [\tilde{P} (x, y) \sum_{i = 1}^{n} w_{i} δ_{i} f_{i} (x, y)] - \sum_{x} [\tilde{P} (x) \ln \frac{Z_{w + δ} (x)}{Z_{w} (x)}] \\ \geq \sum_{x, y} [\tilde{P} (x, y) \sum_{i = 1}^{n} w_{i} δ_{i} f_{i} (x, y)] + 1 - \sum_{x} \tilde{P} (x) \sum_{y} P_{w} (y ∣ x) \exp (\sum_{i = 1}^{n} δ_{i} f_{i} (x, y)) \end{aligned}$
又
$\exp \left(\sum_{i=1}^{n} \delta_{i} f_{i}(x, y)\right) =\exp \left(\sum_{i=1}^{n} \frac{f_{i}(x, y)}{f^{*}(x, y)} f^{*}(x, y) \delta_{i}\right) \leq \sum_{i=1}^{n} \frac{f_{i}(x, y)}{f^{*}(x, y)} \exp \left(\delta_{i} f^{*}(x,y)\right)$

所以

$\begin{aligned} L (w + δ) - L (w) & = \sum_{x, y} [\tilde{P} (x, y) \sum_{i = 1}^{n} w_{i} δ_{i} f_{i} (x, y)] - \sum_{x} [\tilde{P} (x) \ln \frac{Z_{w + δ} (x)}{Z_{w} (x)}] \\ \geq \sum_{x, y} [\tilde{P} (x, y) \sum_{i = 1}^{n} w_{i} δ_{i} f_{i} (x, y)] + 1 - \sum_{x} \tilde{P} (x) \sum_{y} P_{w} (y ∣ x) \exp (\sum_{i = 1}^{n} δ_{i} f_{i} (x, y)) \\ \geq \sum_{x, y} [\tilde{P} (x, y) \sum_{i = 1}^{n} δ_{i} f_{i} (x, y)] + 1 - \sum_{x} \tilde{P} (x) \sum_{v} P_{w} (y ∣ x) \sum_{i = 1}^{n} \frac{f_{i} (x, y)}{f^{*} (x, y)} \exp (δ_{i} f^{*} (x, y)) \end{aligned}$
L(w+δ)−L(w)=x,y∑[P~(x,y)i=1∑nwiδifi(x,y)]−x∑[P~(x)lnZw(x)Zw+δ(x)]≥x,y∑[P~(x,y)i=1∑nwiδifi(x,y)]+1−x∑P~(x)y∑Pw(y∣x)exp(i=1∑nδifi(x,y))≥x,y∑[P~(x,y)i=1∑nδifi(x,y)]+1−x∑P~(x)v∑Pw(y∣x)i=1∑nf∗(x,y)fi(x,y)exp(δif∗(x,y))
我们令
$\begin{aligned} A (δ ∣ w) = \sum_{x, y} [\tilde{P} (x, y) \sum_{i = 1}^{n} w_{i} δ_{i} f_{i} (x, y)] + 1 - \sum_{x} \tilde{P} (x) \sum_{y} P_{w} (y ∣ x) \exp (\sum_{i = 1}^{n} δ_{i} f_{i} (x, y)) \\ B (δ ∣ w) = \sum_{x, y} [\tilde{P} (x, y) \sum_{i = 1}^{n} δ_{i} f_{i} (x, y)] + 1 - \sum_{x} \tilde{P} (x) \sum_{y} P_{w} (y ∣ x) \sum_{i = 1}^{n} \frac{f_{i} (x, y)}{f^{*} (x, y)} \exp (δ_{i} f^{*} (x, y)) \end{aligned}$
当 $\delta=0$ , 有
$\begin{aligned} A (δ ∣ w) = 0 \\ B (δ ∣ w) = 0 \end{aligned}$
所以
$\begin{aligned} g (δ_{i}) & = \sum_{x, y} \tilde{P} (x) P_{w} (y ∣ x) f_{i} \exp (δ_{i} f^{*}) - E \tilde{P} (f_{i}) \\ g (δ_{i}) & = 0 \\ δ_{i}^{(k + 1)} & = δ_{i}^{(k)} - \frac{g (δ_{i}^{(k)})}{g^{'} (δ_{i}^{(k)})} \end{aligned}$
总结：

IIS找到了原优化目标的一个下界，通过不断提高下界以此提高目标优化。
相关阅读:
KNN算法与SVM支持向量机
 【2024秋招】小米中间件后端开发一面2023-9-13-base武汉
 2022-8-20 B树和B+树
 Spring Boot自定义拦截器（HandlerInterceptor）使用
 定时执行专家 - 程序设计及源代码结构 by BoomWorks
竞赛深度学习YOLO安检管制物品识别与检测 - python opencv
Python——字典数据存入excel
机器学习笔记05——特征工程之特征处理:字典特征提取、文本特征提取
 数学建模--预测类模型
 iOS——KVC（键值编码）
原文地址：https://blog.csdn.net/weixin_39236489/article/details/126093399

6.1 Logistic Regression

Logistic分布

回顾感知机：

logistic regression定义：

总结：

最大熵原理

什么是最大熵？

最大熵模型

约束条件

拉格朗日乘子法

总结

6.2 改进的尺度迭代法（IIS）