分类判别式模型——逻辑斯特回归曲线

逻辑斯特回归

Discriminative Model

——判别式模型

Function set

$\sigma(z)=\frac{1}{1+exp(-z)}\\ P_{w,b}(C_1|x)=\sigma(z)\\ z=w*x+b=\sum_iw_ix_i+b$

因此我们的Function Set：
$f_{w,b}(x)=P_{w,b}(C_1|x)=\sigma(z)$
在这里插入图片描述

因为z经过了逻辑斯特回归曲线，因此输出在0-1之间

Goodness of a Function

在这里插入图片描述

给定一组w和b
$L(w,b)=f_{w,b}(x^1)f_{w,b}(x^2)(1-f_{w,b}(x^3))...f_{w,b}(x^N)$
然后找到 $w^*和b^*$

使得 $arg\max_{w,b}L(w,b)$

数学上等价于 $arg\min_{w,b}-\ln L(w,b)$
$ln L(w,b)=-lnf_{w,b}(x^1)-lnf_{w,b}(x^2)-ln(1-f_{w,b}(x^3))...$
——当我们将类别用不同的y值做tag时

后面的项数都可以写成如下

在这里插入图片描述

最后得到的和项——其实是伯努利分布的交叉熵

交叉熵的含义是，代表两个分布有多接近

如果两个分布一模一样，则交叉熵=0

——因此，本质上，我们是希望找到一个分布，能够与训练集上的分布尽可能的接近

——即 $p(x)=f_{w,b}(x^n)$ 和 $\hat{y}^n$ 的分布尽可能接近

——而这一步，在数学上的表示是，我们希望最小化两个分布之间的交叉熵

Find the best Function

$-\ln L(w,b)=\sum_n-[\hat{y}^n\ln f_{w,b}(x^n)+(1-\hat{y}^n)\ln (l-f_{w,b}(x^n))]$

如果找到最优的w和b，用梯度下降法

——求左式子微分

在这里插入图片描述

——求右式子微分

在这里插入图片描述

——得到整条式子的微分

在这里插入图片描述

与线性回归比较

在这里插入图片描述

——你会发现逻辑斯特回归曲线和线性回归的梯度下降

求微分的式子一模一样

逻辑斯特曲线为什么不能用square Error

在这里插入图片描述

无论最后预测距离目标有多远，你的微分都是非常的平坦

在这里插入图片描述

——因此，用Square error是不容易训练得很好的

判别模型 v.s. 生成模型

$P(C_1|x)=\sigma(w*x+b)\\ \bullet P(C_1|x):直接找w和b\\$

$\bullet\sigma(w*x+b):找\mu^1,\mu^2,\Sigma^{-1}\\ 然后w^T=(\mu^1-\mu^2)^T\Sigma^{-1}\\ b=-\frac{1}{2}(\mu^1)^T(\Sigma)^{-1}\mu^1 +\frac{1}{2}(\mu^2)^T(\Sigma)^{-1}\mu^2+\ln\frac{N_1}{N_2}$

——那么这两个模型找出来的w和b会是同一组吗？

——结果不会是一样的

表示的事情是

同一组函数集合里Function set，在不同模型下挑选出来的函数时不一样的
因为，这两个模型的假设是不一样的
- 在逻辑斯特回归上，我们没有对训练集数据上的分布有任何的假设，我们就是单纯地去寻找w和b使得损失函数最小
- 但在生成模型上，我们是有对训练集的分布存在假设的，我们假设它是高斯分布，或者假设它是伯努利分布

——哪一组找出来的w和b效果更好呢？

在这里插入图片描述