大样本情况下线性概率模型与广义线性模型的比较、线性概率模型、Logit模型、Probit模型
目录
Logit 和 Probit 模型是两种常用的二分类模型 。在实际应用中,这些模型使用的主要目的有两点:一是统计推断(估计我们感兴趣的协变量所对应的参数并对其进行检验),二是分类(对新样本进行分类或计算预测概率)。
n个样本和p维预测变量,定义预测变量、设计矩阵、系数向量、误差项;

于是,线性概率模型可以表示为:
,或者为:
注意到,该模型利用最小二乘方法进行估计!

,再以
的权重进行加权最小二乘重新估计参数。


对同一情形分别用三种模型进行预测的ROC模型,从上至下分别为样本量=50、500、50000: 
随着样本量的增加其 AUC 值是逐渐增大的,这种现象显然是合理的,样本量增大,建模所需的信息逐渐增加,模型更加准确,其预测力也会随之提高。从整体来看,9 张图中的 3 条折线几乎重合,说明对于同一误差和同一样本量情形来说,三种模型的预测力几乎是一致的。
通过互联网选取数据集作为实证分析的样本:

本文对三种模型进行了充分的模拟和实例研究,结果表明,与二分类情形下的广义线性模型相比,线性概率模型既有优点也有缺点。依照之前的模拟和实例分析可以看到是否使用线性概率模型与我们秉持的最终目标有关。如果是出于推断和参数估计的目的,线性概率模型简单且易于解释。如果为了通过模型拟合得到预测值或进行分类,线性概率模型与 Logit 和 Probit模型效果基本上一样好。而如果对预测概率本身感兴趣的话,线性概率模型并不是一个好的选择。
因此,随着大数据时代的到来,数据量急剧增加。有时我们需要计算机在几秒内就得到需要的结果,对于这种情形,通过 Logit和 Probit 模型进行拟合可能并不能很快的得到答案。因此,如果我们需要获得实时预测或需要频繁更新模型时,相比 Logit 和 Probit模型,线性概率模型可能更合适。