目录

最大熵原理是概率模型学习的一个准则,最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型就是最好的模型,通常使用模型的约束条件来确定概率模型的集合,所以最大熵原理也可以表述为在满足约束条件的模型集合中选择上最大的模型。

这里,n个约束条件; 真实分布和经验分布为:

未知的只有条件分布 p(y|x),得到了待选模型集合 










最大熵模型就是由公式(6.22)、公式(6.23)表示的条件概率分布。
想要估计逻辑回归中的条件概率分布,可以通过极大似然方法实现。那么在最大熵模型里,同样可以使用极大似然方法去估计条件概率分布,然后使用这个条件概率分布(模型)去解决分类问题。
怎么找似然函数?首先我们假定我们已经知道了条件概率分布,然后找到用于训练模型的样本集,根据这个样本集写出所有样本所出现的概率表达式。换一个视角,在已知这些样本情况下,我们将这个表达式记作条件概率分布的似然函数。现在的研究对象变成了条件概率分布。取什么样的分布可以使得这个似然函数最大呢?





来自B站博主“简博士”讲解——《统计学习方法》最大熵模型的优化算法。



2.2.1 一元情形

2.2.2 多元情形

2.3.1 DFP算法

2.3.2 BFGS算法

2.3.3 Broyden算法




