论文笔记：多标签学习——LIFT算法

原文见 Zhang, M.-L., & Wu, L. (2015). LIFT: Multi-label learning with label-specific features. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37, 107–120.在线地址
特点
把多标签问题转换成了多个二分类问题。

关键步骤

label-specific features construction
classification models induction

符号系统

符号	含义	说明
$\mathcal{X}=\mathbb{R}^d$	$d$ 维特征向量
$\mathcal{Y}=\{l_1,l_2,\cdots,l_q\}$	标签空间	$l_k$ 表示标签，其中 $k\in[1,q]$
$\phi_k(\mathbf{x})$	$\phi_k(\mathbf{x})=[\mathbf{d}(\mathbf{x},\mathbf{P}_1^k),\cdots,\mathbf{d}(\mathbf{x},\mathbf{P}_{m^k}^k),\mathbf{d}(\mathbf{x},\mathbf{N}_1^k),\cdots,\mathbf{d}(\mathbf{x},\mathbf{N}_{m^k}^k)]$	将原特征空间映射到新的特征空间，其中 $k\in[1,q]$
$\mathcal{B}_k$	由新的特征空间构成的二分类训练数据集	其中 $k\in[1,q]$
$\mathcal{f}:\mathcal{X}\rightarrow \mathcal{Y}$	分类器

主要过程：
Step1： 将数据集分为标签含有 $l_k(k\in[0,q])$ 标签： $\mathcal{P}_k=\{\mathbf{x}_i|(\mathbf{x}_i,\mathbf{Y}_i)\in D,l_k\in \mathbf{Y}_i\}$ 和不含 $l_k$ 标签： $\mathcal{N}_k=\{\mathbf{x}_i|(\mathbf{x}_i,\mathbf{Y}_i)\in D,l_k\notin \mathbf{Y}_i\}$ 的两个数据集，针对这两个数据集进行k-means聚类成 $m_k$ 个簇，其中 $m_k$ 的取值为：
$m_k=\lceil r\cdot \mathop {min(|P_k|,|N_k|)}\rceil$
(其中 $r\in[0,1]$ ， $m_k$ 取最小值可以避免 $\mathcal{|P_k|\ll |N_k|}$ 导致的类失衡，训练出的模型不准确)。
完成聚类后的簇的中心表示为：
针对正样本数据集： $\{\mathbf{p_1^k,p_2^k,\cdots,p_{m^k}^k}\}$
针对负样本数据集： $\{\mathbf{n_1^k,n_2^k,\cdots,n_{m^k}^k}\}$
于是，每个训练数据到每个中心点的距离组成了新的特征空间：
$\phi_k(\mathbf{x})=[\mathbf{d}(\mathbf{x},\mathbf{P}_1^k),\cdots,\mathbf{d}(\mathbf{x},\mathbf{P}_{m^k}^k),\mathbf{d}(\mathbf{x},\mathbf{N}_1^k),\cdots,\mathbf{d}(\mathbf{x},\mathbf{N}_{m^k}^k)]$

Step2： 由新的特征空间构成的二分类训练数据集进行训练，得到分类器 $f_k$ 。
如果对所有标签都完成上述操作，那么会得到 $q$ 个分类器，当预测时，同样需要对数据的原特征空间进行映射操作，然后经过 $q$ 个分类器进行分类，得到预测结果。

论文中的伪代码：
在这里插入图片描述
LIFT算法的缺点：由于是对各个标签进行独立学习，没有考虑标签的相关性。

总结：作者将一个多标签问题转换成了多个二分类问题来解决，通过聚类中心构建了新的特征集合（我们是不是也可以通过这种方式进行数据处理呀），然后根据新的特征空间生成多个分类器，最后结合多个分类器进行总体分类。

相关阅读:
学习笔记——并查集
Pytorch实现线性回归
自然语言处理学习笔记-lecture07-句法分析01
C++入门篇2
详细解读 React useCallback &useMemo
内存一致性，指令重排序，内存屏障，volatile解析
【Linux】升级GCC（版本9.3），补充：binutils
浅谈java中的String
【JavaScript 逆向】猿人学 web 第五题：乱码增强
区域入侵AI算法如何应用在工地场景，保卫工地施工安全？

原文地址：https://blog.csdn.net/Z__XY_/article/details/125471314