Fast Unsupervised Projection for Large-Scale Data - 码农知识堂 - 文章详情页

Fast Unsupervised Projection for Large-Scale Data
Fast Unsupervised Projection for Large-Scale Data

abstract

传统的降维方法通常无法处理非线性数据，并且具有较高的计算复杂度。为了解决这些问题，提出了一种快速无监督投影（FUP）方法。FUP的简化图由样本和代表点构成，其中通过迭代优化选择的代表点的数量小于样本的数量。通过生成所呈现的图，证明了大规模数据可以在许多场景中更快地投影。然后，提出了正交FUP（OFUP）方法来保证投影矩阵的正交性。具体而言，OFUP方法在一定参数设置下被证明与PCA等效。

introduction

降维（DR）用来解决数据从高维特征空间映射到低维子空间的问题。

为了能解决非线性数据的降维问题，提出了两种主要策略：基于核的方法、基于流行学习的方法

基于流形学习的方法能够保持样本的邻域结构。

流形算法的主要思想是能够学习高维空间中样本的局部邻域结构，并寻找一种子空间能够保留这种流行结构，

使得样本在投影到低维空间后，得到比较好的局部近邻关系。（原始空间中的两个点距离比较近，投影后仍然比较近）

局部保持投影（LPP）

LLE和PCAN都可以降低维数并保持样本的局部邻域结构。本文提出了快速无监督投影（FUP）和正交FUP（OFUP）方法，以保持流形学习的优势并简化计算。该方法基于LPP，选择数量小于样本数量的代表点，然后用样本和代表点构造亲和矩阵，通过迭代求解得到最优投影矩阵。这些方法已经在多个数据集上进行了测试，验证了方法的有效性。

related work

$d、d^{'}$ 分别表示原始空间和子空间的维度 n是样本数量 m是代表性点的数量

样本空间 ${x_1,x_2,\dots,x_n} \in R^{d \times n}$ 每列是一个样本投影矩阵 $\in R^{d \times d^{'}}(d^{'}W∈Rd×d′(d′<d)$

相似矩阵定义为 $\in R^{n \times n}$

kmeans

Locality Preserving Projections

局部保持投影

作为经典的流形学习方法，LPP在降维的许多应用场景中表现良好。然而，LPP使用给定的图进行计算，其性能受图的质量限制。所提出的方法改进了基于LPP的样本图的构造，取得了较好的效果。

所谓流形，是指高维样本空间中呈现的一种低维的局部性的结构。局部保留投影(LPP)方法是通过构建空间中各样本对之间的远近亲疏关系，并在投影中保持这种关系，在降维的同时保留空间中样本的局部邻域结构，即在低维空间中最小化近邻样本间的距离加权平方和，也可以理解为尽量避免样本集的发散，保持原来的近邻结构

通过解决以下问题，LPP可以学习投影矩阵W。投影矩阵能够将样本从原始空间映射到较低的d维子空间，并保留数据的局部邻域信息。

P是亲和图其中的元素定义为：

$\in R^{n \times n}$ 是对角矩阵度矩阵的第i个对角元素对应于相似矩阵第i行的和

问题2可以简化为：

L = D-P 是拉普拉斯矩阵

问题2可以转化为：

（5）的最优解满足如下等式:

推导：https://blog.csdn.net/qq_18343569/article/details/50144643

基于自适应领域的投影聚类

聂飞平的PCAN:https://blog.csdn.net/qq_45178685/article/details/127435986

快速无监督投影法

样本矩阵： $X=\{x_1,x_2,\dots,x_n \} \in R^{d \times n}$

每个列向量代表一个样本

我们希望学习投影矩阵 $\in R^{d \times d^{'}}$ 将样本映射为d’(d’
建立相似矩阵P是为了帮助我们学习理想的投影矩阵W。

motivation

问题8中秩约束是为了解决聚类问题

本文中我们关注的是降维问题可以移除约束简化问题因此，通过处理该问题可以得到投影矩阵W

$S_t = XHX^T \in R^{d \times d}$ 是全局散度矩阵

约束 $W^TS_tW=I$ 可以确保子空间数据在统计上线性独立。

pij是i个样本和第j个样本之间的相似性

需要注意的是，流形学习方法经常消耗大量的计算资源，这使得流形学习法的应用受到具有大量样本的数据集的限制。

新的相似矩阵定义为 $\in R^{n \times m}$ 由n个样本点和m个代表性的点构成问题9可以优化成：

$\in R^{d \times m}$

pi j是矩阵P的元素，表示xi和m j之间的相似性。

采用迭代优化来求解。

优化算法

有三个迭代变量：W、P和M。

为了得到这些参数的最优解，当其中一个被求解时，剩下的两个变量需要固定。继续迭代优化，直到目标函数收敛。
1. 固定P M 求解W 问题10等价为：
为了便于求解，需要将问题（11）转化为矩阵形式。

D是度矩阵 $diag(\sum_{j=1}^m p_{ij}) = I \in R^{n \times n},D^{col} = diag(\sum_{i=1}^np_{ij}) \in R^{m \times m}$

有以下定理：

……
相关阅读:
灾备系统中虚拟机的有代理备份与无代理备份之间的差异
 测试老鸟整理，从手工测试到自动化测试的进阶全程...
华为交换机配置ssh登录远程管理交换机
 if消除术之 Map + Function
七、shell脚本语言文本处理三剑客awk
牛客 NC24858 [USACO 2009 Nov S]Job Hunt
java-nio读写文件
 Kubernetes在rancher中自定义应用商店
 返回二叉树中最大的二叉搜索子树的大小
 信息技术服务连续性策略报告
原文地址：https://blog.csdn.net/qq_45178685/article/details/127634613