• Fast Unsupervised Projection for Large-Scale Data


    Fast Unsupervised Projection for Large-Scale Data

    abstract

    传统的降维方法通常无法处理非线性数据,并且具有较高的计算复杂度。为了解决这些问题,提出了一种快速无监督投影(FUP)方法。FUP的简化图由样本和代表点构成,其中通过迭代优化选择的代表点的数量小于样本的数量。通过生成所呈现的图,证明了大规模数据可以在许多场景中更快地投影。然后,提出了正交FUP(OFUP)方法来保证投影矩阵的正交性。具体而言,OFUP方法在一定参数设置下被证明与PCA等效。

    introduction

    降维(DR)用来解决数据从高维特征空间映射到低维子空间的问题。

    为了能解决非线性数据的降维问题,提出了两种主要策略:基于核的方法、基于流行学习的方法

    基于流形学习的方法能够保持样本的邻域结构。

    流形算法的主要思想是能够学习高维空间中样本的局部邻域结构,并寻找一种子空间能够保留这种流行结构,

    使得样本在投影到低维空间后,得到比较好的局部近邻关系。(原始空间中的两个点距离比较近,投影后仍然比较近)

    局部保持投影(LPP)

    LLE和PCAN都可以降低维数并保持样本的局部邻域结构。本文提出了快速无监督投影(FUP)和正交FUP(OFUP)方法,以保持流形学习的优势并简化计算。该方法基于LPP,选择数量小于样本数量的代表点,然后用样本和代表点构造亲和矩阵,通过迭代求解得到最优投影矩阵。这些方法已经在多个数据集上进行了测试,验证了方法的有效性。

    related work

    d 、 d ′ d、d^{'} dd分别表示原始空间和子空间的维度 n是样本数量 m是代表性点的数量

    样本空间 X = x 1 , x 2 , … , x n ∈ R d × n X = {x_1,x_2,\dots,x_n} \in R^{d \times n} X=x1,x2,,xnRd×n 每列是一个样本 投影矩阵 W ∈ R d × d ′ ( d ′ < d ) W \in R^{d \times d^{'}}(d^{'}WRd×d(d<d)

    相似矩阵定义为 P ∈ R n × n P \in R^{n \times n} PRn×n

    kmeans

    Locality Preserving Projections

    局部保持投影

    作为经典的流形学习方法,LPP在降维的许多应用场景中表现良好。然而,LPP使用给定的图进行计算,其性能受图的质量限制。所提出的方法改进了基于LPP的样本图的构造,取得了较好的效果。

    所谓流形,是指高维样本空间中呈现的一种低维的局部性的结构。局部保留投影(LPP)方法是通过构建空间中各样本对之间的远近亲疏关系,并在投影中保持这种关系,在降维的同时保留空间中样本的局部邻域结构, 即在低维空间中最小化近邻样本间的距离加权平方和,也可以理解为尽量避免样本集的发散,保持原来的近邻结构

    通过解决以下问题,LPP可以学习投影矩阵W。投影矩阵能够将样本从原始空间映射到较低的d维子空间,并保留数据的局部邻域信息。

    在这里插入图片描述

    P是亲和图 其中的元素定义为:

    在这里插入图片描述

    D ∈ R n × n D \in R^{n \times n} DRn×n是对角矩阵 度矩阵的第i个对角元素对应于相似矩阵第i行的和

    问题2可以简化为:

    在这里插入图片描述

    L = D-P 是拉普拉斯矩阵

    问题2可以转化为:

    在这里插入图片描述

    (5)的最优解满足如下等式:

    在这里插入图片描述

    推导:https://blog.csdn.net/qq_18343569/article/details/50144643

    基于自适应领域的投影聚类

    聂飞平的PCAN:https://blog.csdn.net/qq_45178685/article/details/127435986

    在这里插入图片描述

    快速无监督投影法

    样本矩阵: X = { x 1 , x 2 , … , x n } ∈ R d × n X=\{x_1,x_2,\dots,x_n \} \in R^{d \times n} X={x1,x2,,xn}Rd×n

    每个列向量代表一个样本

    我们希望学习投影矩阵 W ∈ R d × d ′ W \in R^{d \times d^{'}} WRd×d将样本映射为d’(d’

    建立相似矩阵P是为了帮助我们学习理想的投影矩阵W。

    motivation

    问题8中 秩约束是为了解决聚类问题

    本文中 我们关注的是降维问题 可以移除约束简化问题 因此,通过处理该问题可以得到投影矩阵W

    在这里插入图片描述

    S t = X H X T ∈ R d × d S_t = XHX^T \in R^{d \times d} St=XHXTRd×d 是全局散度矩阵

    约束 W T S t W = I W^TS_tW=I WTStW=I可以确保子空间数据在统计上线性独立。

    pij是i个样本和第j个样本之间的相似性

    需要注意的是,流形学习方法经常消耗大量的计算资源,这使得流形学习法的应用受到具有大量样本的数据集的限制。

    新的相似矩阵定义为 P ∈ R n × m P \in R^{n \times m} PRn×m 由n个样本点和m个代表性的点构成 问题9可以优化成:

    在这里插入图片描述

    M ∈ R d × m M \in R^{d \times m} MRd×m

    pi j是矩阵P的元素,表示xi和m j之间的相似性。

    采用迭代优化来求解。

    优化算法

    有三个迭代变量:W、P和M。

    为了得到这些参数的最优解,当其中一个被求解时,剩下的两个变量需要固定。继续迭代优化,直到目标函数收敛。

    1. 固定P M 求解W 问题10等价为:

    在这里插入图片描述

    为了便于求解,需要将问题(11)转化为矩阵形式。

    D是度矩阵 D = d i a g ( ∑ j = 1 m p i j ) = I ∈ R n × n , D c o l = d i a g ( ∑ i = 1 n p i j ) ∈ R m × m D = diag(\sum_{j=1}^m p_{ij}) = I \in R^{n \times n},D^{col} = diag(\sum_{i=1}^np_{ij}) \in R^{m \times m} D=diag(j=1mpij)=IRn×n,Dcol=diag(i=1npij)Rm×m

    有以下定理:

    在这里插入图片描述

    ……

  • 相关阅读:
    灾备系统中虚拟机的有代理备份与无代理备份之间的差异
    测试老鸟整理,从手工测试到自动化测试的进阶全程...
    华为交换机配置ssh登录远程管理交换机
    if消除术之 Map + Function
    七、shell脚本语言文本处理三剑客awk
    牛客 NC24858 [USACO 2009 Nov S]Job Hunt
    java-nio读写文件
    Kubernetes在rancher中自定义应用商店
    返回二叉树中最大的二叉搜索子树的大小
    信息技术服务连续性策略报告
  • 原文地址:https://blog.csdn.net/qq_45178685/article/details/127634613