码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 数据降维——主成分分析


    1、作用

    主成分分析将多个有一定相关性的指标进行线性组合,以最少的维度解释原数据中尽可能多的信息为目标进行降维,降维后的各变量间彼此线性无关,最终确定的新变量是原始变量的线性组合,且越往后主成分在方差中的比重也小,综合原信息的能力越弱,与因子分析不同的是,因子分析是利用少数几个公共因子去解释较多个要观测变量中存在的关系,它不是对原始变量的重新组合。

    2、输入输出描述

    输入:2 个或两个以上的定量变量(假设为 N 个变量)
    输出:最低可降维成 1 维(一个变量,一般用于综合评价),最多可降维成 N 个变量(一般用于数据脱敏),同时可以获取降维后各个变量的组成权重,用于代表原先变量的数据保留情况。

    ​3、案例示例

    现在某银行有一张100个变量的用户属性数据表,需要在保证数据的原有信息的损失率最小情况,进行脱敏与降维。

    4、建模步骤

    主成分分析法是运用“降维”思想,把多个指标 变换成少数综合指标的多元统计方法,这里的综合 指标就是主成分。每个主成分都是原始变量的线性组合,彼此相互独立,并保留了原始变量绝大部分信息。其本质是通过原始变量的相关性,寻求相关变 量的综合替代对象,并且保证了转化过程中的信息损失最小 。
    根据标准化后的数据集计算协方差矩阵R:



    计算矩阵 R 的特征值 λ1 ≥λ2 ≥…≥λn ≥ 0及 对应的特征向量 u1 ,u2 ,…,un ,其中 uj= (u1 j,u2 j, …,unj) ,u nj 表示第 j 个特征向量的第 n 个分量; 由特征向量组成 n 个新的指标变量:


    式中,y 1 是第 1 主成分,y 2 是第 2 主成分,…,y n 是第 n 主成分。 计算各主成分y j 贡献率 b j(j=1,2,...,n) 及 y 1,y 2 ,…,y n (p ≤ n)的累计贡献率 \alpha _{p} 。

  • 相关阅读:
    Windows 下安装NPM
    Qt 大型工程项目的搭建过程,模块分类详解
    Java之基本类、包装类、自动装箱、自动拆箱、集合和数组对比、三种for循环、遍历删除存在的安全问题
    2024上海CDIE 参展预告 | 一站式云原生数字化平台已成趋势
    基于node的tcp客户端和服务端的简单通信
    开源软件安全与应对策略探讨 - Java 机密计算技术应用实践
    2.vue
    硕士毕设方向求建议!
    java经典面试题并发篇(持续更新)
    参加了个算法比赛,真是一言难尽啊
  • 原文地址:https://blog.csdn.net/weixin_60466670/article/details/125566465
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号