码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 猿创征文|机器学习实战(9)——降维


    目录

    1 主成分

    2 低维度投影

    3 方差解释率

    4 选择正确数量的维度

    5 PCA压缩

    6 增量PCA

    7 核主成分分析

    8 选择核函数和调整超参数

    9 局部线性嵌入

    10 其他降维技巧


    数据降维会丢失一些信息(好比压缩图像带来的效果一样),所以,它虽然能够加速训练,但是也会轻微降低系统性能。

    我们简要说一下降维的两种主要方法:投影和流形学习。投影:高维空间的所有训练实例实际上受一个低得多的低维子空间所影响,将训练实例投影到该子空间就是投影。但许多情况下,子空间可能是弯曲的或转动的,就引入了流形学习。流形假设(流形假说)认为大多数现实世界的高维度数据集存在一个低维度的流形来重新表示。我们可以把瑞士卷看做一个二维流形的例子。更概括的说,d维流形就是n维空间的一部分(d

    主成分分析(PCA)是迄今最流行的降维算法。它能识别出最接近数据的超平面,然后将数据投影该平面。同时该超平面也保留了数据最大差异性。

    常规模块的导入以及图像可视化的设置:

    1. # Common imports
    2. import numpy as np
    3. import os
    4. # to make this notebook's output stable across runs
    5. np.random.seed(42)
    6. # To plot pretty figures
    7. %matplotlib inline
    8. import matplotlib as mpl
    9. import matplotlib.pyplot as plt
    10. mpl.rc('axes', labelsize=14)
    11. mpl.rc('xtick', labelsize=12)
    12. mpl.rc('ytick', labelsize=12)

    1 主成分

    主成分分析(PCA)可以在训练集中识别出哪条轴(一维超平面)对差异性的贡献度最高。即下图中由实线表示的轴。同时它也找出了第二条轴,它对剩余差异性的贡献度最高,与第一条轴垂直。

    选择投影的子空间

    定义第i条轴的单位向量就叫作第i个主成分。上图中,第一个主成分是c1,第二个主成分是c2。前两个主成分是平面里正交的箭头所示,第三个主成分则垂直于平面。

    那么我们该怎么找到训练集的主成分呢?我们有一种标准矩阵分解技术,叫作奇异值分解(SVD)。它可以将训练集矩阵X分解成三个矩阵的点积  U\cdot \Sigma \cdot V^{T} ,其中 V^{T} 正包含我们想要的所有主成分,公式如下:

    主成分矩阵

    下面的代码使用NumPy的svd()函数来获取训练集中所有主成分,并提取前两个:

    1. #3D数据集
    2. np.random.seed(4)
    3. m = 60
    4. w1, w2 = 0.1, 0.3
    5. noise = 0.1
    6. angles = np.random.rand(m) * 3 * np.pi / 2 - 0.5
    7. X = np.empty((m, 3))
    8. X[:, 0] = np.cos(angles) + np.sin(angles)/2 + noise * np.random.randn(m) / 2
    9. X[:, 1] = np.sin(angles) * 0.7 + noise * np.random.randn(m) / 2
    10. X[:, 2] = X[:, 0] * w1 + X[:, 1] * w2 + noise * np.random.randn(m)
    11. #获取主成分
    12. X_centered = X - X.mean(axis=0)
    13. U, s, Vt = np.linalg.svd(X_centered)
    14. c1 = Vt.T
  • 相关阅读:
    【Java SE】抽象类和接口
    【雷达通信】合成孔径雷达地面运动目标检测技术研究(Matlab代码实现)
    笔试强训48天——day18
    0基础学习VR全景平台篇第116篇:认识修图软件Photoshop
    Android--混淆配置
    LeetCode 2739. 总行驶距离
    【Unity实战】实现强大通用易扩展的对话系统(附项目源码)
    Unity3D学习之Lua热更新解决方案(一)AB包和LUA语法
    企业电子招投标系统源码之电子招投标系统建设的重点和未来趋势
    计算机网络--应用层(https)
  • 原文地址:https://blog.csdn.net/WHJ226/article/details/126651882
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号