Python实现聚类分析和数据降维


import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
# 生成数据样本
X,y = make_blobs(n_samples=1000,n_features=2,
           centers=[[-1,-1],[0,0],[1,1],[2,2]],
          cluster_std=[0.4,0.2,0.2,0.2],random_state=666)
 
plt.scatter(X[:,0],X[:,1])
plt.show()

先用KMeans聚成两类观察


from sklearn.cluster import KMeans
 
# 创建KMeans算法对象，设置聚成两类
km = KMeans(n_clusters=2,random_state=666) 
km.fit(X) # 无监督学习，拟合的时候不需要样本标签
y_predict = km.predict(X)  # 预测
plt.scatter(X[:,0],X[:,1],c=y_predict)  # 预测为同一簇的样本同颜色
plt.show()


# 使用CH指标评价聚类效果（本题是在训练样本集上评价）
from sklearn.metrics import calinski_harabasz_score
calinski_harabasz_score(X,y_predict)

KMeans聚成四类观察


from sklearn.cluster import KMeans
 
# 创建KMeans算法对象，设置聚成四类
km2 = KMeans(n_clusters=4,random_state=666) 
km2.fit(X) # 无监督学习，拟合的时候不需要样本标签
y_predict2 = km2.predict(X)  # 预测
plt.scatter(X[:,0],X[:,1],c=y_predict2)  # 预测为同一簇的样本同颜色
plt.show()


# 使用CH指标评价聚类效果（本题是在训练样本集上评价）
from sklearn.metrics import calinski_harabasz_score
calinski_harabasz_score(X,y_predict2)

显然聚成四类要比聚成两类效果好

PCA降维原理

PCA（Principal Component Analysis），主成分分析是线性的数据降维技术，采用一种数学降维的方法，在损失很少信息的前提下，找出几个综合变量作为主成分，来代替原来众多的变量，使这些主成分能够尽可能地代表原始数据的信息，其中每个主成分都是原始变量的线性组合，而且各个主成分之间不相关（即线性无关）。

sklearn中使用PCA

在sklearn中使用PCA降维要使用sklearn.decomposition.PCA
PCA对象的explained_variance_表示PCA的解释方差得分
拟合使用fit方法，降维使用transform方法

实战_PCA对红酒数据降维并可视化


from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn import datasets
wine_x,wine_y = datasets.load_wine(return_X_y=True)   # 加载红酒数据
wine_x = StandardScaler().fit_transform(wine_x)  # 对酒的特征进行标准化
 
import matplotlib.pyplot as plt
# 使用PCA对酒数据集进行降维
pca = PCA(n_components=13,random_state=123)
pca.fit(wine_x)
# 可视化PCA的解释方差得分
exvar = pca.explained_variance_  # 获取PCA的解释方差得分
plt.figure(figsize=(10,6))
plt.plot(exvar,"r-o")
plt.hlines(y=1,xmin=0,xmax=12)   # 横线绘制
plt.xlabel("the number of attribute")
plt.ylabel("explained variance")
plt.title("PCA")
plt.show()

可以发现，使用数据的前三个主成分较合适


pca_wine_x = pca.transform(wine_x)[:,:3]   # 降维操作
pca_wine_x.shape
colors = ["red","blue","green"]
shapes = ["o","s","*"]
fig = plt.figure(figsize=(10,6))
# 将坐标系设置为3D坐标系
ax1 = fig.add_subplot(111,projection="3d")
for ii,y in enumerate(wine_y):
    ax1.scatter(pca_wine_x[ii,0],pca_wine_x[ii,1],pca_wine_x[ii,2],
                s=40,c=colors[y],marker=shapes[y])
ax1.set_xlabel("Principal Component 1",rotation=20)
ax1.set_ylabel("Principal Component 2",rotation=-20)
ax1.set_zlabel("Principal Component 3",rotation=90)
ax1.azim = 225
ax1.set_title("PCA ")
plt.show()

实战_KPCA核主成分分析

KPCA降维原理

核主成分分析（Kernel Principal Component Analysis）对于输入空间中的矩阵X，先用一个非线性映射把X中的所有样本映射到一个高维甚至是无穷维的空间（特征空间），使其线性可分，然后在这个高维空间进行PCA降维。

sklearn中使用KPCA

在sklearn中使用PCA降维要使用 sklearn.decomposition.KernelPCA
KernelPCA对象的lambdas_表示KPCA的中心核矩阵特征值
拟合使用fit方法，降维使用transform方法


from sklearn.decomposition import KernelPCA
from sklearn.preprocessing import StandardScaler
from sklearn import datasets
 
# 解决中文乱码和负号显示的设置
import matplotlib as mpl
mpl.rcParams['font.sans-serif'] = ['SimHei']  
mpl.rcParams['font.serif'] = ['SimHei']
mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题,或者转换负号为字符串
wine_x,wine_y = datasets.load_wine(return_X_y=True)   # 加载红酒数据
wine_x = StandardScaler().fit_transform(wine_x)  # 对酒的特征进行标准化
 
import matplotlib.pyplot as plt
# 使用KPCA获取数据的主成分
 
# 核函数使用rbf核
kpca = KernelPCA(n_components=13,kernel="rbf",gamma=0.2,random_state=123)
kpca.fit(wine_x)
 
# 可视化KPCA的中心矩阵特征值
lambdas = kpca.lambdas_
plt.figure(figsize=(10,6))
plt.plot(lambdas,"r-o")
plt.hlines(y=4,xmin=0,xmax=12)
plt.xlabel("特征数量")
plt.ylabel("中心核矩阵的特征值大小")
plt.title("核主成分分析")
plt.show()


# 获取前3个核主成分
kpca_wine_x = kpca.transform(wine_x)[:,:3]  # 降维操作
kpca_wine_x.shape
 
# 在3D空间中可视化KPCA分析后的数据空间分布
colors = ["red","blue","green"]
shapes = ["o","s","*"]
fig = plt.figure(figsize=(10,6))
# 将坐标系设置为3D坐标系
ax1 = fig.add_subplot(111,projection="3d")
for ii,y in enumerate(wine_y):
    ax1.scatter(kpca_wine_x[ii,0],kpca_wine_x[ii,1],kpca_wine_x[ii,2],
                s=40,c=colors[y],marker=shapes[y])
ax1.set_xlabel("核主成分1",rotation=20)
ax1.set_ylabel("核主成分2",rotation=-20)
ax1.set_zlabel("核主成分3",rotation=90)
ax1.azim = 225
ax1.set_title("KPCA特征空间可视化")
plt.show()

实战_t-SNE数据降维

t-SNE降维原理

TSNE是另一种常用的数据降维方法。由T和SNE组成，也就是T 分布和随机近邻嵌入（Stochastic neighbour Embedding）。其主要优势在于高维数据空间中距离相近的点投影到低维空间中仍然相近。 t-SNE(TSNE)将数据点之间的相似度转换为概率。原始空间中的相似度由高斯联合概率表示，嵌入空间的相似度由“学生t分布”表示。

简单解释t-SNE的降维原理：想要将二维数据点映射到一维，并且还要保存原来二维空间中的聚类情况。

sklearn中使用t-SNE


from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
from sklearn.preprocessing import StandardScaler
from sklearn import datasets
 
# 解决中文乱码和负号显示的设置
import matplotlib as mpl
mpl.rcParams['font.sans-serif'] = ['SimHei']  
mpl.rcParams['font.serif'] = ['SimHei']
mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题,或者转换负号为字符串
wine_x,wine_y = datasets.load_wine(return_X_y=True)   # 加载红酒数据
wine_x = StandardScaler().fit_transform(wine_x)  # 对酒的特征进行标准化
 
# 创建TSNE对象，设置低维空间的维度（保留的特征数）
tsne = TSNE(n_components=3,perplexity=25,early_exaggeration=3,
            random_state=123)
tsne_wine_x = tsne.fit_transform(wine_x)   #  拟合并转换（降维）
 
import matplotlib.pyplot as plt
 
colors = ["red","blue","green"]
shapes = ["o","s","*"]
fig = plt.figure(figsize=(10,6))
# 将坐标系设置为3D坐标系
ax1 = fig.add_subplot(111,projection="3d")
for ii,y in enumerate(wine_y):
    ax1.scatter(tsne_wine_x[ii,0],tsne_wine_x[ii,1],tsne_wine_x[ii,2],
                s=40,c=colors[y],marker=shapes[y])
 
ax1.set_xlabel("特征1",rotation=20)
ax1.set_ylabel("特征2",rotation=-20)
ax1.set_zlabel("特征3",rotation=90)
ax1.azim = 225
ax1.set_title("TSNE降维并可视化")
plt.show()

相关阅读:
短剧出海火爆，Flat Ads独家流量助泛娱乐赛道App迅速获客增长
 修改jquery-validation让你的验证提示更漂亮
 SSH安全外壳协议
 pyinstaller打包技巧
 【包管理软件】彻底了解 npm、cnpm、yarn、pnpm 几种包管理器
 C#使用WebSocket与网页实时通信
 node（coderwhy）
C++PrimerPlus 第六章分支语句和逻辑运算符 - 6.8 简单文件输入/输出
 前端编程应该了解的数据结构——树
 大厂裁员潮下，测试人员路在何方？
原文地址：https://blog.csdn.net/m0_64336780/article/details/127095285