• 【西瓜书】9.聚类


    • 聚类任务是无监督学习的一种
    • 用于分类等其他任务的前驱过程,作为数据清洗,基于聚类结果训练分类模型
    1.聚类性能度量(有效性指标)
    • 分类任务的性能度量有错误率、精度、准确率P、召回率R、F1度量(P-R的调和平均)、TPR、FPR、AUC
    • 回归任务的性能度量有均方误差MSE、根均方误差RMSE、平均绝对误差MAE、R-Squared
    • 聚类任务的性能度量分为三个外部指标+两个内部指标

    外部指标:和一个参考模型比

            若对m个样本聚类,分成了k个簇,两两样本比较,可组为m(m-1)/2组,每组要么位于相同簇(1)要么位于不同簇(0),对参考模型做同样操作,我们希望两个模型对于m(m-1)/2组样本组合划分的结果都为1或都为0的尽可能多,则分为如下三个外部指标(都是越大越好):

    • Jaccard系数:JC=a/(a+b+c)(在两个模型中都为同一个簇的尽可能多)
    • FM指数:FMI=sqrt(a/(a+b)+a/(a+c))
    • Rand指数:RI=(a+d)/(a+b+c+d)(在两个模型中都为同一个簇或都不为同一个簇的尽可能多)

    内部指标:内部簇间距离大,簇内距离小

    • DB指数:越小越好
    • Dumn指数:越大越好
    2.距离计算

    2.1.连续属性:具有非负性、直递性、对称性、同一性

    计算闵可夫斯基距离:

    • 曼哈顿距离:绝对值相加
    • 欧氏距离:绝对值平方相加开根号

    2.2.离散属性: VDM法(没太理解不确定)

    3.原型聚类
    3.1.k-means


    3.2.DBSCAN密度聚类

            由核心对象出发,找到与该核心对象密度可达的所有样本形成一个聚类簇。

    (1)概念:邻域参数 eps (每个点的方圆eps内有几个样本)和 Minpts(eps的一个分界点)

    (2)样本点之间的三种关系:

    密度可达和密度相连区别在于方向不同:

    • x1—>x2—>x3的x1到x3是密度可达
    • x1<—x2—>x3的x1和x3是密度相连

    其中密度可达是不一定对称的,密度相连是对称的,如下题目:

    x1到x2直接密度可达;x1到x3密度可达;x3与x4密度相连(通过x1)


    3.3.AGNES层次聚类 

     自底向上聚合的层次聚类算法,它先会将数据集中的每个样本看作一个初始簇,然后在算法运行的每一步中找出距离最近的两个簇进行合并,直至达到预设的簇的数量。

  • 相关阅读:
    DNS WEB HTTP
    人大金仓分析型数据库最大量限制
    云原生定义整理
    美团三面:让你怀疑人生的Spring Boot夺命连环40问
    Unity坐标转换
    解析gin框架部分收获
    Documents不是一个有效的短文件名
    【30天精通Prometheus:一站式监控实战指南】第18天:apache_exporter从入门到实战:安装、配置详解与生产环境搭建指南,超详细
    【Vue五分钟】 Vue Cli脚手架安装配置
    ES (ElasticSearch) 简易解读(一)为什么用它
  • 原文地址:https://blog.csdn.net/weixin_64881847/article/details/139564114