聚类算法评价指标——基于DBI指数的k-means算法（python代码）

文章目录

1 DBI指数介绍
2 优点
3 定义值
4 这篇博文公式挺多挺费事的，觉得有用的话可以点击收藏关注~~点赞是我更新的无限动力！！
5 python代码实现

参考文章：
https://blog.csdn.net/a841454735/article/details/80237257
http://blog.sina.com.cn/s/blog_65c8baf901016flh.html

1 DBI指数介绍

Davies-Bouldin指数（DBI）（戴维森堡丁指数），又称为分类适确性指标，是由大卫L·Davies和唐纳德·Bouldin提出的一种评估聚类算法优劣的指标。

属于内部指标，内部指标是利用数据集的固有特征和量值来评价一个聚类算法的结果。

2 优点

基于DBI指数的k-means算法无需指定K的值，而是给出K的范围，由算法自动确定最适合的K值。

3 定义值

3.1 $S_i$ ：表示第i类中，数据点的分散程度

$S_i=\{\frac{1}{T_i}\sum_{j=1}^{T_i}|X_j-A_i|^q\}^{\frac{1}{q}}$

$X_j$ ：第i类中第j个数据点
$A_i$ ：第i类的中心数据点

当q=1：表示各点到中心距离的均值
当q=2：表示各点到中心距离的标准差
【用来衡量离散程度】

3.2 $M_{ij}$ ：表示第i类与第j类的距离

$M_{ij}=\sum_{k=1}^{N}|a_{ki}-a_{kj}|^p\}^{\frac{1}{p}}$

$a_{ki}$ ：表示第i类的中心点的第k个属性的值

当p=1：表示各点到中心距离的均值
当p=2：表示各点到中心距离的标准差
【用来衡量离散程度】

3.3 $R_{ij}$ ：表示第i类和第j类的相似度

$R_{ij}=\frac{S_i+S_j}{M_{ij}}$

3.4 $\overline{R}$ ：DBI指数，越小分类效果越好

先计算 $R_i$ ，i=1,2,3…N
即求类i与其他类的最大相似值。

$R_i=max(R_{i1},R_{i2}, ...R_{ij}, ...R_{iN}) ，i≠j$

再计算每个类的最大相似度的均值，得到 $\overline{R}$ ，即DBI指数。
$=\overline{R}=\frac{1}{N}\sum_{i=1}^{N}R_i$

分类个数的不同（N不同），会导致 $\overline{R}$ 不同， $\overline{R}$ 值越小，分类效果越好。

4 这篇博文公式挺多挺费事的，觉得有用的话可以点击收藏关注~~点赞是我更新的无限动力！！

5 python代码实现

代码来自参考博文里面的博主写的~

def vectorDistance(v1, v2):
    """
    this function calculates de euclidean distance between two
    vectors.
    """
    sum = 0
    for i in range(len(v1)):
        sum += (v1[i] - v2[i]) ** 2
    return sum ** 0.5


def compute_Si(i, x, clusters, nc):
    norm_c = nc
    s = 0
    for t in x[i]:
        s += vectorDistance(t, clusters)
    return s / norm_c


def compute_Rij(i, j, x, clusters, nc):
    Mij = vectorDistance(clusters[i], clusters[j])
    Rij = (compute_Si(i, x, clusters[i], nc) + compute_Si(j, x, clusters[j], nc)) / Mij
    return Rij


def compute_Di(i, x, clusters, nc):
    list_r = []
    for j in range(nc):
        if i != j:
            temp = compute_Rij(i, j, x, clusters, nc)
            list_r.append(temp)
    return max(list_r)


def compute_DB_index(x, clusters, nc):
    sigma_R = 0.0
    for i in range(nc):
        sigma_R = sigma_R + compute_Di(i, x, clusters, nc)
    DB_index = float(sigma_R) / float(nc)
    return DB_index
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40

相关阅读:
达梦数据库如何查看历史sql
把Mybatis Generator生成的代码加上想要的注释
MySQL主从复制
Explain执行计划字段解释说明---type字段说明（01）
网规配置案例分析——国庆
Speeded-Up Robust Features (SURF)全文翻译
leetcode：66. 加一
4-11 Isomorphic
Linux虚拟化指南：构建虚拟化环境
[NOIP2002 普及组] 产生数

原文地址：https://blog.csdn.net/weixin_42521185/article/details/125866386