1.欧式距离
D
=
∑
k
=
1
n
(
x
k
−
y
k
)
D = \sqrt{\sum_{k=1}^n(x_{k} - y_{k})}
D=k=1∑n(xk−yk)
2.曼哈顿距离
D
=
∑
k
=
1
n
∣
x
k
−
y
k
∣
D = \sum_{k=1}^n|x_{k}-y_{k}|
D=k=1∑n∣xk−yk∣
3.切比雪夫距离
D
=
m
a
x
k
(
∣
x
k
−
y
k
∣
)
D = max_{k}(|x_{k}-y_{k}|)
D=maxk(∣xk−yk∣)
4.闵可夫斯基距离
D
=
∑
k
=
1
n
∣
x
k
−
y
k
∣
p
p
D = \sqrt[p]{\sum_{k=1}^n|x_{k}-y_{k}|^p}
D=pk=1∑n∣xk−yk∣p
闵氏距离不是一种距离,而是一组距离的定义,是对多个距离度量公式的概括性的表述。
其中p是一个变参数
当p=1时,就是曼哈顿距离
当p=2时,就是欧氏距离
当p→∞时,就是切比雪夫距离
5.余弦相似度
余弦相似度
=
s
i
m
i
l
a
r
i
t
y
=
C
o
s
(
θ
)
=
A
⋅
B
∣
∣
A
∣
∣
∣
B
∣
∣
=
∑
i
=
1
n
A
i
×
B
i
∑
i
=
1
n
(
A
i
)
2
∑
i
=
1
n
(
B
i
)
2
余弦相似度 = similarity = Cos(\theta) = \frac{A\cdot B}{||A|||B||} =\frac{\sum_{i=1}^nA_i×B_i}{\sqrt{\sum_{i=1}^n(A_i)^2}\sqrt{\sum_{i=1}^n(B_i)^2}}
余弦相似度=similarity=Cos(θ)=∣∣A∣∣∣B∣∣A⋅B=∑i=1n(Ai)2∑i=1n(Bi)2∑i=1nAi×Bi
余弦距离 = 1 − s i m i l a r i t y 余弦距离 =1-similarity 余弦距离=1−similarity
6.皮尔逊相似度
皮尔逊相关系数就是把两组数据标准化处理之后的向量夹角的余弦
r
x
y
=
∑
i
=
1
n
(
x
i
−
x
‾
)
(
y
i
−
y
‾
)
∑
i
=
1
n
(
x
i
−
x
‾
)
2
∑
i
=
1
n
(
y
i
−
y
‾
)
2
r_{xy} = \frac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2}\sqrt{\sum_{i=1}^n(y_i-\overline{y})^2}}
rxy=∑i=1n(xi−x)2∑i=1n(yi−y)2∑i=1n(xi−x)(yi−y)
7.Jaccard相似度
J
s
i
m
i
l
a
r
i
t
y
=
1
−
J
(
A
,
B
)
=
1
−
∣
A
∩
B
∣
∣
A
∣
+
∣
B
∣
−
∣
A
∩
B
∣
J_similarity = 1-J(A,B) = 1-\frac{|A \cap B|}{|A|+|B|-|A\cap B|}
Jsimilarity=1−J(A,B)=1−∣A∣+∣B∣−∣A∩B∣∣A∩B∣
8.汉明距离
汉明距离是一个概念,它表示两个(相同长度)字对应位不同的数量
比如:1011101 与 1001001 之间的汉明距离是 2
9.马氏距离
D
(
X
i
,
X
j
)
=
(
X
i
−
X
j
)
T
S
−
1
(
X
i
−
X
j
)
D(X_i,X_j) = \sqrt{(X_i-X_j)^TS^{-1}(X_i-X_j)}
D(Xi,Xj)=(Xi−Xj)TS−1(Xi−Xj)
其中
S
−
1
S^{-1}
S−1是多维随机变量的协方差矩阵
10.修正的余弦相似度
11.加权的汉明距离
12.相关距离