• 机器学习-Kmeans


    一、什么是聚类算法?

    1、用于发现共同的群体(cluster),比如:邮件聚类、用户聚类、图片边缘。

    2、聚类唯一会使用到的信息是:样本与样本之间的相似度(跟距离负相关)

    给定N个训练样本(未标记的){x 1 , . . . , x N },同时给定结果聚类的个数K 目标:把比较“接近”的样本放到一个cluster里,总共得到K个cluster

     

    二、不同场景的判定内容

    图片检索:图片内容相似度

    图片分割:图片像素(颜色)相似度

    网页聚类:文本内容相似度

    社交网络聚类:(被)关注人群,喜好,喜好内容

    电商用户聚类:点击/加车/购买商品,行为序列…

    三、样本—向量—距离

     

     四、Kmeans聚类和层次聚类

    Kmeans聚类:

    得到的聚类是一个独立于另外一个的

     

     

     

     

    收敛:

    聚类中心不再有变化 每个样本到对应聚类中心的距离之和不再有很大变化

     

     

    层次聚类:

    可以看做树状层叠 无需初始输入聚类个数

     

    k-means聚类与层次聚类区别:

    kmeans每次聚类产生一个聚类结果,层次聚类可以通过聚类程度不同产生不同结果 kmeans需要指定聚类个数K,层次聚类不用 kmeans比层次聚类更快 kmeans用的多,且可以用k-median

     五、损失函数

     

     六、K的选定

    k值的影响:

    k过大过小对结果都不好

     

     

    “肘点”法:

    选取不同的K值,画出损失函数曲线,选取“肘点”值

     

     七、优缺点

    优点:

    1. 易于理解,聚类效果不错;

    2. 处理大数据集的时候,该算法可以保证较好的伸缩性和高效率;

    3. 当簇近似高斯分布的时候,效果非常不错 。

    缺点:

    1. k值是用户给定的,进行数据处理前,k值是未知的,不同的k值得到的结果不一样;

    2. 对初始簇中心点是敏感的;

    3. 对于团状的数据点集区分度好,对于带状(环绕)等“非凸”形状不太好。(用谱聚类或者做特征映射)

    4. 对异常点的“免疫力”很差,我们可以通过一些调整(比如中心不直接取均值,而是找均值最近的样本点代替)

    八、代码示例

    复制代码
    import random
    import matplotlib.pyplot as plt
    
    class Kmeans():
        def __init__(self,k):
            '''
            初始化
            param k:代表聚类中心个数
            '''
            self.__k=k
            self.__data = [] #存放原始数据
            self.__pointCenter = [] #存放聚类中心点
            self.__result = [] #存放最后的聚类结果
            for i in range(k):
                self.__result.append([])
                
        def calDistance(self,points1,points2):
            '''
            欧氏距离:sprt(x1-x2)^2+(y1-y2)^2
            param points1:一维列表
            param points2:一维列表
            return:两点之间直线距离
            '''
            distance = (sum([(x1-x2)**2 for x1,x2 in zip(points1, points2)]))**0.5 #开平方
            return distance
    
        def randomCenter(self):
            '''
            生成self.__pointCenter:初次聚类中心点列表
            return:
            '''
            while len(self.__pointCenter)__k:
                index = random.randint(0,len(self.__data)) #得到0到len(self.__data)-1之间的索引
                if self.__data[index] not in self.__pointCenter: #用索引值得到列表的值
                    self.__pointCenter.append(self.__data[index])
        
        def calPointToCenterDistance(self,data,center):
            '''
            计算每个店和聚类中心之间的距离
            param data:原始数据
            param center:中心聚类点
            return:距离
            '''
            distance = []
            for i in data:
                distance.append([self.calDistance(i,centerpoint) for centerpoint in center])
            return distance
        
        def sortPoint(self,distance):
            '''
            对原始数据进行分类,将每个点分到离它最近的聚类中心点
            param distance:得到的距离
            return:返回最终的分类结果
            '''
            for i in distance:
                index = i.index(min(i)) #得到五个距离之中的最小值的索引
                self.__result[index].append(self.__data[i]) #通过索引进行分类
            return self.__result
        
        def calNewCenterPoint(self,result):
            '''
            计算新的中心点:通过生成新的聚类求取新的平均值
            param result:分类结果
            return:返回新的聚类中心点
            '''
            newCenterPoint1 = []
            for temp in result:
                #进行转置,将N*M转为M*N形式,将所有point.x值和point,y值撞到一个列表中,便于求取新的平均值
                temps = [[temp[x][i] for x in range(len(temp))] for i in range(len(temp[0]))]
                point = []
                for i in temps:
                    point.append(sum(i)/len(i)) #求和再除以数组长度,求取平均值
                newCenterPoint1.append(point)
            return newCenterPoint1
        
        def calCenterToCenterDistance(self,old,new):
            '''
            迭代结束条件
            计算新旧中心点之间的距离
            param old:
            param new:
            return:
            '''
            total = 0
            for point1,point2 in zip(old,new):
                total += self.calDistance(point1,point2)
            return total/len(old)
        
        def fit(self,data,threshold,time=50000):
            self.__data = data
            self.randomCenter()
            print(self.__pointCenter)
            centerDistance = self.calPointToCenterDistance(self.__data,self.__pointCenter)
            
            #对原始数据进行分类,将每个点分到离它最近的中心点
            i = 0
            for temp in centerDistance:
                index = temp.index(min(temp))
                self.__result[index].append(self.__data[i])
                i +=1
            #打印分类结果
            print(self.__result)
            oldCenterPoint = self.__pointCenter
            newCenterPoint = self.calNewCenterPoint(self.__result)
            while self.calCenterToCenterDistance(oldCenterPoint,newCenterPoint) > threshold:
                time -= 1
                result = []
                for i in range(self.__k):
                    result.append([])
                #保存上次的中心点
                oldCenterPoint = newCenterPoint
                centerDistance = self.calPointToCenterDistance(self.__data,newCenterPoint)
                #对原始数据进行分类,将每个点分到离它最近的中心点
                i = 0
                for temp in centerDistance:
                    index = temp.index(min(temp))
                    result[index].append(self.__data[i])
                    i += 1
                newCenterPoint = self.calNewCenterPoint(result)
                print(self.calCenterToCenterDistance(oldCenterPoint,newCenterPoint))
                self.__result = result
            self.__pointCenter = newCenterPoint
            return newCenterPoint,self.__result
        
    if __name__ == "__main__":
        data = []
        k = 6 #分类数量
        for i in range(len(data)):
            kmeans = Kmeans(k=k)
            centerPoint,result = kmeans.fit(data,0.0001)
            print(centerPoint)
            plt.plot()
            plt.title('Kmeans')
            i = 0
            tempx = []
            tempy = []
            color = []
            for temp in result:
                temps = [[temp[x][i] for x in range(len(temp))] for i in range(len(temp[0]))]
                color += [i]*len(temps[0])
                tempx += temps[0]
                tempy += temps[1]
                i+=2
            plt.scatter(tempx,tempy,c=color,s=30)
            plt.show()
    复制代码

    九、层次聚类

     

     cluster R和cluster S之间距离怎么界定?

     

     

     

  • 相关阅读:
    【Spring入门学习】
    宝塔面板安装Python和Flask(新版Python项目)
    Redisson 集成SpringBoot 详解
    pandas DataFrame内存优化技巧:让数据处理更高效
    【专业术语】(计算机 / 深度学习与目标检测 / 轨道交通)
    PM2 vs Kubernetes:在部署 Node.js 服务时使用哪个?
    Redis中 HyperLogLog数据类型使用总结
    MVC架构模式实现银行转账
    高效的数据压缩编码方式 Protobuf
    postgresql源码学习(41)—— 崩溃恢复③ - 日志来源
  • 原文地址:https://www.cnblogs.com/songyifan427/p/16498805.html