• 【课程作业】西瓜书 机器学习课后习题 : 第七章


    在这里插入图片描述

    简介

    Hello!
    非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~
     
    ଘ(੭ˊᵕˋ)੭
    昵称:海轰
    标签:程序猿|C++选手|学生
    简介:因C语言结识编程,随后转入计算机专业,获得过国家奖学金,有幸在竞赛中拿过一些国奖、省奖…已保研
    学习经验:扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语!
     
    唯有努力💪
     
    本文仅记录自己感兴趣的内容

    说明

    作业要求:每章从课后习题中选取3道题做就可以了

    答案来源:题目的解答过程来自于网络,依据个人所学进行了一些修改、总结

    仅供参考

    7.1

    试使用极大似然法估算西瓜数据集3.0中前3个属性的类条件概率。

    在这里插入图片描述

    7.3

    试编程实现拉普拉斯修正的朴素贝叶斯分类器,并以西瓜数据集3,0为训练集,对p151“测1“ 样本进行判别。

    答:

    import numpy as np
    import pandas as pd
    from sklearn.utils.multiclass import type_of_target
    from collections import namedtuple
    
    def train_nb(X, y):
        m, n = X.shape
        p1 = (len(y[y == '是']) + 1) / (m + 2)
        p1_list = []
        p0_list = []
        X1 = X[y == '是']
        X0 = X[y == '否']
        m1, _ = X1.shape
        m0, _ = X0.shape
        for i in range(n):
            xi = X.iloc[:, i]
            p_xi = namedtuple(X.columns[i], ['is_continuous', 'conditional_pro'])
            is_continuous = type_of_target(xi) == 'continuous'
            xi1 = X1.iloc[:, i]
            xi0 = X0.iloc[:, i]
            if is_continuous:
                xi1_mean = np.mean(xi1)
                xi1_var = np.var(xi1)
                xi0_mean = np.mean(xi0)
                xi0_var = np.var(xi0)
    
                p1_list.append(p_xi(is_continuous, [xi1_mean, xi1_var]))
                p0_list.append(p_xi(is_continuous, [xi0_mean, xi0_var]))
            else:  
                unique_value = xi.unique()  # 取值情况
                nvalue = len(unique_value)  # 取值个数
                xi1_value_count = pd.value_counts(xi1)[unique_value].fillna(0) + 1 
                xi0_value_count = pd.value_counts(xi0)[unique_value].fillna(0) + 1
                p1_list.append(p_xi(is_continuous, np.log(xi1_value_count / (m1 + nvalue))))
                p0_list.append(p_xi(is_continuous, np.log(xi0_value_count / (m0 + nvalue))))
        return p1, p1_list, p0_list
    
    
    def predict_nb(x, p1, p1_list, p0_list):
        n = len(x)
        x_p1 = np.log(p1)
        x_p0 = np.log(1 - p1)
        for i in range(n):
            p1_xi = p1_list[i]
            p0_xi = p0_list[i]
            if p1_xi.is_continuous:
                mean1, var1 = p1_xi.conditional_pro
                mean0, var0 = p0_xi.conditional_pro
                x_p1 += np.log(1 / (np.sqrt(2 * np.pi) * var1) * np.exp(- (x[i] - mean1) ** 2 / (2 * var1 ** 2)))
                x_p0 += np.log(1 / (np.sqrt(2 * np.pi) * var0) * np.exp(- (x[i] - mean0) ** 2 / (2 * var0 ** 2)))
            else:
                x_p1 += p1_xi.conditional_pro[x[i]]
                x_p0 += p0_xi.conditional_pro[x[i]]
        if x_p1 > x_p0:
            return '是好瓜'
        else:
            return '不是好瓜'
    
    if __name__ == '__main__':
        data_path = r'xigua3.csv'
        data = pd.read_csv(data_path, index_col=0)
        X = data.iloc[:, :-1]
        y = data.iloc[:, -1]
        p1, p1_list, p0_list = train_nb(X, y)
        x_test = X.iloc[0, :]
    print(predict_nb(x_test, p1, p1_list, p0_list))
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49
    • 50
    • 51
    • 52
    • 53
    • 54
    • 55
    • 56
    • 57
    • 58
    • 59
    • 60
    • 61
    • 62
    • 63
    • 64
    • 65
    • 66

    实验结果如下图:
    在这里插入图片描述

    7.4

    实践中使用式(7.15)决定分类类别时,若数据的维数非常高,则概率连乘的结果通常会非常接近于0从而导致下溢。试述防止下溢的可能方案

    答:通过对式子取对数将连乘转化为“连加“防止下溢。对式(7.15)取对数后,得到下式:

    在这里插入图片描述

    结语

    文章仅作为个人学习笔记记录,记录从0到1的一个过程

    希望对您有一点点帮助,如有错误欢迎小伙伴指正

    在这里插入图片描述

  • 相关阅读:
    【MySQL】Java的JDBC编程
    C语言基础(笔记)+程序设计基础I-选择结构题目详解
    yolov5分割+检测c++ qt 中部署,以opencv方式(详细代码(全)+复制可用)
    真正牛的项目经理,都做到了这几点
    神经系统的分类和功能图,神经系统的分类和组成
    【C++系列】STL容器——vector类的例题应用(12)
    CDO如何盘点算法、推动算法业务增长
    基于YOLOV4的港口作业人员检测系统研究
    java计算机毕业设计高校人事管理系统源码+数据库+系统+lw文档+部署
    智能机器人:打造自动化未来的关键技术
  • 原文地址:https://blog.csdn.net/weixin_44225182/article/details/126655583