码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 决策树--ID3算法


    决策树

    一、ID3/C4.5算法

    概念

    (1)信息熵

    E n t r o p y ( x ) = − ∑ i N c l a s s P ( x i ) l o g 2 P ( x i ) Entropy(x) = -\sum_{i}^{N_{class}}P(x_i)log_2 P(x_i) Entropy(x)=−i∑Nclass​​P(xi​)log2​P(xi​)

    假设只有2个类别(N=2),$ P(x_i) 在【 0 , 1 】之间, 在【0,1】之间, 在【0,1】之间,log_2 P(x_i) $ 小于0,因此Entropy(x) 大于0;
    当两类别概率分别0.5,0.5的时候(样本均匀)信息熵最大,此时纯度最低;当分别为1,0的时候信息熵最小,此时纯度最高;
    因此,信息熵表示不确定性(混乱程度),纯度最低的时候混乱性最大。

    息增益指的就是划分可以带来纯度的提高,信息熵的下降。

    (2)信息增益–ID3

    决策树划分需要往数据纯度提高的方向进行才能正确识别样本,即信息熵变小的方向,假设划分前的信息熵为 S S S,根据特征 T T T划分后的信息熵为 S T S_{T} ST​,则 S T S_{T} ST​的值应该最小,即 S − S T S-S_{T} S−ST​的值(信息增益)应该最大;
    即信息增益最大的时候划分的数据越纯;
    信息增益的计算公式为:
    G a i n ( S , T ) = E n t r o p y ( S ) − ∑ v ∈ T ∣ S v ∣ ∣ S ∣ E n t r o p y ( ∣ S v ∣ ) Gain(S, T) = Entropy(S) -\sum_{v\in T }^{} \frac{|S_v|}{|S|} Entropy(|S_v|) Gain(S,T)=Entropy(S)−v∈T∑​∣S∣∣Sv​∣​Entropy(∣Sv​∣)
    其中, v v v为特征 T T T的取值,当 v v v为特征 T 1 T_1 T1​时,一共有样本数目为 ∣ S v ∣ |S_v| ∣Sv​∣,该集合的信息熵为 E n t r o p y ( ∣ S v ∣ ) Entropy(|S_v|) Entropy(∣Sv​∣)

    (3)信息增益率–C4.5

    G a i n − r a t i o ( S , T ) = G a i n ( S , T ) H T ( S ) Gain_-ratio(S, T) = \frac{Gain(S, T) }{H_T(S)} Gain−​ratio(S,T)=HT​(S)Gain(S,T)​
    其中,
    H T ( S ) = − ∑ v ∈ T ∣ S v ∣ ∣ S ∣ l o g 2 ∣ S v ∣ ∣ S ∣ H_T(S) = -\sum_{v\in T }^{} \frac{|S_v|}{|S|} log_2 \frac{|S_v|}{|S|} HT​(S)=−v∈T∑​∣S∣∣Sv​∣​log2​∣S∣∣Sv​∣​

    假设集合S大小为9,特征T有3种类型的值A,B,C且集合大小都为3,3,3,则$H_T(S) 值最大,特征纯度最小,信息增益率最小;特征 T 1 有 3 种类型的值 A , B , C 且集合大小为 9 , 0 , 0 ,(即特征可取值数量较少)则 值最大,特征纯度最小,信息增益率最小;特征T1有3种类型的值A,B,C且集合大小为9,0,0,(即特征可取值数量较少)则 值最大,特征纯度最小,信息增益率最小;特征T1有3种类型的值A,B,C且集合大小为9,0,0,(即特征可取值数量较少)则H_T(S)$ 值最小,特征纯度最大,信息增益率最大;
    因此,信息增益率偏向于可取值数目较少的属性。

    二、CART树

    参考

    https://zhuanlan.zhihu.com/p/548190779
    https://www.cnblogs.com/cgmcoding/p/14685828.html

    三、GBDT

    参考

    https://blog.csdn.net/wzk4869/article/details/126392996
    https://cloud.tencent.com/developer/article/1764843

    四、XGBoost与GBDT的区别

    参考

    https://fengxc.me/GBDT详解.html

  • 相关阅读:
    2023最新SSM计算机毕业设计选题大全(附源码+LW)之java学生信息管理系统ow05a
    xxl-job 执行器注册成功,但是xxl-admin 不显示
    以太网,宽带,
    ubuntu 20.04 + 3090Ti 深度学习装机 (Nvidia-显卡驱动-515.57 + CUDA-11.7 + cuDNN-8.4.1)
    MySQL高级语句(二)
    20220728使用电脑上的蓝牙和汇承科技的蓝牙模块HC-05配对蓝牙串口传输
    无监督学习
    五三想休息,今天还学习,图解二叉树的层序遍历BFS(广度优先)模板,附面试题题解
    程序员的“护城河”
    七、计算机视觉-图像的ROI区域
  • 原文地址:https://blog.csdn.net/hao5335156/article/details/134001743
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号