码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • ID3算法


    目录

    ID3算法

     例子

    ID算法总结



     

    ID3算法


    ID3算法是在每个结点处选取能获得最高信息增益的分支属性进行分裂

    在每个决策结点处划分分支、选取分支属性的目的是将整个决策树的样本纯度提升

    衡量样本集合纯度的指标则是熵;

     

    举例来说,如果有一个大小为10的布尔值样本集Sb,其中有6个真值、4个假值,那么该布尔型样本分类的熵为:

     

    计算分支属性对于样本集分类好坏程度的度量——信息增益

    由于分裂后样本集的纯度提高,则样本集的熵降低,熵降低的值即为该分裂方法的信息增益

     例子


    此样本集有“饮食习性”、“胎生动物”、“水生动物”、“会飞”四个属性可作为分支属性,而“哺乳动物”作为样本的分类属性,有“是”与“否”两种分类,也即正例与负例。共有14个样本,其中8个正例,6个反例,设此样本集为 S,则分裂前的熵值为:

     

     

    ID算法总结


    由根结点通过计算信息增益选取合适的属性进行分裂,若新生成的结点的分类属性不唯一,则对新生成的结点继续进行分裂,不断重复此步骤,直至所有样本属于同 一类,或者达到要求的分类条件为止

    常用的分类条件:包括结点样本数最少于来设定的值、决策树达到预先设定的最大深度等

    在决策树的构建过程中:会出现使用了所有的属性进行分支之后,类别不同的样本仍存在同一个叶子结点中。当达到了限制条件而被强制停止构建时,也会出现结点中子样本集存在多种分类的情况。对于这种情况,一般取此结点中子样本集占数的分类作为结点的分类

    分支多的属性并不一定是最优的:就如同将100个样本分到99个分支中并没有什么意义,这种分支属性因为分支太多可能相比之下无法提供太多的可用信息,例如个人信息中的“省份”属性

  • 相关阅读:
    角谱迭代与傅里叶变换迭代算法(GS)的原理及其实例演示分析
    Linxu系统(Centos 7)安装 DNS 服务
    金九银十?铜九铁十才对......
    docker Compose 部署springboot+vue前端端分离项目
    17--Django-项目实战-博客开发-登录功能和首页页面搭建
    RK3568平台开发系列讲解(调试篇)系统运行相关频率设置
    .NET餐厅管理系统user数据帮助类查询、找回密码、添加管理员
    二肽Ile-Ala,24787-73-3,H2N-IA-OH
    在Vue+Ts+Vite项目中如何配置别名指向不同的目录并引用
    两化融合资质认证流程
  • 原文地址:https://blog.csdn.net/qq_50942093/article/details/127940365
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号