
Adam主要是用于梯度下降方面的优化, 在不同的参数中给定不同的下降速率α

主要应用在compile方面,加了一个优化器, 初始学习速率是 0.001,在运行时会自我调整


右下角为公式.

判断的过程中像树一样选择
从上到下分别是: 根节点,决策节点,叶子节点

在决策树的特征选择中,使用不同的特征,效果也不同
什么时候停止继续向下分裂?
1.当一个节点纯度达到100%
2.可以自己设定树的深度
3.拆分,优化效果不佳
这里引入了熵的概念

横坐标代表纯度,纵坐标代表熵函数
当纯度为100% 即全部是猫时 熵为0
同理纯度为0% 也一样 熵为0

熵函数公式,用来衡量数据纯不纯
越纯熵越小, 越不纯熵越大

当决策树的特征分类在3个及以上时

当特征比较多时,可以把一个特征拆分为小特征, 具有为1,否则为0

当数据集中出现了 体重数据,而不再是单纯的0和1

处理方法, 计算当weight为不同的数值时 的 信息增益, 当值最大时, weight最佳
是比单个树效果要好的算法
从原始10个数据中,随机选择10个特征,重复多次构成随机森林