最常用的就是客户评估

- 基于距离的分类方法
- 决策树分类方法
- 贝叶斯分类方法
步骤

有指导的学习、无指导的学习
数据准备

评估方法




定义:测量不同特征值之间的距离方法进行分类
工作原理:
优缺点
注意的问题





取值个数过多、过少

ID3只能处理离散分割属性

对于连续取值的属性,如何选择阈值

ID3:无法对未知分割属性进行处理
ID3:无树剪枝,易受到噪声、波动影响
解决方法:K阶交叉验证
用K-1份训练决策树、用剩下的1份去测试性能,总共进行k次迭代




取值越小,表达的不确定性越小
属性必须是二叉结构
计算某个属性有几个二叉结构:属性值为n,有
种划分方法
举例
与ID3算法一致,只是根据
计算,选择Gini指标最小的。





目的:处理由于噪声数据训练出的异常,用剪枝来处理过分拟合
先剪枝:

后剪枝:
"完全生长"的树剪去子树

贝叶斯推理的问题是条件概率推理问题

举例







