【风控】评分卡建模的流程和要点

评分卡建模的流程和要点

一、数据预处理

1、数据去重：删除重复的样本
2、缺失值处理:确定缺失值的标记，统一转化为统一标记的缺失值（null或者Nan），后续分箱进行处理。
3、错误数据的处理：格式不对或者不符合业务逻辑的数值，可以看作缺失值，或者标记为异常值。
4、异常值处理：针对评分卡，在分箱过程中可以完成异常值的的处理。

二、数据分箱

分箱的意义：一是增强模型的稳定性，二是可以很好的处理缺失值和异常值，三是简化了模型，四是结合评分卡提高了模型的可解释性。

文本特征的分箱：

1、对于分类数量较少（小于10类）的特征，可以按照其分类进行分箱；
2、对于类别数量不是特别多的特征（几十个左右）,最好是按照其内在逻辑进行合并和聚类，比如省份按照地区、经济水平等外在特征进行聚类和合并；
3、针对数据维度特变大的：一是可以看其分类占比，如果存在其中几种类型占比较大，可以将少数占比归为其他进行分类；如果所有分类占比都极小（如公司名称和详细地址等字段）则可以通过文本信息提取，提取关键信息。

数值特征的分箱

分箱的关键点是确定每个区间的分割点。常用分箱手法有：等频率(分位数分箱)；等距分箱；决策树分箱；IV（KS）最大化分箱；卡方分箱等。
数值分箱要点
1、单调性：分箱之间的单调性和趋势要符合业务逻辑，趋势一般有单调递增、单调递减、先增后减等；
2、稳定性：保证在不同数据集上分箱的趋势一致，不能在一份数据上单调递增，另一份单调递减；
3、最小样本比例：一般最小样本的占比为0.05；

缺失值的处理

对于缺失值比较多的一类，可以单独进行分箱，无需考虑其单调性；对于缺失值占比很少的部分，一是合并至数量最多的分箱，二是合并至坏样本率最相近的一箱；

三、分箱编码

一般使用各分箱的woe值进行编码

四、特征选择

特征选择的第一步重要是使用过滤式方法进行选择：
对于特征数量较多的情况，可以先用计算简单的指标进行过滤：如IV，相关系数，fisher值等
进一步可以使用计算复杂的特征：如MIC，单个特征时候模型的评价，特征重要程度和boruta等
还需确定特征之间的相关性，避免模型的多重共线性；
在完成过滤式之后（剩余特征在100个之内），可以通过特征选择策略（选择指标使用auc或者ks，验证方法使用交叉验证）完成模型最终特征的确定。可使用前向搜索法和特征检验法；

五、模型建立

对于逻辑回归而言，不存在模型选择和参数调节，使用sklearn应该注意的是设置class_weight；

六、模型检验

1、模型的检验：可以包括常用的KS和AUC值；
2、多重共线性检验：VIF和特征相关性
3、系数的检验：系数的符号统一为正，系数的显著性检验；
4、预测结果的分段情况：预测结果的分箱和坏样本率变化情况。
5、特征的意义检验：特征的业务意义和模型表达的是否一致，特征的分箱单调情况是否和业务一致。

相关阅读:
JSON 是什么？JSON 介绍
JAVA计算机毕业设计读书网络社区设计Mybatis+系统+数据库+调试部署
yolov5模型代码怎么修改
vue2安装vue-router，less ，vuex的版本
java8特性Stream流和lambda表达式在实际开发中应用
MySQL 快速入门之MySQL 5.7.21解压版安装详细教程
Docker（六）——挂载实现同步
三个线程顺序打印ABC?我有十二种做法，彻底掌握多线程同步通信机制
印象深刻的bug汇总（持续更新）
1.3 统计学习方法的三要素

原文地址：https://blog.csdn.net/wwqnmdhmp/article/details/128061430