• 【风控】评分卡建模的流程和要点


    评分卡建模的流程和要点

    一、数据预处理

    1、数据去重:删除重复的样本
    2、缺失值处理:确定缺失值的标记,统一转化为统一标记的缺失值(null或者Nan),后续分箱进行处理。
    3、错误数据的处理:格式不对或者不符合业务逻辑的数值,可以看作缺失值,或者标记为异常值
    4、异常值处理:针对评分卡,在分箱过程中可以完成异常值的的处理。

    二、数据分箱

    分箱的意义:一是增强模型的稳定性,二是可以很好的处理缺失值和异常值,三是简化了模型,四是结合评分卡提高了模型的可解释性

    文本特征的分箱:

    1、对于分类数量较少(小于10类)的特征,可以按照其分类进行分箱;
    2、对于类别数量不是特别多的特征(几十个左右),最好是按照其内在逻辑进行合并和聚类,比如省份按照地区、经济水平等外在特征进行聚类和合并;
    3、针对数据维度特变大的:一是可以看其分类占比,如果存在其中几种类型占比较大,可以将少数占比归为其他进行分类;如果所有分类占比都极小(如公司名称和详细地址等字段)则可以通过文本信息提取,提取关键信息。

    数值特征的分箱

    分箱的关键点是确定每个区间的分割点。常用分箱手法有:等频率(分位数分箱);等距分箱;决策树分箱;IV(KS)最大化分箱;卡方分箱等。
    数值分箱要点
    1、单调性:分箱之间的单调性和趋势要符合业务逻辑,趋势一般有单调递增、单调递减、先增后减等;
    2、稳定性:保证在不同数据集上分箱的趋势一致,不能在一份数据上单调递增,另一份单调递减;
    3、最小样本比例:一般最小样本的占比为0.05;

    缺失值的处理

    对于缺失值比较多的一类,可以单独进行分箱,无需考虑其单调性;对于缺失值占比很少的部分,一是合并至数量最多的分箱,二是合并至坏样本率最相近的一箱;

    三、分箱编码

    一般使用各分箱的woe值进行编码

    四、特征选择

    特征选择的第一步重要是使用过滤式方法进行选择:
    对于特征数量较多的情况,可以先用计算简单的指标进行过滤:如IV,相关系数,fisher值等
    进一步可以使用计算复杂的特征:如MIC,单个特征时候模型的评价,特征重要程度和boruta等
    还需确定特征之间的相关性,避免模型的多重共线性;
    在完成过滤式之后(剩余特征在100个之内),可以通过特征选择策略(选择指标使用auc或者ks,验证方法使用交叉验证)完成模型最终特征的确定。可使用前向搜索法和特征检验法;

    五、模型建立

    对于逻辑回归而言,不存在模型选择和参数调节,使用sklearn应该注意的是设置class_weight;

    六、模型检验

    1、模型的检验:可以包括常用的KS和AUC值;
    2、多重共线性检验:VIF和特征相关性
    3、系数的检验:系数的符号统一为正,系数的显著性检验;
    4、预测结果的分段情况:预测结果的分箱和坏样本率变化情况。
    5、特征的意义检验:特征的业务意义和模型表达的是否一致,特征的分箱单调情况是否和业务一致。

  • 相关阅读:
    JSON 是什么?JSON 介绍
    JAVA计算机毕业设计读书网络社区设计Mybatis+系统+数据库+调试部署
    yolov5模型代码怎么修改
    vue2安装vue-router,less ,vuex的版本
    java8特性Stream流和lambda表达式在实际开发中应用
    MySQL 快速入门之MySQL 5.7.21解压版安装详细教程
    Docker(六)——挂载实现同步
    三个线程顺序打印ABC?我有十二种做法,彻底掌握多线程同步通信机制
    印象深刻的bug汇总(持续更新)
    1.3 统计学习方法的三要素
  • 原文地址:https://blog.csdn.net/wwqnmdhmp/article/details/128061430