特征工程建模可解释包（note）

Permutation Importance

一般情况下，使用集成算法去看特征重要性比较好。

关注某一个特征，计算其permutation importance:

训练好当前模型
考虑特征A对模型结果的影响。将特征A打乱顺序，比较模型结果，误差是否变得更大。如果误差改变不大，说明该特征不重要，如果误差改变大，则重要。
工具包 eli5 https://eli5.readthedocs.io/en/latest/tutorials/xgboost-titanic.html#explaining-weights

建立模型

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
data = pd.read_csv('FIFA 2018 Statistics.csv')
y = (data['Man of the Match'] == "Yes")  # 转换标签
feature_names = [i for i in data.columns if data[i].dtype in [np.int64]]
X = data[feature_names]
X.head()
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)
my_model = RandomForestClassifier(random_state=0).fit(train_X, train_y)
1
2
3
4
5
6
7
8
9
10
11

展示特征重要性

import eli5 #pip install eli5
from eli5.sklearn import PermutationImportance

perm = PermutationImportance(my_model, random_state=1).fit(val_X, val_y)
eli5.show_weights(perm, feature_names = val_X.columns.tolist())
1
2
3
4
5

在这里插入图片描述

相关阅读:
当遇到修复错误0xc000000e时，你的电脑需要修复。如何在Windows 11/10上修复此错误
Netty简介及简单客户端/服务端示例代码
Android学习笔记 51. 项目发布
nacos源码下
uniapp如何实现返回上一级页面并传值刷新
git学习笔记
SpringBoot学习_day4-5
MySQL常见的性能优化方法技巧以及示例
MindSpore:无法观看官网线上课程视频
Python 教程之控制流（3）Python 中的循环和控制语句（继续、中断和通过）

原文地址：https://blog.csdn.net/weixin_39107270/article/details/132875653