零基础学Python--机器学习（四）：特征提取

零基础学Python--机器学习（四）：特征提取
本文目录：
📢📢📢📣📣📣
🌻🌻🌻Hello，大家好我叫是Dream呀，一个有趣的Python博主，多多关照😜😜😜
🏅🏅🏅作者简介：Python领域优质创作者🏆 CSDN年度博客之星🏆 阿里云专家博主🏆 华为云享专家🏆 51CTO专家博主🏆
💕入门须知：这片乐园从不缺乏天才，努力才是你的最终入场券！🚀🚀🚀
💓最后，愿我们都能在看不到的地方闪闪发光，一起加油进步🍺🍺🍺
🍉🍉🍉一万次悲伤，依然会有Dream，我一直在最温暖的地方等你~🌈🌈🌈
🌟🌟🌟✨✨✨

前言：
❤️本文选自： 【零基础学Python】本课程是针对Python入门&进阶打造的一全套课程，在这里，我将会一一更新Python基础语法、Python爬虫、Web开发、 Django框架、Flask框架以及人工智能相关知识，帮助你成为Python大神，如果你喜欢的话就抓紧收藏订阅起来吧~💘💘💘

特征提取

学习目标
- 应用DictVectorizer实现对类别特征进行数值化、离散化
- 应用CountVectorizer实现对文本特征进行数值化
- 应用TfidfVectorizer实现对文本特征进行数值化
- 说出两种文本特征提取的方式区别
什么是特征提取呢？

1.特征提取

将任意数据（如文本或图像）转换为可用于机器学习的数字特征
```
注：特征值化是为了计算机更好的去理解数据
1
```
- 字典特征提取(特征离散化)
- 文本特征提取
- 图像特征提取（深度学习将介绍）
特征提取API
```
sklearn.feature_extraction
1
```
2.字典特征提取

作用：对字典数据进行特征值化 -类别->one-hot编码
sklearn.feature_extraction.DictVectorizer(sparse=True,…)
- DictVectorizer.fit_transform(X) X:字典或者包含字典的迭代器返回值：返回sparse矩阵
- DictVectorizer.inverse_transform(X) X:array数组或者sparse矩阵返回值:转换之前数据格式
- DictVectorizer.get_feature_names() 返回类别名称
vector:向量
- 矩阵 matrix 二维数组
- 向量学习投入一维数组
父类：转换器类
- 返回sparse矩阵
- sparse稀疏
  - 将非零值按位置表示出
  - 节省内存 - 提高加载效率
2.1 应用

我们对以下数据进行特征提取：
```
[{'city': '北京','temperature':100}
{'city': '上海','temperature':60}
{'city': '深圳','temperature':30}]
1
2
3
```
2.2流程分析

我们对以下数据进行特征提取
```
[{'city': '北京','temperature':100}
{'city': '上海','temperature':60}
{'city': '深圳','temperature':30}]
1
2
3
```
1. 实例化类DictVectorizer
2. 调用fit_transform方法输入数据并转换（注意返回格式）
没有加上sparse=False

DictVectorizer()：默认sparse=True
```
from sklearn.feature_extraction import DictVectorizer

def dict_demo():
    """
    对字典类型的数据进行特征抽取
    :return: None
    """
    data = [{'city': '北京','temperature':100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature':30}]
    # 1、实例化一个转换器类
    transfer = DictVectorizer()
    # 2、调用fit_transform
    data = transfer.fit_transform(data)
    print("返回的结果:\n", data)
    # 打印特征名字
    print("特征名字：\n", transfer.get_feature_names())

    return None
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
```
这个结果并不是我们想要看到的，所以加上参数，得到想要的结果：

加上sparse=False

我们可以看这两个有什么关系：
第一个其实是sparse稀疏矩阵，就是把第二个中的非零元素用坐标表示出来啦
1. 将非零值按位置表示出来
2. 节省内存 - 提高加载效率
我们把这个处理数据的技巧叫做”one-hot“编码。

转化为：

2.3总结

应用场景：
1）pclass, sex 数据集当中类别特征比较多
- 1、将数据集的特征-》字典类型
- 2、DictVectorizer转换
2）本身拿到的数据就是字典类型
对于特征当中存在类别信息的我们都会做one-hot编码处理

3.文本特征提取

作用：对文本数据进行特征值化
单词作为特征
句子、短语、单词、字母
特征：特征词

方法1：CountVectorizer

sklearn.feature_extraction.text.CountVectorizer(stop_words=[])
返回词频矩阵，stop_words停用的
- CountVectorizer.fit_transform(X) X:文本或者包含文本字符串的可迭代对象返回值：返回sparse矩阵
- CountVectorizer.inverse_transform(X) X:array数组或者sparse矩阵返回值:转换之前数据格
- CountVectorizer.get_feature_names() 返回值:单词列表
方法2：TfidfVectorizer

TF-IDF - 重要程度
两个词 “经济”，“非常”
看4.Tf-idf文本特征提取

3.1应用

我们对以下数据进行特征提取
```
["life is short,i like python",
"life is too long,i dislike python"]
1
2
```
3.2流程分析
- 实例化类CountVectorizer
- 调用fit_transform方法输入数据并转换（注意返回格式，利用toarray()进行sparse矩阵转换array数组）
```
from sklearn.feature_extraction.text import CountVectorizer

def text_count_demo():
    """
    对文本进行特征抽取，countvetorizer
    :return: None
    """
    data = ["life is short,i like like python", "life is too long,i dislike python"]
    # 1、实例化一个转换器类
    # transfer = CountVectorizer(sparse=False)
    transfer = CountVectorizer()
    # 2、调用fit_transform
    data = transfer.fit_transform(data)
    print("文本特征抽取的结果：\n", data.toarray())
    print("返回特征名字：\n", transfer.get_feature_names())

    return None
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
```
返回结果：
统计每个样本特征词出现的个数

关键词消除

stop_words 消除不需要的关键词
```
def count_demo():
    """
    文本特征抽取：CountVecotrizer
    :return:
    """
    data = ["life is short,i like python", "life is too long,i dislike python"]
    # 1、实例化一个转换器类
    transfer = CountVectorizer(stop_words=['is','too'])

    # 2、调用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new.toarray())
    print("特征名字：\n", transfer.get_feature_names())

    return None
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
```
问题:如果我们将数据替换成中文？
```
"我爱北京天安门", "天安门上太阳升"
1
```
```
def count_chinese_demo():
    """
    中文文本特征抽取：CountVecotrizer
    :return:
    """
    data = ["我爱北京天安门", "天安门上太阳升"]
    # 1、实例化一个转换器类
    transfer = CountVectorizer()

    # 2、调用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new.toarray())
    print("特征名字：\n", transfer.get_feature_names())
    return None
1
2
3
4
5
6
7
8
9
10
11
12
13
14
```
那么最终得到的结果是：

只是因为它不会把中文分开，只是按照‘，’将字符串分开，我们此时用空格把这句话分一下，看看会出现啥结果：
```
"我 爱 北京 天安门", "天安门 上 太阳 升"
1
```
为什么会得到这样的结果呢，仔细分析之后会发现英文默认是以空格分开的。其实就达到了一个分词的效果，所以我们要对中文进行分词处理

3.jieba分词处理

jieba.cut()
- 返回词语组成的生成器
需要安装下jieba库
```
pip3 install jieba
1
```
对我爱北京天安门进行分析：
```
def cut_word(text):
    """
    进行中文分词："我爱北京天安门" --> "我 爱 北京 天安门"
    :param text:
    :return:
    """
    return " ".join(list(jieba.cut(text)))
1
2
3
4
5
6
7
```
得到如下结果：

对以下三句话进行特征值化：

今天很残酷，明天更残酷，后天很美好，
但绝对大部分是死在明天晚上，所以每个人不要放弃今天。

我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。

如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。

分析
1. 准备句子，利用jieba.cut进行分词
2. 实例化CountVectorizer
3. 将分词结果变成字符串当作fit_transform的输入值
```
from sklearn.feature_extraction.text import CountVectorizer
import jieba

def cut_word(text):
    """
    对中文进行分词
    "我爱北京天安门"————>"我 爱 北京 天安门"
    :param text:
    :return: text
    """
    # 用结巴对中文字符串进行分词
    text = " ".join(list(jieba.cut(text)))

    return text

def text_chinese_count_demo2():
    """
    对中文进行特征抽取
    :return: None
    """
    data = ["一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。",
            "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。",
            "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]
    # 将原始数据转换成分好词的形式
    text_list = []
    for sent in data:
        text_list.append(cut_word(sent))
    print(text_list)

    # 1、实例化一个转换器类
    # transfer = CountVectorizer(sparse=False)
    transfer = CountVectorizer()
    # 2、调用fit_transform
    data = transfer.fit_transform(text_list)
    print("文本特征抽取的结果：\n", data.toarray())
    print("返回特征名字：\n", transfer.get_feature_names())

    return None
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
```
得到我们需要的结果：

但如果把这样的词语特征用于分类，会出现什么问题？
请看问题：

该如何处理某个词或短语在多篇文章中出现的次数高这种情况

 4.Tf-idf文本特征提取

**TF-IDF的主要思想是：**如果某个词或短语在一篇文章中出现的概率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。
TF-IDF作用：用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

4.1公式
- 词频（term frequency，tf）指的是某一个给定的词语在该文件中出现的频率
- 逆向文档频率（inverse document frequency，idf）是一个词语普遍重要性的度量。某一特定词语的idf，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取以10为底的对数得到
  
  最终得出结果可以理解为重要程度。
  TF-IDF - 重要程度
  两个词 “经济”，“非常”，1000篇文章-语料库，100篇文章 - “非常”，10篇文章，“经济”两篇文章
  文章A(100词) : 10次“经济”
- TF-IDF:0.2
- tf:10/100 = 0.1
- idf:lg 1000/10 = 2
  文章B(100词) : 10次“非常” TF-IDF:0.1
- tf:10/100 = 0.1
- idf: log 10 1000/100 = 1
TF - 词频（term frequency，tf)
IDF - 逆向文档频率

注：假如一篇文件的总词语数是100个，而词语"非常"出现了5次，那么"非常"一词在该文件中的词频就是5/100=0.05。而计算文件频率（IDF）的方法是以文件集的文件总数，除以出现"非常"一词的文件数。所以，如果"非常"一词在1,000份文件出现过，而文件总数是10,000,000份的话，其逆向文件频率就是lg（10,000,000 / 1,0000）=3。最后"非常"对于这篇文档的tf-idf的分数为0.05 * 3=0.15

代码：
```
from sklearn.feature_extraction.text import TfidfVectorizer
import jieba

def cut_word(text):
    """
    对中文进行分词
    "我爱北京天安门"————>"我 爱 北京 天安门"
    :param text:
    :return: text
    """
    # 用结巴对中文字符串进行分词
    text = " ".join(list(jieba.cut(text)))

    return text

def text_chinese_tfidf_demo():
    """
    对中文进行特征抽取
    :return: None
    """
    data = ["一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。",
            "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。",
            "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]
    # 将原始数据转换成分好词的形式
    text_list = []
    for sent in data:
        text_list.append(cut_word(sent))
    print(text_list)

    # 1、实例化一个转换器类
    # transfer = CountVectorizer(sparse=False)
    transfer = TfidfVectorizer(stop_words=['一种', '不会', '不要'])
    # 2、调用fit_transform
    data = transfer.fit_transform(text_list)
    print("文本特征抽取的结果：\n", data.toarray())
    print("返回特征名字：\n", transfer.get_feature_names())

    return None
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
```
结果：

结果大的便可以体现出这个词比较重要。

Tf-idf的重要性：
分类机器学习算法进行文章分类中前期数据处理方式

 【系列好文推荐】

🎯🎯🎯
零基础学Python 开篇–全套学习路线
 零基础学Python–Web开发（七）：登录实现及功能测试
 零基础学Python 机器学习实战——疫情数据分析与预测实战
🎯🎯🎯

欢迎订阅本专栏： 零基础学Python 系列课程是针对Python入门&进阶打造的一全套课程，在这里，我将会一一更新Python基础语法、Python爬虫、Web开发、 Django框架、Flask框架以及人工智能相关知识，帮助你成为Python大神，如果你喜欢的话就抓紧收藏订阅起来吧~💘💘💘
💕💕💕 好啦，这就是今天要分享给大家的全部内容了，我们下期再见！✨ ✨ ✨
🍻🍻🍻如果你喜欢的话，就不要吝惜你的一键三连了~

⬇️⬇️ ⬇️ 商务合作|交流学习|粉丝福利|Python全套资料⬇️ ⬇️ ⬇️ 欢迎联系~
相关阅读:
elmentui表单重置及出现的问题
 2022年鲜为人知的CSS 特性了解起来~
Python：用指定的字拼成这个字本身
 敲桌子案例
 [附源码]计算机毕业设计JAVA基于JSP社区生鲜配送系统
 【实训项目】你好，教练-校园私教平台的设计与开发
 二进制搭建以太坊节点
 算法：强连通分量（SCC） Tarjan算法
 强强联手！三思&华为数字站点数智化隧道联合方案，加速交通智能化
 java-php-python-ssm抑抑心理交流平台计算机毕业设计
原文地址：https://blog.csdn.net/weixin_51390582/article/details/126195280

本文目录：

特征提取

1.特征提取

2.字典特征提取

2.1 应用

2.2流程分析

没有加上sparse=False

加上sparse=False

2.3总结

3.文本特征提取

方法1：CountVectorizer

方法2：TfidfVectorizer

3.1应用

3.2流程分析

关键词消除

问题:如果我们将数据替换成中文？

3.jieba分词处理

4.Tf-idf文本特征提取

4.1公式

【系列好文推荐】