• 数据清洗 - 案例实战 - 上集


    数据清洗 - 案例实战 - 上集


    学习目标:

    一方面学习数据清洗的一个流程;

    另一方面通过数据清洗流程加深对Excel软件的熟悉程度.

    0. 数据清洗流程

    1. 选择子集
    2. 列名重命名
    3. 缺失数据处理
    4. 数据类型转换
    5. 数据排序
    6. 异常值处理

    记住做数据分析一定要备份数据, 因为对于数据操作很多是不可逆的,如果出现错误,防止无法找到原数据.

    1. 选择子集

    这里主要考察成交件数, 所以将成交金额等其他指标列进行隐藏操作.

    2. 列名重命名

    同时也可以根据业务背景进行修改列名, 方便后续的分析和操作.

    该项目将数据表原来的"内容类型"修改为"渠道类型", 方便后面的分析理解.

    3. 缺失数据处理

    首先, 查看各列是否存在缺失值.

    一个方法就是依次选中每一列, 然后充分利用Excel工具的下边的单元格信息提示,

    在这里插入图片描述

    另一个方法就是使用Excel的数据工具栏.

    首先,在Excel表格中选中你想要操作的列名单元格,在这里我选中了G1单元格:引导商详次数,然后点击工具栏的数据,再点击"排序和筛选"模块中的"筛选"功能.

    请添加图片描述

    操作结束后, 就如下图所示:

    请添加图片描述

    对于每个列名单元格的右小角有一个向下的下拉箭头框.

    点击某个下拉箭头框, 我依次点击了两个列名, 一个没有缺失值, 一个有缺失值. 没有缺失值的如下所示:

    请添加图片描述

    有缺失值的如下所示:

    请添加图片描述

    根据这两张图, 很明显能够发现存在缺失值的列名, 点击下拉箭头框会有"(空白)"这个选项.

    如果我们想要分析或者查看对应的缺失值所对应的情况, 可以只选中"(空白)",其他把对勾去掉, 如下所示:

    请添加图片描述
    然后,再查看表格中的数据结果:

    请添加图片描述

    这样, 对于"渠道类型"这一列缺失值的情况就展现出来了.

    对于缺失值主要存在三种处理方式:

    • 手动填写
    • 平均值填充
    • 删除缺失值

    这个案例, 进行删除处理.

    4. 数据类型转换

    首先, 是查看每列它是什么类型.

    这里涉及的操作步骤就是, 选中要查看的单元格, 点击"开始"工具栏, 在"数字"模块中,可以看到该单元格的数据类型. 可以参考下图进行加深操作印象:

    请添加图片描述

    对于该列, 希望能够将其文本类型转换为常规的数字类型, 只需要进行如下操作.

    选中要修改的数据列, 点击"开始"工具栏, 在"数字"模块中,可以看到该单元格的数据类型, 点击右边的下拉箭头, 选择"常规"格式.

    请添加图片描述

    操作结束后, 再进行查看数据类型的步骤, 就会发现, 由原来的"文本"类型变成了"常规"类型. 这就是数据类型的转换.

    简单的数据分析 - 数据清洗小案例 - 上集, 包含900+字, 9张图. 下集, 马上整理.
    一起学习, 一起冲!

  • 相关阅读:
    【2011】408联考操作系统真题整理
    基于非洲秃鹫算法优化概率神经网络PNN的分类预测 - 附代码
    CSS - 移动端布局(一)关键的前置知识
    Git——分布式版本控制工具
    软考 - 数据库
    女性排卵期的七个表现,把握住提前当宝妈
    [039]量化交易] DataFrame、Series数据结构访问
    查看数据库数据量大小,占用磁盘大小
    当攻防演练已成常态,企业应该相信西医还是老中医?
    C++11新特性 Chapter1
  • 原文地址:https://blog.csdn.net/qq_40249337/article/details/126811838