码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 数据可视化实战:实验报告


    数据可视化实验报告

    • 1.项目背景
      • 1.1项目概述
      • 1.2数据字段说明
    • 2.提出问题
    • 3.理解数据
      • 3.1采集数据
      • 3.2导入数据
      • 3.3查看数据集信息
    • 4.数据清洗
      • 4.1数据预处理
        • 4.1.1异常数据处理
      • 4.2特征工程
        • 4.2.1特征提取
    • 5.数据可视化
      • 5.1 电影类型与平均评分的关系
      • 5.2 2000年以来评分前十的电影
      • 5.3 2010-2015年电影类型产量变化

    1.项目背景

    1.1项目概述

    本项目拟对movie.csv数据进行可视化

    1.2数据字段说明

    id——序号
    movieId——电影号
    title——电影名
    cover——图片网址
    rate——评分
    director——导演
    composer——编剧
    actor——演员
    category——类型
    district——地区
    language——语言
    showtime——上演时间
    length——时长

    2.提出问题

    电影类型与平均评分之间有什么关系、2000年以来评分前十的电影是什么、2010-2015年电影类型产量前五有什么变化?

    3.理解数据

    3.1采集数据

    数据来源:movie.csv

    3.2导入数据

    根据提出的问题,确定了对csv文件的数据获取。然后通过pandas操作读取csv文件和 usecols导入指定列的数据。
    1.
    在这里插入图片描述
    2.
    在这里插入图片描述
    3.
    在这里插入图片描述

    3.3查看数据集信息

    如图1.2.3:
    在这里插入图片描述

    4.数据清洗

    4.1数据预处理

    4.1.1异常数据处理

    由于category列数据存在部分为空值,先对其进行以“类型的数据缺失”填充处理。
    在这里插入图片描述

    4.2特征工程

    4.2.1特征提取

    1.电影类型与平均评分之间有什么关系?
    由于category数据每一个单元格上可能存在多种类型,所以对其先按“/”拆分,并将结果转换成DataFrame;拆分后,再以列的形式进行输出;行列转换后,索引需要对其进行重置;最后,数据处理完毕,将new_category的列替换成category列。第二步,获取每种类型的平均评分,将其命名为Average_rate拼接在表中;获取每种电影类型的总次数,将其命名为Count_category拼接在表中;同时进行对类型列的数据去重和以平均评分进行从高到低排序。第三步,单独获取类型、平均评分、类型次数以列表的形式输出。
    在这里插入图片描述
    结果如图:
    在这里插入图片描述

    2.2000年以来评分前十的电影是什么?
    首先对上演时间列进行大于2000年的条件筛选;再以评分从高到低进行排序,并且获取前十行数据;然后再生成‘rank’作为名次一列的数据;最后将数据以列表形式输出。
    在这里插入图片描述
    结果如图:
    在这里插入图片描述

    3.2010-2015年电影类型产量前五有什么变化?
    首先进行按2010-2015遍历,然后按上演时间列的数据进行条件筛选,最后对类型列同第一题的方式进行处理。
    在这里插入图片描述
    结果如图:
    在这里插入图片描述

    5.数据可视化

    5.1 电影类型与平均评分的关系

    Bar-Mixed_bar_and_line图:
    该图展示了电影的类型平均评分从左往右依次降低,而儿童类型的平均评分最高,恐怖类型最低;剧情次数最多,共2376次,荒诞、惊粟与悬念次数最低,只有1次。
    在这里插入图片描述

    Funnel-Funnel_chart图:
    该图通过上图的信息再简单提取出电影平均分前五的电影类型,分别为儿童、黑色电影、荒诞、类型的数据缺失(该类型是对空值的填充)、动画。
    在这里插入图片描述

    5.2 2000年以来评分前十的电影

    Table-Table_base图:
    该图展示了2000年以来评分前十的电影排名,其中最高电影评分为9.3,其电影名分别为灿烂人生、机器人总动员,上演时间分别为2003、2008。
    在这里插入图片描述

    5.3 2010-2015年电影类型产量变化

    Timeline-Timeline_bar_reversal图:
    该图展示了2010年至2015年的电影类型前五产量的动态变化,其中类型产量从上到下依次降低。

  • 相关阅读:
    时间序列预测各类算法探究上篇
    linux驱动30:度量时间差
    成功解决 IDEA 2020 版本 代码报错不提示的几种方案
    RabbitMQ消息可靠性问题
    程序员45岁之后,绝大部分都被淘汰吗?真相寒了众人的心
    花呗不小心升级了信用购会影响什么
    Linux 系统环境监测
    # 从浅入深 学习 SpringCloud 微服务架构(六)Feign(3)
    P4185 [USACO18JAN] MooTube G (并查集 + 离线
    AI大模型技术:原理、应用和未来展望
  • 原文地址:https://blog.csdn.net/qq_56886142/article/details/125226459
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号