• 【数据可视化】第三章——数据可视化综合实践


    Matplotlib作业数据.csv文件查看百度网盘:链接:https://pan.baidu.com/s/1oFB_KwhiJNlJAgXg7RaYuw?pwd=abcd
    提取码:abcd

    1.作业描述

    作业:根据Matplotlib作业数据.csv做出4种不同类型的组合图像

    要求:根据情况适当添加信息,如:标题,坐标轴信息,图例信息,特殊值标注等。

    可参考制作内容包括并不限于:
    评分最高的20部电影的投票人数分布(柱状图,条形图)
    不同国家2012-2016年发行电影数量(折线图,簇状柱形图)
    不同类型电影2012-2016年发行数量(簇状柱形图)
    不同类型电影所占比值(饼图)
    电影时长分布分析(直方图
    电影时长,豆瓣评分与投票人数的相关关系(气泡图


    2.参考代码:

    import numpy as np
    import matplotlib.pyplot as plt
    import matplotlib
    import pandas as pd
    import seaborn as sbn
    
    matplotlib.rcParams['font.family'] = 'SIMHEI'
    matplotlib.rcParams['font.size'] = 18
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8

    提示:如果报错,请检查包是否下载完成,在python环境中输入:
    pip install xxx

    df = pd.read_csv(r"E:/Matplotlib作业数据.csv",encoding="gbk",index_col="名字").dropna()
    # 评分最高的20部电影的投票人数分布(柱状图,条形图)
    df1 = df.sort_values(by="评分",ascending=False)
    df2 = df1.iloc[0:20,:]
    # 不同国家2012-2016年发行电影数量
    df3 = df["产地"].value_counts()
    # 不同类型电影2012-2016年发行数量(簇状柱形图)
    df4 = df["类型"].value_counts()
    # 计算相关系数
    df5 = df[["时长","评分","投票人数"]].corr()
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    plt.figure(figsize = (25,35),dpi = 150)
    
    plt.subplot2grid(shape=(3,3),loc=(0,0),colspan=3)
    # 第一个图 评分最高的20部电影的投票人数分布(柱状图,条形图)
    a = [s[:5] for s in df2.index] 
    b = df2["投票人数"]
    plt.barh(a, width =b,height = 0.5,color = 'orange',edgecolor = 'silver',linewidth = 3)
    plt.yticks(a,fontsize = 12)
    plt.grid(True)
    plt.title('评分最高的20部电影的投票人数分布',fontweight="bold") #图标题
    plt.ylabel('电影名称')
    plt.xlabel('人数')
    
    plt.subplot2grid((3,3),(1,0),colspan=2)
    # 第二个图 不同国家2012-2016年发行电影数量 折线图
    a = df3.index
    b = df3.to_list()
    plt.plot(a,b,color = 'g', linestyle = '-.',linewidth = 3,
            marker = 'h', markerfacecolor = 'c', markersize = 15)
    bm = np.argmax(b)
    plt.text(a[bm],b[bm],'最大值', fontproperties = 'Kaiti', fontsize = 15)
    plt.xticks(a,rotation = 45)
    plt.title('不同国家2012-2016年发行电影数量',fontweight="bold") #图标题
    plt.xlabel('国家')
    plt.ylabel('电影数量')
    plt.grid(True)
    
    plt.subplot2grid((3,3),(1,2),rowspan=2)
    # 第三个图
    # 不同电影时长分布
    a = df["时长"]
    d = 20
    num_bins = np.ceil((np.ptp(a))/d).astype(np.int64)
    b = np.arange(min(a),max(a)+d,d)
    plt.hist(a,num_bins,range = (min(a),min(a)+d*num_bins),density = False,color="coral")
    plt.xticks(b)
    plt.grid()
    plt.xlabel("分钟")
    plt.ylabel("数量")
    plt.title("不同电影时长分布",fontweight="bold")
    
    
    plt.subplot2grid((3,3),(2,0),colspan=1)
    sbn.heatmap(df5,cmap='GnBu',annot=True,linewidths=0.3, linecolor='gray')
    plt.title("相关关系热力图",fontweight="bold")
    
    plt.subplot2grid((3,3),(2,1),colspan=1)
    # 第五个图
    sizes = df4.to_list() #设置每部分大小
    labels = df4.index
    explode = [0.05,0,0,0,0,0,0,0,0,0,0] #设置每部分凹凸
    # colors = ['c','g','b','m']
    colors = matplotlib.cm.rainbow(np.arange(len(sizes))/len(sizes))
    plt.pie(sizes,
            labels = labels,
            explode = explode,
            colors = colors,
            labeldistance = 1,
            autopct = '%.1f%%',
            counterclock = False,
            startangle = 170,
            shadow = False)
    
    plt.title('不同类型电影所占比值',fontweight="bold");#设置标题
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49
    • 50
    • 51
    • 52
    • 53
    • 54
    • 55
    • 56
    • 57
    • 58
    • 59
    • 60
    • 61
    • 62
    • 63
    • 64

    最终效果如图:
    在这里插入图片描述

  • 相关阅读:
    初识Java 6-1 复用
    控制质量-技术或工具
    Faiss原理和使用总结
    耗时半月,终于把牛客网上的Java面试八股文整理成了PDF合集(Java基础+Redis+MySQL+多线程与高并发+JVM+分布式+Spring+微服务)
    你真知道交换机、路由器和防火墙的区别吗?
    随机产生一个1-100之间的整数,看能几次猜中
    keepalived 服务高可用(简约版)
    LeetCode--300. 最长递增子序列(C++描述)
    1.1.OpenCV技能树--第一单元--OpenCV简介
    $attrs 和 $listeners (vue2&&vue3)
  • 原文地址:https://blog.csdn.net/m0_58598240/article/details/128041629