• python爬虫爬取电影数据并做可视化


    思路:

    1、发送请求,解析html里面的数据

    2、保存到csv文件

    3、数据处理

    4、数据可视化

    需要用到的库:

    1. import requests,csv #请求库和保存库
    2. import pandas as pd #读取csv文件以及操作数据
    3. from lxml import etree #解析html库
    4. from pyecharts.charts import * #可视化库

    注意:后续用到分词库jieba以及词频统计库nltk 

     

    环境:

    解释器: python  3.10.5

    编辑器:VsCode -jupyter-notebook

    使用ipynb文件的扩展名 vscode会提示安装jupyter插件

     

    一、发送请求、获取html

    1. #请求的网址
    2. url='https://ssr1.scrape.center/page/1'
    3. #请求头
    4. headers={
    5. "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"
    6. }
    7. #发起请求,获取文本数据
    8. reponse=requests.get(url,url,headers=headers)
    9. print(reponse)

    二、使用xpath提取html里面的数据并存到csv

    1. #创建csv文件
    2. with open('电影数据.csv',mode='w',encoding='utf-8',newline='') as f:
    3. #创建csv对象
    4. csv_save=csv.writer(f)
    5. #创建标题
    6. csv_save.writerow(['电影名','电影上映地','电影时长','上映时间','电影评分'])
    7. for page in range(1,11): #传播关键1到10页的页数
    8. #请求的网址
    9. url='https://ssr1.scrape.center/page/{}'.format(page)
    10. print('当前请求页数:',page)
    11. #请求头
    12. headers={
    13. "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"
    14. }
    15. response=requests.get(url,url,headers=headers,verify=False)
    16. print(response)
    17. html_data=etree.HTML(response.text)
    18. #获取电影名
    19. title=html_data.xpath('//div[@class="p-h el-col el-col-24 el-col-xs-9 el-col-sm-13 el-col-md-16"]/a/h2/text()')
    20. #获取电影制作地
    21. gbs=html_data.xpath('//div[@class="p-h el-col el-col-24 el-col-xs-9 el-col-sm-13 el-col-md-16"]/div[2]/span[1]/text()')
    22. #获取电影时长
    23. time=html_data.xpath('//div[@class="m-v-sm info"]/span[3]/text()')
    24. #获取电影上映时间
    25. move_time=html_data.xpath('//div[@class="p-h el-col el-col-24 el-col-xs-9 el-col-sm-13 el-col-md-16"]/div[3]/span/text()')
    26. #电影评分
    27. numder=html_data.xpath('//p[@class="score m-t-md m-b-n-sm"]/text()')
    28. for name,move_gbs,times,move_times,numders in zip(title,gbs,time,move_time,numder):
    29. print('电影名:',name,' 电影上映地址:',move_gbs,' 电影时长:',times,' 电影上映时间:',move_times,' 电影评分:',numders)
    30. #name,move_gbs,times,move_times,numders
    31. #写入csv文件
    32. csv_save.writerow([name,move_gbs,times,move_times,numders])

    效果:

    093e20cf4ab3450a83a8ec45f38febd5.png

     

    三、使用pandas打开爬取的csv文件

    1. data=pd.read_csv('电影数据.csv',encoding='utf-8')
    2. print(data)

     

    四、对电影名进行分词以及词频统计

    注意:使用jieba分词,nltk词频统计

    这里的停用此表.txt可以自己创建一个  里面放无意义的字,比如:的、不是、不然这些

    每个字独占一行即可

    1. import jieba
    2. title_list=[]
    3. for name in data['电影名']:
    4. #进行精准分词
    5. lcut=jieba.lcut(name,cut_all=False)
    6. # print(lcut)
    7. for i in lcut :
    8. # print(i)
    9. #去除无意义的词
    10. #打开停用词表文件
    11. file_path=open('停用词表.txt',encoding='utf-8')
    12. #将读取的数据赋值给stop_words变量
    13. stop_words=file_path.read()
    14. #遍历后的值 如果没有在停用词表里面 则添加到net_data列表里面
    15. if i not in stop_words:
    16. title_list.append(i)
    17. # print(title_list)
    18. #计算词语出现的频率
    19. from nltk import FreqDist #该模块提供了计算频率分布的功能
    20. #FreqDist对象将计算net_data中每个单词的出现频率,,并将结果存储在freq_list中
    21. freq_list=FreqDist(title_list)
    22. print(freq_list) #结果:FreqDist 有1321个样本和5767个结果
    23. #该方法返回一个包含最常出现单词及其出现频率的列表。将该列表赋值给most_common_words变量。
    24. most_common_words=freq_list.most_common()
    25. print(most_common_words) #结果:('The这个词',出现185次)

    效果:612049265753401d8a3c1e58397d2688.png

     

    五、词云可视化

    1. # 创建一个 WordCloud类(词云) 实例
    2. word_cloud = WordCloud()
    3. # 添加数据和词云大小范围 add('标题', 数据, word_size_range=将出现频率最高的单词添加到词云图中,并设置单词的大小范围为 20 到 100。)
    4. word_cloud.add('词云图', most_common_words, word_size_range=[20, 100])
    5. # 设置全局选项,包括标题
    6. word_cloud.set_global_opts(title_opts=opts.TitleOpts(title='电影数据词云图'))
    7. # 在 Jupyter Notebook 中渲染词云图
    8. word_cloud.render_notebook()
    9. #也可以生成html文件观看
    10. word_cloud.render('result.html')

    运行效果:

    a3aafd61393a4f82ad03e0b8e05d49cc.png

     

    六、对电影时长进行统计并做柱形图可视化

    1. #电影时长 去除分钟和,号这个 转为int 然后再转为列表 只提取20条数据,总共100条
    2. move_time=data['电影时长'].apply(lambda x: x.replace('分钟', '').replace(',', '')).astype('int').tolist()[0:20]
    3. # print(move_time)
    4. #电影名 只提取20条数据
    5. move_name=data['电影名'].tolist()[0:20]
    6. # print(move_name)
    7. #创建Bar实例
    8. Bar_obj=Bar()
    9. #添加x轴数据标题
    10. Bar_obj.add_xaxis(move_name)
    11. #添加y轴数据
    12. Bar_obj.add_yaxis('电影时长数据(单位:分钟)',move_time)
    13. #设置标题
    14. Bar_obj.set_global_opts(title_opts={'text': '电影时长数据柱形图可视化'})
    15. # 显示图表
    16. Bar_obj.render_notebook()

    效果:

    24582af6f53d40f3888733789baa25da.png

     

    七、电影时长折线图可视化

    1. #去除分钟和,号这个 转为int 然后再转为列表 只提取25条数据
    2. move_time=data['电影时长'].apply(lambda x: x.replace('分钟', '').replace(',', '')).astype('int').tolist()[0:25]
    3. # print(move_time)
    4. #电影名 只提取25条数据
    5. move_name=data['电影名'].tolist()[0:25]
    6. # print(move_name)
    7. #创建Bar实例
    8. Bar_obj=Line()
    9. #添加x轴数据标题
    10. Bar_obj.add_xaxis(move_name)
    11. #添加y轴数据
    12. Bar_obj.add_yaxis('电影时长数据(单位:分钟)',move_time)
    13. #设置标题
    14. Bar_obj.set_global_opts(title_opts={'text': '电影时长数据折线图可视化'})
    15. # 显示图表
    16. Bar_obj.render_notebook()

    效果:

    4ebb097fd6a84456a9f2512a34f4cf10.png

     

    八、统计每个国家电影上映的数量

    1. import jieba
    2. title_list=[]
    3. #遍历电影上映地这一列
    4. for name in data['电影上映地']:
    5. #进行精准分词
    6. lcut=jieba.lcut(name,cut_all=False)
    7. # print(lcut)
    8. for i in lcut :
    9. # print(i)
    10. #去除无意义的词
    11. #打开停用词表文件
    12. file_path=open('停用词表.txt',encoding='utf-8')
    13. #将读取的数据赋值给stop_words变量
    14. stop_words=file_path.read()
    15. #遍历后的值 如果没有在停用词表里面 则添加到net_data列表里面
    16. if i not in stop_words:
    17. title_list.append(i)
    18. # print(title_list)
    19. #计算词语出现的频率
    20. from nltk import FreqDist #该模块提供了计算频率分布的功能
    21. #FreqDist对象将计算net_data中每个单词的出现频率,,并将结果存储在freq_list中
    22. freq_list=FreqDist(title_list)
    23. print(freq_list) #结果:FreqDist 有1321个样本和5767个结果
    24. #该方法返回一个包含最常出现单词及其出现频率的列表。将该列表赋值给most_common_words变量。
    25. most_common_words=freq_list.most_common()
    26. print(most_common_words) #结果:('单人这个词',出现185次)
    27. #电影名 使用列表推导式来提取most_common_words中每个元素中的第一个元素,即出现次数,然后将它们存储在一个新的列表中
    28. map_data_title = [count[0] for count in most_common_words]
    29. print(map_data_title)
    30. #电影数
    31. map_data=[count[1] for count in most_common_words]
    32. print(map_data)

    效果:

    223284609b074173895d500e641637b3.png

     

    九、对每个国家电影上映数量饼图可视化

    1. #获取map_data_title的长度,决定循环次数,赋值给遍历i 在通过下标取值
    2. result = [[map_data_title[i], map_data[i]] for i in range(len(map_data_title))]
    3. print(result)
    4. # 创建Pie实例
    5. chart=Pie()
    6. #添加标题和数据 radius=['圆形空白处百分比','色块百分比(大小)'] 可不写
    7. chart.add('电影上映数饼图(单位:个)',result,radius=['50%','60%'])
    8. #显示
    9. chart.render_notebook()

    效果:

    04b17f4c7f0c49299ed9a142a0374ec8.png

     

    觉得有帮助的话,点个赞!

     

     

  • 相关阅读:
    powershell批量修改后缀名
    PAM从入门到精通(二十一)
    苹果cms大橙子vfed 5.0去授权完美破解主题模板
    Huggingface Transformers各类库介绍(Tokenizer、Pipeline)
    Java基础——了解进制和位运算
    超宽带uwb精准定位,厘米级室内定位技术,实时高精度方案应用
    多线程编程——基础语法篇
    C++知识精讲15 | 三类基于贪心思想的区间覆盖问题【配套资源详解】
    Grpc 通信模式
    【车载开发系列】CAN总线知识入门篇
  • 原文地址:https://blog.csdn.net/m0_63533079/article/details/132974575