• 【Python爬虫】批量爬取豆瓣电影排行Top250


            今天给大家分享下我刚开始接触Python时学习的爬虫程序,代码部分很简单,不过当时刚开始学习时还是走了不少弯路的。这个爬虫程序应该是很多书里面的入门练手程序,主要就是去豆瓣爬取电影评分排行前250。

            本篇文章只做学习交流使用,不涉及任何商业用途。如果有侵权请联系作者删除。大家在使用Python爬取信息时,请遵守该网站的相关守则和法律规定!!!

    一、导入所需的库

    1. import requests
    2. import time
    3. from bs4 import BeautifulSoup
    4. # 导入requests,BeautifulSoup模块

    二、完整代码

            由于代码过于简单,我这里就不分步去讲解了。如果大家对Python爬虫有兴趣可以自己去找一下资料或视频去学习。

    1. # -*- coding: utf-8 -*-
    2. """
    3. @Time : 2023/4/12 17:03
    4. @Auth : RS迷途小书童
    5. @File :短信轰炸.py
    6. @IDE :PyCharm
    7. """
    8. import requests
    9. import time
    10. from bs4 import BeautifulSoup
    11. # 导入requests,BeautifulSoup模块
    12. headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:68.0) Gecko/20100101 Firefox/68.0',
    13. 'Host': 'movie.douban.com'} # window10,火狐点击F12中的网络性能获取
    14. print("\n")
    15. for i in range(0, 10):
    16. # 爬取前10页电影列表
    17. url = 'https://movie.douban.com/top250?start='+str(i*25)
    18. # 实现翻页功能
    19. request = requests.get(url, headers=headers, timeout=10) # timeout实现网页未返回值的情况
    20. soup = BeautifulSoup(request.text, "html.parser") # 转换成BeautifulSoup类型
    21. title_lists = soup.find_all("div", class_="hd") # 一页电影所有名字的代码(find_all输出的是列表)
    22. # print(title_lists)
    23. # div,class为标题的网页代码
    24. print('正在获取第%s页......' % (i+1))
    25. print("\n")
    26. for x in range(0, 25): # 解析一页电影的名字,一页中有25个电影。(或者使用for title in range(len(title_list)))
    27. time.sleep(1)
    28. title_list = title_lists[x].a.text # 解析find_all的列表数据,a表示标签中的文字输出

    三、总结

            一般在我们需要爬取网页时,第一件事就是去找到自己需要的信息对应网站的哪个标签以及网页的请求方式。然后就是爬虫的固定格式,请求头、解析啥的。上面的代码其实就很简单,不同的页码只是网址的最后发生了变化,所以套个循环就能用,而且我们需要的信息也只要通过F12就能直接查到。但有些网页可能会复杂一点,不能直接找到我们需要的信息或者需要验证什么的。这个大家就需要深入去学习一下爬虫的知识了,如反爬机制、多线程等。我平时用爬虫比较少,所以就不说太多了,以免误人子弟。

  • 相关阅读:
    Shiro的学习之Shiro的配置(一)
    在Ubuntu20.04中安装中文输入法
    2020下半年软件设计师上午题错题总结
    【Python数据科学快速入门系列 | 07】Matplotlib数据可视化基础入门(二)
    【Linux】ps -ef 和ps aux 有什么不同呢?
    GFD563A102 3BHE046836R0102 只读存储器本质上是非易失性的
    2022年京东NLP实习面试题7道
    什么灯适合学生在暑假使用?照度国AA级的舒适护眼灯
    sublime删除特定内容所在行
    RPA学习天地:企业级RPA设计器核心功能要包括哪些?
  • 原文地址:https://blog.csdn.net/m0_56729804/article/details/133167998