码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Python爬虫:为什么你爬取不到网页数据


    前言:

    之前小编写了一篇关于爬虫为什么爬取不到数据文章(文章链接为:Python爬虫经常爬不到数据,或许你可以看一下小编的这篇文章), 但是当时小编也是胡乱编写的,其实里面有很多问题的,现在小编重新发布一篇关于爬虫爬取不到数据文章,希望各位读者更加了解爬虫。

    1. 最基础的爬虫#

    通常编写爬虫代码,使用如下三行代码就可以实现一个网页的基本访问了。

    Copy
    from urllib import request rsp = request.urlopen(url='某某网站') print(rsp.read().decode('编码'))

    或者

    Copy
    import requests rsp = requests.get(url='某某网站') print(rsp.text)

    但是,有的网站你使用上述方式访问时,有可能出现一下情况:

    1. 直接报错;
    2. 没有报错,但是给出相应的响应码,如403;
    3. 没有报错,但是输出信息没有在浏览器上看到的那么多(这有可能是网页使用了动态加载的原因)。

    2. 添加请求头的爬虫#

    上述讲到的三种情况,怎样解决呢?基本方式是添加一个请求头(请求头的字段通常只需添加user-agent字段即可,用来模拟浏览器访问;然而有的网站用Python爬虫来访问时,可能还要添加其他字段,最好是把这个网页所有请求头字段信息全部添加上;有的网页全部请求头字段信息全部添加上,然而也访问不到数据,这种情况小编也没有什么好的解决办法,不知道使用selenium模块直接操控浏览器是否可以,没有试过)。

    1.如用urllib模块来访问bilibili网站时会报错,如下:

    但是添加请求头之后,就可以正常访问了。

    参考代码如下:

    Copy
    from urllib import request url = 'https://www.bilibili.com/' headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3877.400 QQBrowser/10.8.4507.400' } req = request.Request(url=url,headers=headers) rsp = request.urlopen(req) print(rsp.read().decode('utf-8'))

    2.如用urllib模块来访问百度网站时会出现如下情况:

    很显然,这个网页不可能就这么点代码标签,添加一个请求头之后,如下:

    3. 动态网页加载的数据#

    提到动态网页,读者首先可以去看看小编的这篇文章:Python爬虫:什么是静态网页(数据),什么是动态网页(数据)、Python爬虫:爬取动态网页数据“你”需要知道的事,小编学习过后端知识,大体知道为什么用上述方式访问不到相应的数据。why(大概是这样吧!也有可能讲的不对,希望读者指正[如果有错误的话],一般而言,我们用爬虫爬取得到的数据是当前网页已经完全加载的,然而动态网页使用了ajax技术,而执行者一段ajax代码好像是网页完全加载之后才执行的,因此你用爬虫爬取不到那部分数据。)
    此时,你有两种解决方式:

    1. 找到这个ajax的相关网页链接,访问这个链接,从而得到相关数据;
    2. 直接使用selenium这个模块,操作浏览器访问。

    如果读者使用第1种解决方式,有可能你访问的那个链接一些参数是加密的,这时你需要利用js断点(使用谷歌浏览器),找到那段加密参数加密之前的数据信息和相关的一些js加密函数,找到加密之前的数据信息的组合规则。关于js加密函数,如果简单的话,直接用Python模拟出加密效果即可;如果复杂的话,最好使用execjs或者其他Python模块下的一些方法去执行这些js加密函数。
    上述关于使用第1种解决方式,小编过去做过的有Python爬虫爬取酷狗音乐、网易云音乐、斗鱼视频等。

    1. Python爬虫:通过js逆向我发现了斗鱼视频请求参数的加密原理
    2. Python爬虫:通过做项目,小编了解了酷狗音乐的加密过程
    3. python爬虫:了解JS加密爬取网易云音乐
    4. Python反爬:利用js逆向和woff文件爬取猫眼电影评分信息

    4. 总结#

    有的读者也许会问,如果我ip封掉了,怎样爬取网页数据,其实,使用相关ip代理即可,IP代理文章链接为:Python爬虫:制作一个属于自己的IP代理模块2、Python爬虫:运用多线程、IP代理模块爬取百度图片上小姐姐的图片。另外,还有一些高大上的反爬措施,小编并不是很了解,就不在这一一赘述了,如果未来小编真的了解到了,到时候再在本文章后加上吧!

  • 相关阅读:
    论信息系统项目的沟通管理
    SpringMVC 解析(三) Controller 注解
    一文带你走进JS语法(最全笔记)
    皓量科技入选《中国数字营销生态图2022版》4大赛道!
    十年架构师带来的Spring源码解析,极度深寒,程序员修炼内功必备
    人工智能前沿——AI技术在医疗领域的应用(二)
    vscode launch.json
    [附源码]java毕业设计网上报销管理系统
    MySQL实战优化高手08 生产经验:在数据库的压测过程中,如何360度无死角观察机器性能?
    谷歌研究员被群嘲:研究员爆料AI有意识,被勒令休假
  • 原文地址:https://www.cnblogs.com/liuze-2/p/16570884.html
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号