• 一文图解爬虫_姊妹篇(spider)


    —引导语

    爬虫,没有一个时代比当前更重视它。一个好的爬虫似乎可以洞穿整个互联网,“来装满自己的胃”。

    接上一篇:一文图解爬虫(spider)
    博主已初步对爬虫的“五脏六腑”进行了解剖。虽然俗称“爬虫”,但窃以为它是一个伟大的发明。在这个数据浪潮的时代,科技、消费、金融、社交、乃至政府、组织类数据,层峦叠嶂,五彩缤纷。那如何拿下这一座座傲然屹立而又路况复杂的数据之峰呢?
    在这里插入图片描述
    好了,我们正式进入本篇主题。


    武器库

    话说天下武功,唯快不破;又说磨刀不误砍柴工。那么,是否有些得心应手的武器可以用呢?
    OF COURSE

    • scrapy
    • webmagic
    • spiderflow

    以上凡此种种,皆可为你所用。Java、Python只有语言的差异,没有本质的变化。各位盆友可自由选择。为了更好的解释,博主选择采用spiderflow设计爬虫。
    什么?不了解spiderflow?好吧,官网目前疑似被黑,千万别打开。且听博主细细分解。
    这里是源码下载地址spiderflow

    组合拳

    博主以开源中国为例,进行数据抓取
    在这里插入图片描述

    1. 选择种子URL

    种子即首次抓取的URL:
    https://www.oschina.net/blog/widgets/_blog_recommend_list

    2.定义request

    即请求的header和body。
    在这里插入图片描述

    3.定义response

    即请求返回的内容。
    在这里插入图片描述

    4.数据parse

    即基于response的数据提取。
    在这里插入图片描述

    5.存储

    即数据保存。
    在这里插入图片描述

    6.预览效果

    在这里插入图片描述


    结语

    怎么样?通过以上一整套“组合拳”,是不是对爬虫有了更深刻的理解和印象?
    那么接下来,看你的了!
    如有疑问或不解的地方,可随时关注或留言,博主有时间会尽力答复。

  • 相关阅读:
    ESP-IDF-V5.1.1使用websocket
    js---类
    TCP套接字编程
    android kotlin Dimension
    19.vue渲染系统的实现
    Jetpack:016-Jetpack中的SanckBar
    Elasticsearch基础篇(四):Elasticsearch7.x的官方文档学习(Set up Elasticsearch)
    Maven项目的目录结构
    TensorFlow入门(十七、神经元的拟合原理)
    格林公式挖洞法中内曲线顺时针的直观解释
  • 原文地址:https://blog.csdn.net/splendid_java/article/details/134379354