• 【无代码爬虫】web scraper 之 采集多个内容


    前言

    此博客仅为我业余记录文章所用,发布到此,仅供网友阅读参考,如有侵权,请通知我,我会删掉。

    web scraper 是一个可以进行网页数据采集的工具 ,特别适合非编程人员使用,因为上手快,还不用编写代码。只需要通过鼠标点点点,即可完成数据采集。
    可能现在你还不需要数据采集,By the way,多学一门技术,总是没错的!

    多个内容

    本篇文章内容与上一篇 【无代码爬虫】web scraper 之 采集单个内容 大致相似,区别在采集多个内容时候需要新建一个 Element,再从Element里边去采集数据。而单个内容采集无需新建 Element就可以采集数据。

    这里主要分两步走:

    • 指定采集的网站(清楚你的定位)
    • 运用 web scraper 的规则进行数据采集

    指定网站

    这里使用我在CSDN的主页作为展示,https://blog.csdn.net/weixin_45081575?type=blog

    可以看到现在共有30篇文章,那接下来我要使用 web scraper 去采集该30篇文章的标题 和 简介(因为本文是采集多个内容
    在这里插入图片描述

    使用web scraper

    有了上篇文章的基础后,这次再来使用使用 web scraper 就简单多啦。

    这一大步中,分了几个小步,如下:

    • 新建 sitemap
    • 新建对象Element(需要注意是:采集多个内容一定要先添新建Element,再从Element里采集
      • 指定需要采集的数据
    • 点击 Scrape 开始采集
    • 点击 Export data 导出数据

    下面来逐一讲解。

    新建 sitemap

    看动图~

    在这里插入图片描述

    步骤如下:

    1. 在上面打开的 CSDN个人主页中,按下 键盘的F12 或者 鼠标右键 -> 检查,即打开开发者工具
    2. 先选择 web scraper,然后选择 Create Sitemap
    3. Sitemap name 的位置 输入csdn(可随意更改
    4. Start URL 输入需要采集的数据的网址
    5. 最后点击 Create Sitemap

    新建对象Element

    这一步是与上一篇文章最大的不同点。
    请添加图片描述

    个别参数

    选项释义
    Id选择器的名称
    Seletor指定需要采集的数据
    Multiple如果需要采集多条数据,就勾选它

    步骤如下:

    1. 先 点击Add new selector,即 添加选择器
    2. 填写 Id(随意写
    3. 选择需要采集的数据Element,需要注意的是:选择包裹着整个文章信息的框)。点击 Seletor -> Select,然后将鼠标移动到框选整个文章的位置并点击,再点击框选第二个文章的位置。选择大于等于2个文章框选之后,web scraper 会为我们匹配上整个页面中所有的文章框选。
    4. 点击 Selecting Done
    5. 勾选上 Multiple
    6. 点击 Save selector

    指定需要采集的数据

    到这一步,就开始指定需要采集的数据。先添加一个 采集文章 标题的。

    请添加图片描述

    再添加一个采集文章 简介的

    请添加图片描述

    步骤如下:

    1. 先 点击 前面 新建的 Element
    2. 层级跳转之后, 点击Add new selector,即 添加选择器
    3. 填写 Id
    4. 选择需要采集的数据,先点击 Seletor -> Select,然后将鼠标移动到文章标题或简介的位置并点击
    5. 点击 Selecting Done
    6. 这里不需要勾选上 Multiple
    7. 点击 Save selector

    点击 Scrape 开始采集

    请添加图片描述
    步骤如下:

    1. 点击 Sitemap csdn -> Scrape -> Start scraping,即可开始数据采集
    2. 点击 refresh,可以进行刷新,看数据采集是否成功

    点击 Export data 导出数据

    请添加图片描述

    步骤如下:

    1. 点击 Sitemap csdn -> Export data,即可导出数据
    2. 可选为 xlsxcsv 格式

    后话

    关于web scraper 的采集多个内容就到这里结束啦!下篇文章将 web scraper 采集对象属性
    有任何问题,请自行解决。

  • 相关阅读:
    FastDFS收藏起来,现在开始用Minio吧
    cudnn-windows-x86_64-8.6.0.163_cuda11-archive 下载
    05 【nodejs内置模块(上)】
    (附源码)springboot自习室座位预约系统 毕业设计 674156
    oracle21c安装报错【[INS-32014] 指定的 Oracle 基目录位置XXX无效】
    gdb调试C++程序:Cannot evaluate function -- may be inlined
    【空间&单细胞组学】第1期:单细胞结合空间转录组研究PDAC肿瘤微环境
    如何提高视频清晰度?视频调整清晰度操作方法
    深入解读GLIDE/PITI代码
    我的Windows10下的WSL的使用经历
  • 原文地址:https://blog.csdn.net/weixin_45081575/article/details/126214806