• 【无代码爬虫】web scraper 之 采集单个内容


    前言

    此博客仅为我业余记录文章所用,发布到此,仅供网友阅读参考,如有侵权,请通知我,我会删掉。

    web scraper 是一个可以进行网页数据采集的工具 ,特别适合非编程人员使用,因为上手快,还不用编写代码。只需要通过鼠标点点点,即可完成数据采集。
    可能现在你还不需要数据采集,By the way,多学一门技术,总是没错的!

    单个内容

    这里主要分两步走:

    1. 指定采集的网站(清楚你的定位)
    2. 运用 web scraper 的规则进行数据采集

    指定网站

    这里使用我在CSDN的主页作为展示,https://blog.csdn.net/weixin_45081575?type=blog

    可以看到现在共有30篇文章,那接下来我要使用 web scraper 去采集该30篇文章的标题。

    在这里插入图片描述
    ==注意==
    这里埋一个点,后面讲 采集多页 数据时候会填上它。
    注意看,CSDN个人主页的内容,默认是加载20条,往下滑会加载更多(如果有的话~)

    请添加图片描述

    使用 web scraper

    首次使用 web scraper 可能会觉得有一点丢丢复杂,但是没有关系,我们一起来操作。

    这一大步中,分了几个小步,如下:

    • 新建 sitemap
    • 指定需要采集的数据
    • 点击 Scrape 开始采集
    • 点击 Export data 导出数据

    下面来逐一讲解。

    新建 sitemap

    看动图~

    请添加图片描述

    步骤如下:

    1. 在上面打开的 CSDN个人主页中,按下 键盘的F12 或者 鼠标右键 -> 检查,即打开开发者工具
    2. 先选择 web scraper,然后选择 Create Sitemap
    3. Sitemap name 的位置 输入csdn(可随意更改
    4. Start URL 输入需要采集的数据的网址
    5. 最后点击 Create Sitemap

    指定需要采集的数据

    一切尽在动图中~

    请添加图片描述

    个别参数

    选项释义
    Id选择器的名称
    Seletor指定需要采集的数据
    Multiple如果需要采集多条数据,就勾选它

    步骤如下:

    1. 先 点击Add new selector,即 添加选择器
    2. 填写 Id
    3. 选择需要采集的数据,先点击 Seletor -> Select,然后将鼠标移动到文章标题的位置并点击,再点击第二个文章标题。选择大于等于2个文章标题之后,web scraper 会为我们匹配上整个页面中所有的文章标题。
    4. 点击 Selecting Done
    5. 勾选上 Multiple
    6. 点击 Save selector

    也可以验证一下匹配是否成功,看下图
    点击 Element Preview,可以看到,左下角提示 选定的元素的数量为30,刚好和文章的数量对应上。
    而页面中的文章的标题,也全部标红了,即说明全部都匹配上了。

    请添加图片描述

    开始采集

    到了这里,就可以进行数据采集了

    请添加图片描述
    步骤如下:

    1. 点击 Sitemap csdn -> Scrape -> Start scraping,即可开始数据采集
    2. 点击 refresh,可以进行刷新,看数据采集是否成功

    导出数据

    请添加图片描述

    步骤如下:

    1. 点击 Sitemap csdn -> Export data,即可导出数据
    2. 可选为 xlsxcsv 格式

    后话

    关于web scraper 的采集单个内容就到这里结束啦!下篇文章将 web scraper 采集多个内容
    有任何问题,请自行解决。

  • 相关阅读:
    具有柔性结构的孤岛直流微电网的分级控制(Malab代码实现)
    Spring Cloud Alibaba 学习笔记
    【紫光同创国产FPGA教程】——【PGL22G第七章】串口收发实验例程
    基于深度学习的缺陷检测有哪些应用场景
    zabbix基础环境部署
    JavaScript基本概念
    2024年MathorCup数学建模思路D题思路分享
    深度解析字节跳动开源数据集成引擎 BitSail
    聚焦AIGC落地,八仙过海,谁更神通?
    深度学习七 —— BN & LN & IN & GN
  • 原文地址:https://blog.csdn.net/weixin_45081575/article/details/126201944