【无代码爬虫】web scraper 之采集多个内容

【无代码爬虫】web scraper 之采集多个内容
前言

此博客仅为我业余记录文章所用，发布到此，仅供网友阅读参考，如有侵权，请通知我，我会删掉。

web scraper 是一个可以进行网页数据采集的工具，特别适合非编程人员使用，因为上手快，还不用编写代码。只需要通过鼠标点点点，即可完成数据采集。
可能现在你还不需要数据采集，By the way，多学一门技术，总是没错的！

多个内容

本篇文章内容与上一篇【无代码爬虫】web scraper 之采集单个内容大致相似，区别在采集多个内容时候需要新建一个 Element，再从Element里边去采集数据。而单个内容采集无需新建 Element就可以采集数据。

这里主要分两步走：
- 指定采集的网站（清楚你的定位）
- 运用 web scraper 的规则进行数据采集
指定网站

这里使用我在CSDN的主页作为展示，https://blog.csdn.net/weixin_45081575?type=blog

可以看到现在共有30篇文章，那接下来我要使用 web scraper 去采集该30篇文章的标题和简介（因为本文是采集多个内容

 使用web scraper

有了上篇文章的基础后，这次再来使用使用 web scraper 就简单多啦。

这一大步中，分了几个小步，如下：
- 新建 sitemap
- 新建对象Element（需要注意是：采集多个内容一定要先添新建Element，再从Element里采集
- - 指定需要采集的数据
- 点击 Scrape 开始采集
- 点击 Export data 导出数据
下面来逐一讲解。

新建 sitemap

看动图~

步骤如下：
1. 在上面打开的 CSDN个人主页中，按下键盘的F12 或者 鼠标右键 -> 检查，即打开开发者工具
2. 先选择 web scraper，然后选择 Create Sitemap
3. 在 Sitemap name 的位置输入csdn（可随意更改
4. 在 Start URL 输入需要采集的数据的网址
5. 最后点击 Create Sitemap
新建对象Element

这一步是与上一篇文章最大的不同点。

个别参数

选项释义
Id 选择器的名称
Seletor 指定需要采集的数据
Multiple 如果需要采集多条数据，就勾选它

步骤如下：
1. 先点击Add new selector，即 添加选择器
2. 填写 Id（随意写
3. 选择需要采集的数据Element，需要注意的是：选择包裹着整个文章信息的框）。点击 Seletor -> Select，然后将鼠标移动到框选整个文章的位置并点击，再点击框选第二个文章的位置。选择大于等于2个文章框选之后，web scraper 会为我们匹配上整个页面中所有的文章框选。
4. 点击 Selecting Done
5. 勾选上 Multiple 了
6. 点击 Save selector
指定需要采集的数据

到这一步，就开始指定需要采集的数据。先添加一个采集文章标题的。

再添加一个采集文章简介的

步骤如下：
1. 先点击前面新建的 Element，
2. 层级跳转之后，点击Add new selector，即 添加选择器
3. 填写 Id
4. 选择需要采集的数据，先点击 Seletor -> Select，然后将鼠标移动到文章标题或简介的位置并点击
5. 点击 Selecting Done
6. 这里不需要勾选上 Multiple
7. 点击 Save selector
点击 Scrape 开始采集

步骤如下：
1. 点击 Sitemap csdn -> Scrape -> Start scraping，即可开始数据采集
2. 点击 refresh，可以进行刷新，看数据采集是否成功
点击 Export data 导出数据

步骤如下：
1. 点击 Sitemap csdn -> Export data，即可导出数据
2. 可选为 xlsx 和 csv 格式
后话

关于web scraper 的采集多个内容就到这里结束啦！下篇文章将 web scraper 采集对象属性。
有任何问题，请自行解决。
相关阅读:
FastDFS收藏起来，现在开始用Minio吧
 cudnn-windows-x86_64-8.6.0.163_cuda11-archive 下载
 05 【nodejs内置模块（上）】
（附源码）springboot自习室座位预约系统毕业设计 674156
oracle21c安装报错【[INS-32014] 指定的 Oracle 基目录位置XXX无效】
gdb调试C++程序：Cannot evaluate function -- may be inlined
【空间&单细胞组学】第1期：单细胞结合空间转录组研究PDAC肿瘤微环境
 如何提高视频清晰度？视频调整清晰度操作方法
 深入解读GLIDE/PITI代码
 我的Windows10下的WSL的使用经历
原文地址：https://blog.csdn.net/weixin_45081575/article/details/126214806

选项	释义
Id	选择器的名称
Seletor	指定需要采集的数据
Multiple	如果需要采集多条数据，就勾选它

【无代码爬虫】web scraper 之 采集多个内容

前言

多个内容

指定网站

使用web scraper

新建 sitemap

新建对象Element

指定需要采集的数据

点击 Scrape 开始采集

点击 Export data 导出数据

后话