此博客仅为我业余记录文章所用,发布到此,仅供网友阅读参考,如有侵权,请通知我,我会删掉。
web scraper 是一个可以进行网页数据采集的工具 ,特别适合非编程人员使用,因为上手快,还不用编写代码。只需要通过鼠标点点点,即可完成数据采集。
可能现在你还不需要数据采集,By the way,多学一门技术,总是没错的!
这里主要分两步走:
这里使用我在CSDN的主页作为展示,https://blog.csdn.net/weixin_45081575?type=blog
可以看到现在共有30篇文章,那接下来我要使用 web scraper 去采集该30篇文章的标题。

==注意==
这里埋一个点,后面讲 采集多页 数据时候会填上它。
注意看,CSDN个人主页的内容,默认是加载20条,往下滑会加载更多(如果有的话~)

首次使用 web scraper 可能会觉得有一点丢丢复杂,但是没有关系,我们一起来操作。
这一大步中,分了几个小步,如下:
下面来逐一讲解。
看动图~

步骤如下:
F12 或者 鼠标右键 -> 检查,即打开开发者工具web scraper,然后选择 Create SitemapSitemap name 的位置 输入csdn(可随意更改Start URL 输入需要采集的数据的网址Create Sitemap一切尽在动图中~

个别参数
| 选项 | 释义 |
|---|---|
| Id | 选择器的名称 |
| Seletor | 指定需要采集的数据 |
| Multiple | 如果需要采集多条数据,就勾选它 |
步骤如下:
Add new selector,即 添加选择器IdSeletor -> Select,然后将鼠标移动到文章标题的位置并点击,再点击第二个文章标题。选择大于等于2个文章标题之后,web scraper 会为我们匹配上整个页面中所有的文章标题。Selecting DoneMultiple 了Save selector也可以验证一下匹配是否成功,看下图
点击 Element Preview,可以看到,左下角提示 选定的元素的数量为30,刚好和文章的数量对应上。
而页面中的文章的标题,也全部标红了,即说明全部都匹配上了。

到了这里,就可以进行数据采集了

步骤如下:
Sitemap csdn -> Scrape -> Start scraping,即可开始数据采集refresh,可以进行刷新,看数据采集是否成功
步骤如下:
Sitemap csdn -> Export data,即可导出数据xlsx 和 csv 格式关于web scraper 的采集单个内容就到这里结束啦!下篇文章将 web scraper 采集多个内容。
有任何问题,请自行解决。