写程序的时候,别人写好的工具、库、框架被称作轮子。有现成的,写好的东西不用,自己又去写一遍,这叫做重复造轮子。今天来认识爬虫的常见轮子Scrapsdy。
我们在学习Scrapy的时候要先做好准备工作,安装相关库文件。
Scrapy安装前需要先安装依赖包,不然会因缺少依赖包导致安装失败,如下表
| lxml | parsel | w3lib | twisted | cryptography | pyOenSSL |
| 解析XML和HTML非常高校的工具 | HTML.XML数据提取 | 网页解码 | 异步网络编程框架 | 用于加密 | 进行一些加解密操作 |
这些包可以通过pip单独安装。也可以先创建一个requirements.txt文件,然后把包名写入并保存即可
lxml
parsel
w3lib
twisted
crptography
pyOpenSSL
然后终端输入
pip install -r requirements.txt
什么是scrapy框架?
Scrapy是python开发的一个快速、高层次、轻量级的屏幕抓取和web抓取的python爬虫框架,主要用于抓取特定web站点的信息并从中提取特定结构的数据。