1.初识爬虫

爬虫是批量模拟网络请求的程序，想百度谷歌这种搜索类网站本质上就是爬虫

使用爬虫的时候不应该对别人的网站有严重的影响，比如你爬的频率太高了，让人家的网站崩溃了。不应该爬取网页上显示不到的内容，比如有一个直播的网站，人家显示的是热度值而不是具体人数，热度值是根据具体人数计算出来的，但是具体人数人家没展示在网页上，这个时候你不应该爬具体人数

1 爬虫的分类

2 反爬机制与反反爬策略

3 robots.txt

4 加密方式

1 爬虫的分类

爬虫分为下面三类

通用爬虫：搜索引擎（百度谷歌这种）抓取系统的主要组成部分，通用爬虫抓取一整张页面的数据
聚焦爬虫：基于通用爬虫抓取整张页面数据后提取页面中特定的局部内容
增量式爬虫：检测网站中数据更新的情况，只抓取增量内容（新更新的数据）

2 反爬机制与反反爬策略

反爬机制：被爬的网站设置不让你爬的一些规则。比如被爬的网站就可以设置同一个mac码一秒中的访问数量不能超过两次

反反爬策略：想爬取网站的人规避反爬机制的策略。比如被爬的网站设置了同一个mac码访问频率，你就可以多搞几个mac码去访问，从而得到数据

爬虫是一门对抗类的技术，你想爬但没爬到你就输了，你想不让别人爬但是别人爬到了那你就输了。这种对抗类的技术如果你想成功率高的话需要投入很多，所以面对某一些反爬机制强的网站，及时的放弃不一定是坏事

3 robots.txt

网站被爬不全是坏事，网站被爬可以带来流量。但我们又不希望网站无限制被爬，这个时候就产生了robots.txt协议，robots.txt协议由被爬的网站注明，其中会写明网站哪些东西可以被爬，哪些东西不可以被爬。robots.txt中的内容对于代码没有任何约束，只是给人看的，你如果爬了robots.txt中的禁止爬取的内容人家可能会去法院告你

我们可以在网站的域名后加上 /robots.txt 来查看当前网站的robots.txt协议。比如百度，这里面就告诉你哪个路由你不能动

再比如淘宝，他的robots.txt就是百度不准爬跟路径，剩下的都能爬。如果你不是百度，那你根路径也能爬

4 加密方式

对称密钥加密：客户端或服务端把密钥与信息一起发到对方（客户端发给服务端，服务端发给客户端），然后由服务端解密。如果发送的过程中信息被捕获了，那么加密信息与密钥都会暴露，相当于信息泄露了

非对称密钥加密：A是客户端，B是服务端，总的来讲就是就是客户端与服务端都加密。如果发送的过程中信息被捕获了，信息不会泄露。客户端的的加密方式叫私钥，服务端的加密方式叫公钥

非对称密钥中没有私钥的传递

非对称密钥加密的缺点是，如果在步骤2 被捕获了，也就是公钥暴露了，第三方就可以篡改公钥，导致客户端收到的响应不对。而且非对称加密的效率很低

证书密钥加密：在对称加密的基础上对步骤2 进行了改进，客户端先把密码发送给证书认证机构，然后证书认证机构给公钥签名做防伪（签名后的公钥叫做证书），之后把证书发给服务端

证书密钥加密是https的加密方式

相关阅读:
Java的指针、引用与C++的指针、引用的对比
【os.path】的相关用法（持更）
一篇文章搞懂约数——试除法求约数、约数个数、约数之和
MySQL 事务与InnoDB的MVCC实现机制
重启React Native老项目的奇幻之旅：填坑实录与解决方案分享
linux 安装部署nginx
如何选择合适的自动化测试工具？
IO流：java中解码和编码出现乱码说明及代码实现
提升数据安全的五大原则
北理工嵩天Python语言程序设计笔记（2 Python基本语法元素）

原文地址：https://blog.csdn.net/potato123232/article/details/132687497