大家好,我自以为自学了一点爬虫就了不起了,没想到它给了我当头一棒。
403 (禁止) 服务器拒绝请求。
403状态码可以简单的理解为没有权限访问此站。该状态表示服务器理解了本次请求但是拒绝执行该任务.
这就是绝对多数网站的反爬机制。那我们简单了解一下。
一般网站从三个方面反爬虫:
1、从用户请求的Headers反爬虫。
2、基于用户行为反爬虫
3、动态页面的反爬虫
前两种比较容易遇到,大多数网站都从这些角度来反爬虫。第三种一些应用ajax的网站会采用,这样增大了爬取的难度,防止静态爬虫使用ajax技术动态加载页面。
京公网安备 11010502049817号