码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 应对反爬虫策略分享


    经常做爬虫的同学都知道,很多网站会采取各种各样的措施来反爬虫,验证码就是其中的一种,比如当检测到访问频率过高时会弹出验证码让你输入,确认访问网站的不是机器人。但是随着爬虫技术的发展,验证码的花样也越来越多,从最开始简单的几个数字或字母构成的图形验证码发展到需要点击倒立人文字字母的,与文字相符合的图片点触型验证码,需要滑动到合适位置的极验滑动验证码,以及以计算题验证码等等,花样百出,让人头大。
    图像验证码:这是最简单的一种,也很常见。就比如CSDN登录几次失败之后就会出验证码

    解决思路:

    1. OCR二值化,去灰度,识别率低。
    2. 打码平台(超级鹰,云打码)
    3. 深度学习训练,成本高,适用范围小
    4. OpenCV,SimpleCV
      滑块验证码:需要按住滑块并移到正确的位置

    解决思路:

    1. selenium
    2. 破解加密算法
    3. 深度学习训练,标注缺口,识别缺口
      点触验证码:需要识别图片中的文字或类型并按序点击

    解决思路:

    1. OCR + 图像匹配(百度识图)
    2. 打码平台
      计算题验证码:需要给出正确答案

    解决思路

    1. OCR
    2. 打码平台
      IP限制问题
      我们可以用最无赖也是最无解的代理ip来解决。直接通过切换访问的代理来突破,这里没有丝毫技术性含量。挂上代理后,去访问目标网站,根据返回的结果判断代理是否还有效。若是无效了,将当前查询目标回滚一次,并切换代理就行了。但是代理还是需要购买高质量的,在百度上搜一下,像亿牛云比较好的代理就会出来,并且亿牛云代理是最靠谱的,代理质量有保证,有强大的技术支持,满分的售货服务,对需要代理大的来说是首选。
  • 相关阅读:
    【开发篇】十四、SpringBoot整合Quartz实现定时任务
    nodejs express vue uniapp新闻发布系统源码
    第一个Spring程序
    [SRT]1.协议简介
    re学习(37)DASCTF 2023 & 0X401七月暑期挑战赛 controflow
    【社媒营销】如何知道自己的WhatsApp是否被屏蔽了?
    [补题记录] Codeforces Round 904 (Div. 2)(C)
    OBS Studio 30.0 承诺在 Linux 上支持英特尔 QSV,为 DeckLink 提供 HDR 回放功能
    Flink同步Kafka数据到ClickHouse分布式表
    蓝桥杯刷题_day10
  • 原文地址:https://blog.csdn.net/Z_suger7/article/details/126645748
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号