• java爬虫破解滑块验证码


    使用技术:java+Selenium

    废话:

            有爬虫,自然就有反爬虫,就像病毒和杀毒软件一样,有攻就有防,两者彼此推进发展。而目前最流行的反爬技术验证码,为了防止爬虫自动注册,批量生成垃圾账号,几乎所有网站的注册页面都会用到验证码技术。其实验证码的英文为 CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart),翻译成中文就是全自动区分计算机和人类的公开图灵测试,它是一种可以区分用户是计算机还是人的测试,只要能通过 CAPTCHA 测试,该用户就可以被认为是人类。由此也可知道破解滑块验证码的关键即是让计算机更好的模拟人的行为


    破解无缺口滑块

    无缺口滑块如下图:

     

     滑块代码:

    1. "utf-8">
    2. "Cache-Control" content="no-cache, no-store, must-revalidate">
    3. "Pragma" content="no-cache">
    4. "Expires" content="0">
    5. "X-UA-Compatible" content="IE-Edge,chrome=1">
    6. "viewport" content="width=device-width,initial-scale=1,maximum-scale=1,minimum-scale=1,user-scalable=no">
    7. "yes" name="apple-mobile-web-app-capable">
    8. "black" name="apple-mobile-web-app-status-bar-style">
    9. "telephone=no" name="format-detection">
    10. "email=no" name="format-detection">
    11. 拖动滑块验证
    12. "description" content="">
    13. "keywords" content="">
    14. "stylesheet" type="text/css" href="">
    15. "wrap">
    16. "slider">
    17. "drag_bg">
    18. "drag_text" onselectstart="return false;" unselectable="on">拖动滑块验证
    19. "handler handler_bg">
  • 分析

    1.查看滑块按钮大小

     2.查看滑块大小

     从上面2张图得出拖动距离为(300-40)px

    爬虫代码

    1. public static void main(String[] args) throws Exception {
    2. System.setProperty("webdriver.chrome.driver","D:\\demo\\selenumDemo\\src\\main\\resources\\chromedriver.exe");
    3. WebDriver driver = new ChromeDriver();
    4. try {
    5. driver.get("file:///C:/Users/Administrator/Desktop/index.html");
    6. WebElement Slider = driver.findElement(By.cssSelector(".handler.handler_bg"));// 拿到滑块按钮
    7. Thread.sleep(2000L);
    8. // 实例化鼠标操作对象Actions
    9. Actions action = new Actions(driver);
    10. action.dragAndDropBy(Slider,260,0).perform();// 移动一定位置
    11. Thread.sleep(5000L);
    12. } catch (InterruptedException e) {
    13. e.printStackTrace();
    14. }finally{
    15. // driver.close();// 关闭页面
    16. driver.quit();// 释放资源
    17. }
    18. }

    注意:有的网站拖完后可能验证成功,有的可能失败,失败的童鞋也不要慌张,因为被网站检测出你用的是爬虫操作的,我有妙计!接着往下看!

    先分分析一波!1.使用驱动打开浏览器

    1. public static void openChrome(){
    2. System.setProperty("webdriver.chrome.driver","D:\\demo\\selenumDemo\\src\\main\\resources\\chromedriver.exe");
    3. // 1.打开Chrome浏览器
    4. chromeDriver = new ChromeDriver();
    5. chromeDriver.get("url...");
    6. }

    2.然后 f12打开console控制台输入:window.navigator.webdriver

     发现值是true,但是我们正常手动打开浏览器他却是false或者undefined,如下图

     

    所以得出结论网站通过代码获取这个参数,返回值undefined或者false是正常浏览器,返回true说明用的是Selenium模拟浏览器,所以解决还是要从驱动浏览器解决,在启动Chromedriver之前,来隐藏它

    1. public static void openChrome(){
    2. // 隐藏 window.navigator.webdriver
    3. ChromeOptions option = new ChromeOptions();
    4. option.setExperimentalOption("useAutomationExtension", false);
    5. option.setExperimentalOption("excludeSwitches", Lists.newArrayList("enable-automation"));
    6. option.addArguments("--disable-blink-features=AutomationControlled");//主要是这句是关键
    7. System.setProperty("webdriver.chrome.driver","D:\\demo\\selenumDemo\\src\\main\\resources\\chromedriver.exe");
    8. // 1.打开Chrome浏览器
    9. chromeDriver = new ChromeDriver(option);
    10. chromeDriver.get("URL...");
    11. }

    然后再次启动查看就变成了false


    破解缺口滑块

    缺口滑块如下图:

     分析

    我拿某网站的滑块源代码来分析,如下图可以看出缺口滑块图是由canvas绘制的。

     1.我们要做的是找到缺口的X坐标,所以需要拿到完整图片和缺口图片进行计算,但是我们只能看见一张缺口图片,但是我们只要在canvas的css加一行代码style="display:none"

     然后再看就出现了没有拼图阻挡的缺口图

     

     2.然后在下面的canvas 修改style="display:block"就可以看到完整图片如下下图

    然后再看发现看到了完整的图

     

     3.然后使用selenium的截图方法,把原图和缺口图保存下来,然后再拿着像素对比可以算出按钮位置与缺口X坐标


    爬虫代码

    1. public class ElementLocate {
    2. private static ChromeDriver chromeDriver;
    3. public static void main(String[] args) throws InterruptedException, IOException {
    4. openChrome();// 打开浏览器等操作
    5. try {
    6. chromeDriver.manage().window().maximize();// 浏览器最大化
    7. // 等待滑块加载完毕
    8. new WebDriverWait(chromeDriver, 5)
    9. .until(ExpectedConditions.visibilityOfElementLocated(By.xpath("//div[@aria-label='点击按钮进行验证']")));
    10. // 点开滑块
    11. chromeDriver.findElementByXPath("//div[@aria-label='点击按钮进行验证']").click();// 点开验证框
    12. operateSlider();// 操作滑块
    13. } finally {
    14. chromeDriver.quit();//测试完要停止 不然卡成球
    15. }
    16. }
    17. private static void openChrome() {
    18. // 配置浏览器
    19. ChromeOptions option = new ChromeOptions();
    20. option.setExperimentalOption("useAutomationExtension", false);
    21. option.setExperimentalOption("excludeSwitches", Lists.newArrayList("enable-automation"));
    22. option.addArguments("--disable-blink-features=AutomationControlled");//主要是这句是关键,防止网站js检测出爬虫
    23. // set浏览器驱动
    24. System.setProperty("webdriver.chrome.driver", "D:\\demo\\selenumDemo\\src\\main\\resources\\chromedriver.exe");
    25. // 打开Chrome浏览器
    26. chromeDriver = new ChromeDriver(option);
    27. // 访问百度
    28. chromeDriver.get("https://account.zbj.com/login?lgtype=1&waytype=603&fromurl=https%3A%2F%2Fxiamen.zbj.com%2F");
    29. }
    30. // 操作元素属性
    31. private static void setAttribute(WebDriver driver, WebElement element, String attributeName, String value) {
    32. JavascriptExecutor js = (JavascriptExecutor) driver;
    33. js.executeScript("arguments[0].setAttribute('" + attributeName + "', '" + value + "')", element);
    34. }
    35. //删除元素属性
    36. private void removeAttribute(WebDriver driver, WebElement element, String attributeName) {
    37. JavascriptExecutor js = (JavascriptExecutor) driver;
    38. js.executeScript("argument[0].removeAttribute(argumentp[1]),argument[2]", element, attributeName);
    39. }
    40. // 截图
    41. private static File captureElement(File screenshot, WebElement element) {
    42. try {
    43. BufferedImage img = ImageIO.read(screenshot);
    44. int width = element.getSize().getWidth();
    45. int height = element.getSize().getHeight();
    46. //获取指定元素的坐标
    47. Point point = element.getLocation();
    48. //从元素左上角坐标开始,按照元素的高宽对img进行裁剪为符合需要的图片
    49. BufferedImage dest = img.getSubimage(point.getX(), point.getY(), width, height);
    50. ImageIO.write(dest, "png", screenshot);
    51. } catch (IOException e) {
    52. e.printStackTrace();
    53. }
    54. return screenshot;
    55. }
    56. // 操作滑块
    57. private static void operateSlider() throws InterruptedException, IOException {
    58. Thread.sleep(1000);// 重复获取元素必须sleep,否则会报错!
    59. //修改元素属性,显示缺口滑块图,这里需要等图片加载出来,如果网络慢没加载出来会报错
    60. WebElement que1 = chromeDriver.findElementByXPath("//div[@class='geetest_slicebg geetest_absolute']/canvas[@class='geetest_canvas_slice geetest_absolute']");
    61. setAttribute(chromeDriver, que1, "style", "display:none");
    62. // 截图滑块缺口图片
    63. WebElement quekou = chromeDriver.findElementByXPath("//canvas[@class='geetest_canvas_bg geetest_absolute']");
    64. File src = chromeDriver.getScreenshotAs(OutputType.FILE);
    65. FileUtils.copyFile(src, new File("D:\\result.png"));
    66. FileUtils.copyFile(captureElement(src, quekou), new File("D:\\test.png"));
    67. // 修改元素属性,显示完整滑块图
    68. WebElement que2 = chromeDriver.findElementByXPath("//canvas[@class='geetest_canvas_fullbg geetest_fade geetest_absolute']");
    69. setAttribute(chromeDriver, que2, "style", "display:block");
    70. // 截图滑块完整图
    71. WebElement wanzheng = chromeDriver.findElementByXPath("//canvas[@class='geetest_canvas_bg geetest_absolute']");
    72. File src2 = chromeDriver.getScreenshotAs(OutputType.FILE);
    73. FileUtils.copyFile(src2, new File("D:\\result1.png"));
    74. FileUtils.copyFile(captureElement(src2, wanzheng), new File("D:\\test1.png"));
    75. // 还原滑块
    76. WebElement huanyuan1 = chromeDriver.findElementByXPath("//canvas[@class='geetest_canvas_fullbg geetest_fade geetest_absolute']");
    77. setAttribute(chromeDriver, huanyuan1, "style", "display:none");
    78. WebElement huanyuan2 = chromeDriver.findElementByXPath("//canvas[@class='geetest_canvas_slice geetest_absolute']");
    79. setAttribute(chromeDriver, huanyuan2, "style", "display:block");
    80. // 计算缺口滑块图和完整滑块图者差距,5为滑块按钮和滑块图左边的差5px
    81. int moveDistance = getMoveDistance() - 5;
    82. // 拿到滑块按钮
    83. WebElement btn = chromeDriver.findElementByXPath("//div[@class='geetest_slider_button']");
    84. // 拿到鼠标操作,实例化Actions
    85. Actions actions = new Actions(chromeDriver);
    86. // 把滑块->缺口距离分成多份
    87. int[] nums = split(moveDistance);
    88. // 移动滑块按钮
    89. Random random = new Random();
    90. String time = "35";
    91. for (int i = 0; i < nums.length; i++) {
    92. actions.clickAndHold(btn).moveByOffset(nums[i], 0)
    93. .build().perform();
    94. int times = Integer.parseInt(time + random.nextInt(10));
    95. Thread.sleep(times);
    96. }
    97. // 模拟人操作
    98. actions.clickAndHold(btn).moveByOffset(-1, 0).release()
    99. .build().perform();
    100. Thread.sleep(3000);// 滑块完成等待2秒判断是否验证成功
    101. // 是否滑块成功
    102. String attribute = chromeDriver.findElementByXPath("//div[@class='geetest_radar_tip']").getAttribute("aria-label");
    103. System.out.println("attribute = " + attribute);
    104. if (attribute.equals("网络不给力") ) {
    105. chromeDriver.findElementByXPath("//div[@class='geetest_radar_tip']").click();
    106. // 再次滑块
    107. operateSlider();
    108. }
    109. }
    110. // 整数拆分
    111. private static int[] split(int num) {
    112. int[] nums = new int[5];
    113. Random rand = new Random();
    114. for (int i = 0; i < nums.length - 1; i++) {
    115. nums[i] = rand.nextInt(num);
    116. num -= nums[i];
    117. }
    118. nums[nums.length - 1] = num;
    119. return nums;
    120. }
    121. }

    注意:滑块按钮滑到指定区域,可能会出现滑块被吃掉的情况!这是因为被判定为机器操作,所以要尽量模拟出人的速度滑一定的距离停止n毫秒,经过我不断的调试,这样可以减少被误判的几率。成功率在80%左右。

     这是小编在开发学习使用和总结的小Demo,  这中间或许也存在着不足,希望可以得到大家的理解和建议。如有侵权联系小编!

  • 相关阅读:
    lock、tryLock、lockInterruptibly有什么区别?
    DevOps|研发效能不是老板工程,是开发者服务
    6.拷贝移动及文件内容命令
    DbGate 开源、免费的 、智能的、NoSQL &SQL 数据库工具
    Nexus 私服资源的上传下载
    SpringBoot 基础之自动配置
    TDengineGUI无法连接TDengine
    【Linux】提升Linux命令行效率:光标移动和文本操作的键盘快捷键
    Unity中Shader的ShaderLOD
    产品工程师工作的职责十篇(合集)
  • 原文地址:https://blog.csdn.net/weixin_46522803/article/details/127900539