Scrapy第十篇：selenium4模拟器中间件

为什么要使用模拟器？

在使用request的时候，大型网站都有很多的反爬机制，典型比如滑动验证码、弹窗广告、弹窗验证、登录认证、Ajax异步加载...等等，这些是request很难绕过去的。这时候可以使用selenium模拟器来模拟用户操作：Selenium可以根据的指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏，或者判断网站上某些动作是否发生等.

1.安装依赖(已经安装过的，请先卸载再安装，确保是最新版本)

pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple

2.验证版本

pip list

3.下载驱动（两种方式二选一）

① 使用SergeyPirogov (Sergey Pirogov) · GitHub自动下载驱动管理器（推荐）

pip install webdriver-manager -i https://pypi.tuna.tsinghua.edu.cn/simple

②手动下载并指定驱动

selenium3.0环境搭建_苍穹之跃的博客-CSDN博客_selenium3版本单独创建一个目录，如：D:/drivers/，把不同浏览器的驱动都放到该目录。geckodriver.exe第一步：单独创建一个目录，如：D:/drivers/bin ，把不同浏览器的驱动都放到该目录。geckodriver.exe（Firefox）、chromedriver.exe（Chrome）、MicrosoftWebDriver.exe（Edge）、IEDriverServer.exe（IE）、operadriver.exe（Opera）等。然后，将D:/drivers/bin添加到系统环境.https://blog.csdn.net/wenxingchen/article/details/118105591

4.测试Selenium4：访问百度并搜索


import time
from selenium import webdriver
from selenium.webdriver.chrome.service import Service as ChromeService
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager
 
if __name__ == '__main__':
    # 初始化驱动
    service = ChromeService(executable_path=ChromeDriverManager().install())
    # 配置
    options = webdriver.ChromeOptions()
    # 无头模式
    # options.add_argument('--headless')
    # 获取浏览器实例
    driver = webdriver.Chrome(service=service, options=options)
 
    # 访问百度
    driver.get("https://www.baidu.com/")
    # 全屏
    driver.maximize_window()
    # 获取关键字输入框
    input_element = WebDriverWait(driver, timeout=3).until(lambda d: d.find_element(By.ID, "kw"))
    # 输入搜索关键字
    input_element.send_keys("苍穹之跃")
    # 获取【百度一下】按钮
    search_button_element = WebDriverWait(driver, timeout=3).until(lambda d: d.find_element(By.ID, "su"))
    # 点击
    search_button_element.click()
    # 获取当前页面
    print(driver.page_source.encode('utf-8'))
    # 页面停留
    time.sleep(30)
    # 销毁实例
    driver.quit()

5.编写中间件：打开middlewares.py文件，新建中间件SeleniumMiddleware


from selenium import webdriver
from selenium.webdriver.chrome.service import Service as ChromeService
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager
 
class SeleniumMiddleware(object):
        def process_response(self, request, response, spider):
        # 初始化驱动
        service = ChromeService(executable_path=ChromeDriverManager().install())
        # 配置
        options = webdriver.ChromeOptions()
        # 无头模式
        # options.add_argument('--headless')
        # 获取浏览器实例
        driver = webdriver.Chrome(service=service, options=options)
 
        # 访问网页
        driver.get(request.url)
        # 全屏
        # driver.maximize_window()
        # 一般用于异步加载-等待特定元素出现：driver就是浏览器驱动，timeout就是等待的时长，until后是判断元素是否出现的
        wdw = WebDriverWait(driver, timeout=10).until(lambda d: d.find_element(By.CLASS_NAME, "lm_tabe"))
        # network记录，这里可以获得所有ajax请求的结果
        # logs = get_xhr_logs(driver)
        # 动态加载后的网页
        html = driver.page_source
        # 退出浏览器
        driver.quit()
        return scrapy.http.HtmlResponse(url=request.url, body=html.encode('utf-8'), encoding='utf-8', request=request)

6.开启中间件：打开settings.py


DOWNLOADER_MIDDLEWARES = {
    'announcement.middlewares.SeleniumMiddleware': 543,
}

相关阅读:
下一代 IDE 工具 JetBrains Fleet 正式公测
如何制作含有图表数据的页面
吴恩达机器学习-可选实验:使用ScikitLearn进行线性回归（Linear Regression using Scikit-Learn）
计算机毕设（附源码）JAVA-SSM基于的宿舍楼跳蚤市场管理系统
JDBC（Java数据库连接）
可视化—“颠覆传统设计：用Three.js创造炫酷的3D交互界面！“
代码随想录算法训练营第四十一天| LeetCode343. 整数拆分、LeetCode96. 不同的二叉搜索树
天软特色因子看板(2023.10 第04期)
Java武侠文字游戏
CNN发展的主要tag

原文地址：https://blog.csdn.net/wenxingchen/article/details/126347862