Python21天学习挑战赛Day(20)·selenium


from selenium import webdriver
 
# 浏览器的初始化
browser = webdriver.Chrome()
# 发送请求
browser.get('https://www.baidu.com/')
 
# 打印页面的标题
print(browser.title)
 
# 退出模拟浏览器
browser.quit()  # 一定要退出！不退出会有残留进程

Firefox:


from selenium import webdriver
 
# 浏览器的初始化
browser = webdriver.Firefox()
# 发送请求
browser.get('https://www.baidu.com/')
 
# 打印页面的标题
print(browser.title)
 
# 退出模拟浏览器
browser.quit()  # 一定要退出！不退出会有残留进程

Edge:


from selenium import webdriver
 
# 浏览器的初始化
browser = webdriver.Edge()
# 发送请求
browser.get('https://www.baidu.com/')
 
# 打印页面的标题
print(browser.title)
 
# 退出模拟浏览器
browser.quit()  # 一定要退出！不退出会有残留进程

无界面模式

Headless模式是Chrome浏览器的无界面形态，可以在不打开浏览器的前提下，使用所有Chrome支持的特性运行我们的程序


from selenium import webdriver
 
# 1. 实例化配置对象
chrome_options = webdriver.ChromeOptions()
# 2. 配置对象添加开启无界面命令
chrome_options.add_argument('--headless')
# 3. 配置对象添加禁用gpu命令
chrome_options.add_argument('--disable-gpu')
# 4. 实例化带有配置对象的browser 对象
browser = webdriver.Chrome(chrome_options=chrome_options)
 
browser.get('https://www.baidu.com/')
 
# 查看请求的数据
print(browser.page_source)  # 查看渲染后的数据，就可以Xpath进行解析获取数据了
print(browser.get_cookies())  # 查看请求页面后的cookies值
print(browser.current_url)  # 查看请求url
 
# 关闭页面
browser.close()
# 关闭浏览器
browser.quit()

元素定位


from selenium import webdriver
from selenium.webdriver.common.by import By
 
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
browser = webdriver.Chrome(chrome_options=chrome_options)
url = 'https://www.xxx.com/'
browser.get(url)
html_str = browser.page_source

若访问网址时返回以下html_str：


<div class="panel">
    <div class="panel-heading">
        <h4>Helloh4>
    div>
    <div class="panel_body">
        <ul class="list" id="list-1" name="element">
            <li class="element">Fooli>
            <li class="element">Barli>
            <li class="element">Jayli>
        ul>
        <ul class="list list-small" id="list-2">
            <li class="element">Fooli>
                <a href="https://www.baidu.com">百度官网a>
            <li class="element">Barli>
        ul>
    div>
div>

根据id属性值获取元素列表


from selenium.webdriver.common.by import By
 
# 获取第一个元素
browser.find_element(by=By.ID, value="list-1")
# 获取多个元素
browser.find_elements(by=By.ID, value="list-1")

根据class属性值获取元素列表


# 获取第一个元素
browser.find_element(by=By.CLASS_NAME, value="element")
# 获取多个元素
browser.find_elements(by=By.CLASS_NAME, value="element")

根据Xpath获取元素列表


# 返回标签为li，id为element的所有元素
browser.find_element(by=By.XPATH, value="//li[@id='element']")
browser.find_elements(by=By.XPATH, value="//li[@id='element']")

根据标签的文本获取元素列表


# 返回标签为li，id为element的所有元素
browser.find_element(by=By.XPATH, value="//li[@id='element']")
browser.find_elements(by=By.XPATH, value="//li[@id='element']")

根据标签包含的文本获取元素列表


# 获取一个元素
browser.find_element(by=By.PARTIAL_LINK_TEXT, value="Fo")
# 获取多个元素
browser.find_elements(by=By.PARTIAL_LINK_TEXT, value="Fo")

根据标签名获取元素列表


# 获取一个元素
browser.find_element(by=By.TAG_NAME, value="li")
# 获取多个元素
browser.find_elements(by=By.TAG_NAME, value="li")

相关阅读:
使用浏览器打印保存pdf文件时闪退/无反应
1.5-11:整数的个数
【数据结构】二叉搜索树（Java + 链表实现）
个人用户实现发送短信功能
set() 函数 | Python
【分布式】分布式ID
三方系统多渠道多场景的思考及代码分享
如何阅读一篇论文
【发版】java项目一键式发版，一键式发版脚本，如何实现一键式发版
全国大学生数学建模A题目更新中…… 欢迎订阅

原文地址：https://blog.csdn.net/weixin_62599885/article/details/126443821