码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【Python爬虫】解析xpath——尚硅谷


    1.xpath

    xpath的使用:

    注意:提前安装xpath插件

    1.安装lxml库

    pip install lxml ‐i https://pypi.douban.com/simple

    2.导入lxml.etree    

    from lxml import etree

    3.etree.parse()   解析本地文件  

    html_tree = etree.parse('XX.html')

    4.etree.HTML() 解析服务器响应文件

    html_tree = etree.HTML(response.read().decode('utf‐8')

    5.html_tree.xpath(xpath路径)
     

    2.xpath基本语法

    路径查询

    //:查找所有子孙节点,不考虑层级关系

    / :找直接子节点

    谓词查询

    //div[@id]

    //div[@id="maincontent"]

    属性查询

    //@class

    模糊查询

    //div[contains(@id, "he")]

    //div[starts‐with(@id, "he")]

    内容查询

    //div/h1/text()

    逻辑运算

    //div[@id="head" and @class="s_down"]

    //title | //pric
     

    1. from lxml import etree
    2. #xpath解析
    3. # 1.本地文件
    4. # 2.服务器响应的数据 response.read().decode('utf-8') etree.HTML
    5. tree=etree.parse('1.xpath的基本使用.html')
    6. #tree.xpath('xpath路径')
    7. #查找url下面的li
    8. #li_list=tree.xpath('//body//li')
    9. #查找所有id的属性的Li标签
    10. #li_list=tree.xpath('//ul/li[@id]/text()')
    11. #找到id为l1的li标签 注意引号问题
    12. #li_list=tree.xpath('//ul/li[@id="l1"]/text()')
    13. #查找到id为l1标签的class的属性值
    14. #li=tree.xpath('//ul/li[@id="l1"]/@class')
    15. #查询id中包含l的li标签
    16. #li_list=tree.xpath('//ul/li[contains(@id,"l")]/text()')
    17. #查询id的值以l开头的li标签
    18. #li_list=tree.xpath('//ul/li[starts-with(@class,"c")]/text()')
    19. #查询id为l1和class为c1
    20. li_list=tree.xpath('//ul/li[@id="l1" and @class="c1"]/text()')
    21. #判断列表的长度
    22. print(li_list)
    23. print(len(li_list))

  • 相关阅读:
    竞赛选题 深度学习YOLO图像视频足球和人体检测 - python opencv
    服务器推送数据之websocket、socket.io及实现简易聊天系统
    如何处理CAN通讯故障
    无人机三维重建技术,如何还原交通事故现场.....
    开源LC3编解码器测试Demo
    流媒体传输 - RTMP 协议报文分析
    数据库公共字段自动填充
    【运算符+逻辑控制】
    最大流判定(星际转移问题)
    C++并发编程实战2.6程序问题解答
  • 原文地址:https://blog.csdn.net/qq_48108092/article/details/126133969
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号