• Python学习之CSDN21天学习挑战赛计划之16


    ​lxml与Xpath提取网页数据
    目录

    ​1,爬虫提取网页数据的流程图

     2,安装lxml库

    3 Xpath介绍

    4,Chrome插件,XPath Helper安装使用


    活动地址:CSDN21天学习挑战赛

    学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。

    ​1,爬虫提取网页数据的流程图

     2,安装lxml库

    这个是XML和HTML的解析器,其主要功能是解析和提取XML和HTML的数据,是一款高性能的python HTML、XML解析器,也可以用XPath语法,来定位特定的元素以及节点信息

    解析HTML字符串

    1. from lxml import etree
    2. text = '''
    3. 无羡
    4. 20
    5. 四川
  • '''
  • # 开始初始化
  • html = etree.HTML(text) # 这里需要传入一个html形式的字符串
  • print(html)
  • print(type)
  • # 将字符串序列化为html字符串
  • result = etree.tostring(html).decode('utf-8')
  • print(result)
  • print(type(result))
  • 输出结果

    1. <Element html at 0x1f7fa7f2a80>
    2. <class 'type'>
    3. <html><body>
    4. <div class="key">
    5. <div class="name">div>
    6. <div class="age">20div>
    7. <div class="address">div>
    8. div>
    9. body>html>
    10. <class 'str'>

    3 Xpath介绍

    一门在XML文档中查找信息的语言,可用来在XML文档中元素和属性进行遍历

    谓语,用来查找某个特定节点或者包含某个指定的值的节点,被嵌在方括号中

    选取未知节点,通配符可用来选取未知的XML元素

    选取若干路径,通过在路径表达式中使用“|”运算符,可以选取若干个路径

    4,Chrome插件,XPath Helper安装使用

    ctrl+shift+X开启xpath-helper插件

    定位爬取的内容,按住X键,移动鼠标在爬取内容上即可显示标签路径

    实战代码

    1. <div>
    2. <ul>
    3. <li class="item-0"><a href="link1.html">first itema>li>
    4. <li class="item-1"><a href="link2.html">second itema>li>
    5. <li class="item-inactive"><a href="link3.html"><span class="bold">third itemspan>a>li>
    6. <li class="item-1"><a href="link4.html">fourth itema>li>
    7. <li class="item-0"><a href="link5.html">fifth itema>li>
    8. ul>
    9. div>

  • 相关阅读:
    【lesson13】进程控制初识
    Python+Appium实现自动化测试
    QGIS 用于GIS中的土地退化评估和SDG监测
    39-Maven进阶
    ORM框架,反射,泛型,注解,CRUD实现
    Android 10.0 Launcher3定制化之folder文件夹去掉背景功能实现
    java基础10题
    Promise.all和 race
    GitLab 502问题解决方案
    【NLP】使用 PyTorch 通过 Hugging Face 使用 BERT 和 Transformers 进行情感分析
  • 原文地址:https://blog.csdn.net/Cupid99/article/details/126375008