• pyquery库和parsel库的使用


    0x01 安装pyquery库

    该库可以直接通过css选择器进行字符串查找

    pip install pyquery

    0x02 初始化操作

    通过PyQuery初始化字符串

    1. from pyquery import PyQuery
    2. import requests
    3. url = "https://www.dandanzan10.top/dianying/index.html"
    4. heads = {
    5. 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    6. }
    7. r = requests.get(url, headers=heads)
    8. str = r.text
    9. res=PyQuery(str)
    10. print(res)

    0x03 获取电影名字

    1、res('h2'):获取h2标签所有内容

    2、text()将字符串内容打印出来

    1. from pyquery import PyQuery
    2. import requests
    3. url = "https://www.dandanzan10.top/dianying/index.html"
    4. heads = {
    5. 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    6. }
    7. r = requests.get(url, headers=heads)
    8. str = r.text
    9. res=PyQuery(str)
    10. print(res('h2').text())
    11. 运行结果: 爱涌情现浪潮时 爱的锦囊妙计 铁血女王阿米娜:征战天下 我的老板是连环杀手 国际搜查 死亡血路 反恐追缉令 浅草小子 去海边 Reframe THEATER EXPERIENCE with you 凶宅怪谈 青涩的伤痛与脆弱 狂武藏 战地:异种浩劫 恋途未卜 窒恋 路的尽头 迷情杀机:卷土重来 BTS舞台舞蹈许可:首尔实时观看 父情难却 猎杀艾娃 最好的女友 匹诺曹 有一点动心

    0x04 安装parsel库

    该库是Scrapy框架的底层代码,Scrapy框架是一个爬虫框架,以后我们会详细解说。

    pip install parsel

    0x05 获取电影名字

    1、通Selector初始化一下字符串

    2、通过css获取h2标签的所有内容

    3、通过xpath获取标签的字符串内容

    1. from parsel import Selector
    2. import requests
    3. url = "https://www.dandanzan10.top/dianying/index.html"
    4. heads = {
    5. 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    6. }
    7. r = requests.get(url, headers=heads)
    8. str = r.text
    9. sl=Selector(text=str)
    10. res=sl.css('h2')
    11. for i in res:
    12. text=i.xpath('.//text()').get()
    13. print(text)

    0x06 声明

    仅供安全研究与学习之用,若将工具做其他用途,由使用者承担全部法律及连带责任,作者不承担任何法律及连带责任。

    欢迎关注公众号编程者吧

     

  • 相关阅读:
    Java使用TCP api实现回显服务
    基于Micropython的桌面信息小摆件
    王杰C++day4
    HTML静态网页作业——澳门英文旅游网站设计与实现HTML+CSS+JavaScript
    使用vue-cli搭建SPA项目->spa项目的构建,基于spa项目路由完成,基于spa项目完成嵌套路由
    第三方支付在结算资金时的特殊处理方案
    conda: error: argument COMMAND: invalid choice: ‘activate‘
    LeetCode 第10题:正则表达式匹配(Python3解法)
    2024届秋招小记
    一文搞懂js中的typeof用法
  • 原文地址:https://blog.csdn.net/weixin_41489908/article/details/126867835