• python提取网页指定内容


    最近在参考w3school的文档学习python,就根据文档的请求模块进行扩展一下。
    1、访问提供的网站,并提取script中的url地址。
    这是w3school的请求模块案例:https://www.w3school.com.cn/python/python_module_requests.asp
    现在要做的是把script中的url地址给提取出来
    在这里插入图片描述
    2、首先得需要两个模块,然后放列表进行遍历

    from bs4 import BeautifulSoup
    import requests
    
    #获取地址跟时间
    def entryDataList():
        quest = requests.get('https://w3school.com.cn/python/demopage.htm')
        html = quest.text
        my_page = BeautifulSoup(html,"html.parser")
        entryData_list=[]   #放到列表里面进行遍历
        for script  in my_page.find_all('script'): #取出网页中所有的script块
            entryData_list.append(script)
        return entryData_list
    
    if __name__ == '__main__':
        print(entryDataList())
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15

    在这里插入图片描述
    3、提取指定内容

    from bs4 import BeautifulSoup
    import requests
    
    #获取地址跟时间
    def entryDataList():
        quest = requests.get('https://w3school.com.cn/python/demopage.htm')
        html = quest.text
        my_page = BeautifulSoup(html,"html.parser")
        entryData_list=[]   #放到列表里面进行遍历
        for script  in my_page.find_all('script'): #取出网页中所有的script块
            entryData_list.append(script)
        return entryData_list
    
    def w3c():
        entryData_list = entryDataList()
        x = entryData_list[0].get('src')  #[0]就是获取列表中的第一个,因为可以根据上图看出有两个script块,然后在get想要的src
        return x
    
    if __name__ == '__main__':
        print(w3c())
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20

    在这里插入图片描述

  • 相关阅读:
    多级缓存架构
    什么,这年头还有人不知道404
    ZoomKeeper学习笔记
    Mac os 安装 nginx 教程(success)
    DJ8-2 主存储器的组织
    什么是 CSS
    【电子元件】常用电子元器件的识别之二极管
    swagger stub https无法访问
    Q701二叉搜索树的插入操作-递归法-刷leetcode日记
    Ant Design Charts 行政区地图(ChoroplethMap)地图不显示的奇怪问题
  • 原文地址:https://blog.csdn.net/qq_43303980/article/details/126094747