• 二、爬虫-爬取肯德基在北京的店铺地址


    1、算法框架解释

        针对这个案例,现在对爬虫的基础使用做总结如下:
        1、算法框架
        (1)设定传入参数
            ~url:
                当前整个页面的url:当前页面的网址
                当前页面某个局部的url:打开检查
            ~data:需要爬取数据的关键字,即搜索内容
            ~param:需要获取哪些(类型)的数据,即数据类型
            ~headers:UA伪装
        (2)得到get/post请求响应
            根据”检查“结果进行判断:
                get请求:response=requests.get(url=**,data=**,param=**,headers=**)
                post请求:response=requests.post(url=**,data=**,param=**,headers=**)
        (3)将得到的请求响应json化数据
            此处以request.get/post请求数据为dict为例:
            dict_obj=response.json()    #在这里,你得到的其实是一个python对象,也就是python的字典
        (4)持久化存储
            ~得到存储地址和修改权限
                fp=open("目录",'w',encoding="UTF-8)
            ~将python对象编码成Json字符串>>格式转化>>python(dict)——>json
                json.dump(返回的json数据>>dict_obj,fp=存储地址>>fp,ensure_ascii=False)
            ~结束

    2、代码解析 

    1. import requests
    2. import json
    3. """
    4. """
    5. if __name__ == "__main__":
    6. print("开始爬取")
    7. # (1)
    8. post_url = 'https://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
    9. post_data = {
    10. 'kw': '上海'
    11. }
    12. post_param = {
    13. "cname": "",
    14. "pid": "",
    15. "keyword": "上海",
    16. "pageIndex": "1",
    17. "pageSize": "10"
    18. }
    19. post_header = {
    20. "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) "
    21. "Chrome/119.0.0.0 Mobile Safari/537.36"
    22. }
    23. # (2)
    24. response = requests.post(url=post_url, data=post_data, params=post_param, headers=post_header)
    25. # (3)
    26. dict_obj = response.json()
    27. # print(type(dict_obj))
    28. # (4)
    29. fp = open('./html/KenDeJi.json', 'w', encoding='UTF-8')
    30. json.dump(dict_obj, fp=fp, ensure_ascii=False)
    31. print("over")

  • 相关阅读:
    基于JAVA旅游景点推荐系统计算机毕业设计源码+数据库+lw文档+系统+部署
    Abnova丨DNA 标记高质量控制测试方案
    AI 帮忙找 Bug,英特尔开源代码编程工具ControlFlag
    阿里云OSS存储前端API上传(签名上传)
    【基础算法】多项式三大运算 & C++实现
    Konva事件机制
    513. Find Bottom Left Tree Value
    光谱通用款积分球
    Awesome Video Transformer
    spyglass 学习笔记之cdc check
  • 原文地址:https://blog.csdn.net/2301_79149013/article/details/134565120