• Python进阶必备之JS逆向-某榜某博数据采集


    辣条开源篇:《Python进阶必备之JS逆向-某榜某博数据采集》

    对应视频教程:《→→→Python进阶必备之JS逆向←←←》

    希望大家多多支持辣条,感激不尽,对应教程的课件+源码也都在文末我的个人名片拿即可,看到视频教程还有文案希望多多三连支持,个辣条顶起来啊~

    在这里插入图片描述
    ps:本文仅供参考学习,辣条希望大家加油冲冲冲 @TOC

    工具准备

    开发工具:pycharm
    开发环境:python3.7, Windows10
    使用工具包:requests,execjs,md5

    采集目标地址

    在这里插入图片描述

    项目需求分析

    今日需求获取某榜上面的博主信息,首先区分我们的数据是静态数据还是动态数据,在浏览器页面鼠标右击点击查看网页源代码,进行搜索你想要的数据,能搜索到就是静态,搜索不到就行动态数据,很明显我们的数据是动态数据
    image.png
    动态数据我们需要通过抓包的方式进行获取,鼠标右击点击检查,点击网络点击xhr,就是我们所说的动态数据,刷新我们的页面,找到我们想要的数据信息
    在这里插入图片描述

    明确我们的数据之后,点击标头,第一栏就是我们的请求网址,拿到我们url地址,发送网络请求,请求方法是post说明我们需要携带参数发送请求

    data = {
        'end': '2022-07-23',
        'rank_name': '个人认证',
        'rank_name_group': '',
        'start': '2022-07-23',
        # 加密的数据
        'nonce': '8679b4d79',
        'xyz': '6262bb37e2060b2443b9b508d8760552'
    }
    url = 'https://www.newrank.cn/xdnphb/main/v1/weibo_day/rank'
    # 发送请求 浏览器  代码
    response = requests.post(url, data=data)
    print(response.text)
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14

    可以很明显看到我们的数据nonce和xyz是一个加密的数据,需要对着两个参数进行逆向,首先在全局进行搜索我们加密的文件
    image.png
    在不确定文件的时候,可以一个个点击进行搜索,我们当前的文件是第一个双击打开文件,点击左下角大括号进行美化,在当前文件搜索对应关键字,定位到准确的js代码位置,
    image.png
    nonce是有j函数生成的,xyz是d函数进行加密生成的 ,先解决nonce,去查看j函数,看看他是做了什么操作,打上断点进行调试
    image.png
    可以看出来是生成一个9位数的随机字符,我们直接拿到当前的代码段补js环境

    function j() {
            for (var a = ["0", "1", "2", "3", "4", "5", "6", "7", "8", "9", "a", "b", "c", "d", "e", "f"], b = 0; b < 500; b++)
                for (var c = "", d = 0; d < 9; d++) {
                    var e = Math.floor(16 * Math.random());
                    c += a[e]
                }
            return c
        }
    
    // console.log(j())
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    nonce解决,回过头在看xyz函数,加密的数据是h,h是我们生成的post需要传递的数据拼接起来在加上nonce的值,调用d函数得到加密的数据,
    image.png
    当我们不清楚数据是如何加密的时我们可以找一个加密的平台来进行尝试,看看能不能匹配到我们想要的结果
    image.png
    当前加密为md5加密,那我们可以直接通过Python代码来完成

    简易源码分享

    #!/usr/bin/env python
    # -*- encoding: utf-8 -*-
    # @File  :   数据采集.py    
    # Author :   柏汌  
    
    import requests   # 发送网络请求的工具包
    import execjs     # js执行工具包
    from hashlib import md5
    
    
    with open('dddd.js', 'r')as f:
        js_code = f.read()
    js = execjs.compile(js_code)
    nonce = js.call('j')
    # print(nonce)
    data = {
        'end': '2022-07-23',
        'rank_name': '个人认证',
        'rank_name_group': '',
        'start': '2022-07-23',
        # 加密的数据
        'nonce': nonce,
    }
    h = '/xdnphb/main/v1/weibo_day/rank?AppKey=joker&end={}&rank_name={}&rank_name_group=&start={}&nonce={}'.format(data['end'], data['rank_name'], data['start'], data['nonce'])
    xyz = md5(h.encode()).hexdigest()
    print(xyz)
    data['xyz'] = xyz
    # 获取到地址  静态数据  动态数据的区分
    url = 'https://www.newrank.cn/xdnphb/main/v1/weibo_day/rank'
    # 发送请求 浏览器  代码
    response = requests.post(url, data=data)
    print(response.text)
    
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
  • 相关阅读:
    java中AES工具类对称加密
    python从入门到出家(四)条件语句
    jmeter mysql 压测
    通俗易懂VAE变分自编码器
    Ubuntu中apt-get update显示域名解析失败
    抗混叠在微小目标检测中的重要性
    13-Spring架构源码分析-IoC 之开启 Bean 的加载
    java 实现删除单链表中所有指定的结点以及如何清空单链表
    gazebo中给机器人添加16线激光雷达跑LIO-SAM
    【算法设计zxd】第5章分治法
  • 原文地址:https://blog.csdn.net/AI19970205/article/details/126256608