嗨喽,大家好!这里是魔王呐~

Python 3.8 解释器<运行代码>
Pycharm 编辑器 <写代码>

找寻网址上面数据来自于哪里
开发者工具进行抓包…
多个采集 <数据包url地址变化规律>

# import requests
import requests # 数据请求模块
import pprint # 格式化输出模块
import re
因审核机制,我把一些东西删啦,有需要的小可耐可以找我领取(或自己加一下)呐~
for page in range(2, 6):
print(f'正在采集第{page}页的数据内容')
link = f''
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'
}
源码\解答\教程可加Q群:261823976免费领取哦~
html_data = requests.get(url=link, headers=headers).text
# print(html_data)
# 使用re正则表达式提取数据 从什么地方去获取什么数据
# <li data-vid="(\d+)"><a href=".*?" 加了括号是我们想要数据内容 \d+ 匹配多个数字 .*? 可以匹配任意字符(除了换行符\n)
video_id_list = re.findall('<li data-vid="(\d+)"><a href=".*?"', html_data)
print(video_id_list)
for video_id in video_id_list:
url = f''
# 伪装python代码 在开发者工具里复制 user-agent 用户代理 表示浏览器基本身份表示
# headers请求头, 可以python代码伪装成浏览器对于url地址发送请求 <作用防止被识别出来是爬虫程序>
# cookie 用户信息, 常用于检测是否登陆账号 <无论登陆与否 都有一个cookie>
# headers = {
# 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'
# }
# 通过requests模块里面get请求方法对于url地址发送请求, 并且携带上headers请求头伪装, 最后用自定义变量response接受返回数据
response = requests.get(url=url, headers=headers)
# print(response.json()) # <Response [200]> 200表示请求成功 response.json() 返回数据一定是完整json数据格式
# pprint.pprint(response.json())
# 解析数据 字典取值 根据键值对取值 {'键': '值', '键1': '值1'} 根据冒号左边的内容<键>, 提取冒号右边的内容<值>
title = response.json()['data']['moment']['title']
title = re.sub(r'[\/:*?"<>|\n\r\t]', '', title)
video_url = response.json()['data']['moment']['videoInfo']['definitions'][0]['url']
print(title)
print(video_url)
# 保存数据 需要对于视频播放地址, 发送请求获取数据内容
# 源码\解答\教程可加Q群:261823976免费领取哦~
video_content = requests.get(url=video_url, headers=headers).content
with open('video\\' + title +video_id + '.mp4', mode='wb') as f: # as 重命名为 f
f.write(video_content)
# f = open('video\\' + title + '.mp4', mode='wb')
# f.write(video_content)
# f.close()




成功没有快车道,幸福没有高速路。
所有的成功,都来自不倦地努力和奔跑,所有的幸福都来自平凡的奋斗和坚持
——励志语录
本文章就写完啦~感兴趣的小伙伴可以复制代码去试试
你们的支持是我最大的动力!!记得三连哦~ 💕 欢迎大家阅读往期的文章呀~
