码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Python实现批量采集美女shipin<无水印>


    前言

    嗨喽~大家好呀,这里是魔王呐 !

    目录(可点击自己想去得地方哦~😋)

      • 前言
      • 环境使用:
      • 模块使用:
      • 按照常规基本思路流程: <模板, 可以套用>
          • 一. 数据来源分析
          • 二. 代码实现步骤
      • 代码
      • 尾语

    环境使用:

    • Python 3.8

    • Pycharm

    • 谷歌浏览器

    • 谷歌驱动

    安装教程都可以看文章下方推广获取~

    模块使用:

    • requests >>> pip install requests

    • re

    • json 用来转换数据类型 序列化和反序列化模块

    • selenium >>> pip install selenium==3.141.0 <需要浏览器和浏览器驱动>

    如果安装python第三方模块:

    1. win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车

    2. 在pycharm中点击Terminal(终端) 输入安装命令

    按照常规基本思路流程: <模板, 可以套用>

    批量采集shipin —> 由浅到深 采集一个shipin 采集多个

    一. 数据来源分析

    通过开发者工具抓包分析, shipin url地址来自于哪里, shipin标题在什么地方

    1. F12打开开发者工具, 或者 鼠标右键点击检查选择network <在网页 在浏览器上面进行操作>

    2. 点击刷新 网页, 让本网页相关数据内容, 重新加载一遍 <相对应 相关数据包 数据内容 就展示出来>

    3. 找shipin链接在哪里 ----> 常规找shipinurl地址 是 media 里面

    4. 找shipin url 来源, 出处 —> 通过在开发者工具关键字搜索 可以找到我们想要的数据在哪里, 只是说
      找到数据是进行编码, 到时候写代码的时候 进行解码就Ok了

    二. 代码实现步骤
    1. 发送请求, 模拟浏览器对于 网址 发送请求

    2. 获取数据, 获取response响应数据

    3. 解析数据, 提取我们想要shipin url地址 和 shipin标题

    4. 保存数据, 把shipin内容保存到本地

    代码

    需要更多源码、教程可点击网页端博主头像来到主页,点击左侧的流动文字免费获取哦~(可能需要往下划一下呐)

    也可以直接查看文章下方推广加助理小姐姐V免费获取呐~

    """
    selenium ---> 使用驱动 ---> 控制浏览器
        模拟人的行为去操作浏览器
    """
    # 打开浏览器
    driver = webdriver.Chrome()
    # 访问网站
    driver.get('https://www..com/user/MS4wLjABAAAA0ihE2gYz13hwfPpxiZz50L7QM761qG-m28wj-oyWJTMqEJh5TR92GIJI7r-FW-8n')
    # 等待
    driver.implicitly_wait(10)
    
    def drop_down():
        """执行页面滚动的操作"""  # javascript
        for x in range(1, 10, 2):  # 1 3 5 7 9  在你不断的下拉过程中, 页面高度也会变的
            time.sleep(1)
            j = x / 9  # 1/9  3/9  5/9  9/9
            # document.documentElement.scrollTop  指定滚动条的位置
            # document.documentElement.scrollHeight 获取浏览器页面的最大高度
            js = 'document.documentElement.scrollTop = document.documentElement.scrollHeight * %f' % j
            driver.execute_script(js)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20

    尾语

    人的一生就像在攀登高峰,勤奋是你踏实稳健的双脚,

    信念是你指引前行的向导,勇敢是你孜孜追寻的恒心。

    开心日到了,愿你站稳双脚,确定方向,向着你的理想巅峰勇敢前行,

    不用怕,未来就在你的脚下。

    —— 心灵鸡汤

    本文章到这里就结束啦~感兴趣的小伙伴可以复制代码去试试哦 😝

    对啦!!记得三连哦~ 💕 另外,欢迎大家阅读我往期的文章呀~

    请添加图片描述

  • 相关阅读:
    前端的那些必须要掌握的样式设置和布局【CSS、浮动、清除、固定、em、rem等等......】
    JS-Number数字类型详解
    高效管理和盘点固定资产的办法
    谷粒商城实战(033 业务-秒杀功能4-高并发问题解决方案sentinel 2)
    《痞子衡嵌入式半月刊》 第 65 期
    HTML入门基础标签(结构标签,文本标签,特殊字符转义标签,多媒体标签)
    洛谷C++简单题小练习day12—寻找最小值小程序
    零基础Linux_16(基础IO_文件)笔试选择题:文件描述符+ionde和动静态库
    Notion 中文:客户端、网页端汉化方案
    Visual Studio 2017工程在Visual Studio 2019打开碰到的问题
  • 原文地址:https://blog.csdn.net/python56123/article/details/126393687
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号