码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Python3,爬虫有多简单,一个库,一行代码,就OK, 你确定不来试试?


    爬虫进阶库:Scrapeasy

    • 1、 引言
    • 2、Scrapeasy
      • 2.1 简介
        • 2.1.1 Scrap
        • 2.1.2 Scrapeasy
      • 2.2 安装
      • 2.3 代码示例
    • 3、总结

    1、 引言

    小屌丝:鱼哥, 我最近在练习写爬虫, 你有没有什么便捷的方式…
    小鱼:比如呢?
    小屌丝:比如,一句话就可以搞得定爬取整个网站。
    小鱼:我不是写过挺多的爬虫案例嘛,你咋还问这个问题,
    小屌丝:你写的哪些教程,像我这种比较懒散的人,不适用!
    小鱼:我擦~ ~ 你这…
    小屌丝:鱼哥,你就像这篇《只用1行代码就下载全网视频》,就一行代码, 我保证妥妥的会。
    小鱼:Let me 想一下。
    在这里插入图片描述

    2、Scrapeasy

    按照小屌丝的想法, 我想到了一个库:Scrapeasy
    小屌丝:这是不是第三方库。
    小鱼:必须的,python自带库,能有这么强大的功能吗?
    在这里插入图片描述

    2.1 简介

    2.1.1 Scrap

    关于Scrapeasy 大家可能了解的不多,
    但是 Scrap 爬虫大佬肯定了解。
    那什么是Scrap呢?

    Scrapy

    Scrapy是一个功能强大的网络爬虫类库,通过命令pip install scrapy进行安装,爬取的海量数据可以通过MongoDB进行存储。

    我上一个架构图:

    在这里插入图片描述
    关于Scrap的其他功能,
    可以移步 Scrap官网进行阅读,这里不做过多介绍。

    2.1.2 Scrapeasy

    我们再来了解 Scrapeasy。
    Scrapeay 是Python的一个第三方库,主要功能:

    • 可以抓取网页数据;
      • 从单网页提取数据;
      • 多网页提取数据;
    • 可以从PDF和HTML表格中提取数据;

    听着是很牛的样子,
    接下来,我们就去代码中实践,看看到底有多牛。

    2.2 安装

    涉及到第三方库,肯定就需要安装
    老规矩,pip 安装

    pip install scrapeasy
    
    • 1

    其它安装方式,直接看这两篇:

    • 《Python3,选择Python自动安装第三方库,从此跟pip说拜拜!!》
    • 《Python3:我低调的只用一行代码,就导入Python所有库!》

    2.3 代码示例

    代码示例

    # -*- coding:utf-8 -*-
    # @Time   : 2022-10-31
    # @Author : Carl_DJ
    
    '''
    实现功能:
        通过scrapeasy 来实现爬取数据
    
    '''
    
    from scrapeasy import Website,Page
    
    #创建网站对象
    
    #这里我就以我博客的地址为例子
    webs = Website("https://blog.csdn.net/wuyoudeyuer?type=blog")
    
    #获取所有子链接
    urls = webs.getSubpagesLinks()
    #输出信息
    print(f'打印所有链接信息:{urls}')
    
    
    #查找图片
    
    images = webs.getImages()
    
    print(f'打印所有的图片信息:{images}')
    
    #下载图片
    webs.download('img','./data')
    
    #下载pdf
    webs.download('pdf','./data')
    
    
    #获取链接
    main_urls = webs.getLinks(intern=False,extern=False,domain=True)
    
    #获取链接域
    domain = webs.getLinks(intern=False,extern=True,domain=False)
    
    # 下载其他类型的文件
    cal_urls = webs.get("php")
    
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46

    解析

    • 下载所有链接: getSubpagesLinks() 方法;
    • 查找图片:getImages()方法;
    • 下载:webs.download()方法;
    • 下载其他格式文件:get(“文件类型”);

    3、总结

    看到这里,今天的分享差不多就该结束了。
    今天主要是针对scrapeasy这个库进行简单的分享。
    学会scrapeasy,你算是迈入的爬虫的 门槛。
    其实关于爬虫,我也写过一些教程和案例,例如:

    • 《Python3:我只用1行代码就下载全网视频,我被我的才华和颜值征服了!!》
    • 《Python3,20行代码,通过微信电脑版爬取朋友圈数据,老板再也抓不到我上班看手机了!!!》
    • 《Python3,多线程爬完B站UP主的视频弹幕及评论,我飘了~ ~ ~》
    • 《Pyhotn3,爬取B站up主的信息!》

    这里就不过多列举了,更多的示例,可以看小鱼的爬虫实战专栏的。

    我是小鱼:

    • CSDN博客专家;
    • 51Testing认证讲师;
    • 金牌面试官;
    • 商务合作|面试培训|职场规划,可以扫码咨询。

    关注我,带你学习Python领域更多更专业的技能。

  • 相关阅读:
    华纳云服务器怎么清理cdn缓存?
    WMS仓库信息系统仓库信息Service模块
    Tomcat
    图解LeetCode——剑指 Offer II 025. 链表中的两数相加(难度:中等)
    清除Ubuntu系统中的无法启动的Ubuntu 24实例
    asp毕业设计——基于asp+access的新闻发布系统设计与实现(毕业论文+程序源码)——新闻发布系统
    MFC中LISTCONTROL控件的相关操作
    Linux系统下的redis集群模式
    路线中桩测量计算程序浅析
    gitlab 服务端 hook, 拦截糟糕的提交到仓库
  • 原文地址:https://blog.csdn.net/wuyoudeyuer/article/details/127620699
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号