码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • python 删除pdf 空白页


    环境

    python == 3.10
    PyPDF2 ==3.0.1

    安装

    pip install PyPDF2
    

    流程

    • 将空白页和内容页读取出来,看看内部结构有什么不同
    • 以此为依据,遍历整个PDF 文件,标记处有内容的页面,写入到另外一个PDF文件。

    python 代码

    # 每一个页都是一个字典对象,看第一层没区别
    # 参考文章中 第一层 keys 一样, 但是 /Resources下结构有所不同,空白页没有"/XObject"键
    # 我的第一层keys 不一样,  但是 /Resources下结构一样
    # 另外 PyPDF2 版本不一样,各个模块有更新,自己看源码进行更新,或者根据报错提示进行更新
    
    from PyPDF2 import PdfReader, PdfWriter
    
    def remove_pdf_blank_pages(path):
        pdfReader = PdfReader(open(path, 'rb'))
        writer = PdfWriter()
        pages = len(pdfReader.pages)
        # blank = pdfReader.pages[1]
        # full = pdfReader.pages[2]
        #print('*'*10)
        #print(blank.keys())# dict_keys(['/Type', '/Parent', '/Resources', '/MediaBox', '/Contents'])
        #print(full.keys())# dict_keys(['/Type', '/Parent', '/Resources', '/MediaBox', '/Annots', '/Tabs', '/StructParents', '/Contents'])
        #print(blank['/Resources'])
        #{'/Font': IndirectObject(600, 0, 139632281578944), '/XObject': {'/Im553': IndirectObject(553, 0, 139632281578944), '/Im7': IndirectObject(7, 0, 139632281578944)}, '/ProcSet': ['/PDF', '/Text', '/ImageC', '/ImageI', '/ImageB']}
        #print(full['/Resources'])
        #{'/Font': IndirectObject(600, 0, 139632281578944), '/XObject': {'/Im553': IndirectObject(553, 0, 139632281578944), '/Im7': IndirectObject(7, 0, 139632281578944)}, '/ProcSet': ['/PDF', '/Text', '/ImageC', '/ImageI', '/ImageB']}
        #print('*' * 10)
        for i in range(pages):
            page = pdfReader.pages[i]
            # if "/XObject" in page["/Resources"].keys() or "/Font" in page["/Resources"].keys():
            #     writer.add_page(page)
            if "/StructParents" in page.keys() or "/Tabs" in page.keys() or "/Annots" in page.keys():
                writer.add_page(page)
    
        writer.write(open(path, 'wb'))
    

    参考

    使用Python批量删除扫描PDF中的空白页

  • 相关阅读:
    kube-scheduler framework
    【前沿技术RPA】 一文学会用UiPath实现自动发送电子邮件(Email Automation)
    【Java面试】为什么重写equals方法必须同时重写HashCode方法?
    FileZilla软件的下载、服务器站点配置与数据传输方法
    leetcode-22. 括号生成
    SAP MM 关于事务代码VL04的一个测试
    Stream流、 方法引用
    java 实现访问者模式
    高精度时间测量(TDC)电路MS1022
    SSM+基于ssm的汽车租赁平台的设计与实现 毕业设计-附源码211708
  • 原文地址:https://blog.csdn.net/weixin_40959890/article/details/139302262
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号