牛！playwright 一行命令一键把html网页保存为pdf，太方便了！

前言

今天介绍将HTML网页抓取下来，然后以PDF保存，也可以将自己写好生成的HTML转成PDF。废话不多说直接进入教程。

1. 安装

Conda安装:

conda config --add channels conda-forge
conda config --add channels microsoft
conda install playwright
playwright install
1
2
3
4

Pip安装：

# 安装playwright
pip install playwright
# 安装browser驱动
playwright install
1
2
3
4

2. 利用playwright 将page保存为pdf格式的用法

playwright pdf html文件路径 PDF输出路径
1

playwright pdf ./baidu.html ./baidu.pdf
1

–viewport-size选项生成不同大小的窗口

playwright pdf --viewport-size=800,600 ./baidu.html ./baidu.pdf
1

模拟地理位置、语言和时区

playwright pdf --timezone="Asia/Shanghai" --geolocation="30.890221,120.492348" --lang="zh-CN" ./baidu.html ./baidu.pdf
1

3. Python playwright将网页批量保存pdf文件

from playwright.sync_api import sync_playwright

# 获取要保存的 URL 列表
urls = []
with open('urls.txt', mode='rt', encoding='utf-8') as f:
    urls = f.readlines()

# 访问目标 URL 列表并另存为 PDF
with sync_playwright() as p:
    browser = p.chromium.launch()
    for i,url in enumerate(urls):
        context = browser.new_context()
        page = context.new_page()
        page.goto(url)
        page.pdf(path=f"{i}.pdf")
    browser.close()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

相关阅读:
【Java SE】详解java访问限定符
Docker容器数据卷
网络安全（黑客技术）—自学手册
LLM大语言模型（十二）：关于ChatGLM3-6B不兼容Langchain 的Function Call
最强人工智能ChatGPT引领AIGC发展
Dubbo分组聚合
做了9年程序员，为什么我还摆脱不了复制粘贴？
Excel实战-帮业务人员做道Excel题
热血男孩滕文泽受邀担任第六季完美童模全球总决赛形象大使
jQuery_按键变色/keyCode/text

原文地址：https://blog.csdn.net/qq_37275405/article/details/133851501