python批量保存网页为pdf_利用Python把网页内容转换为pdf格式文件，批量下载。。。--慧智精品网

python批量保存⽹页为pdf_利⽤Python把⽹页内容转换为pdf

格式⽂件，批量下载。。。

使⽤Google浏览器的打印命令时，保存下来的pdf⽂件中包含⽹页中的所有内容（左右边框和⼴告等），

想仅把当前⽹页中的主体内容转成pdf格式的⽂件保存下来。

操作说明：

填写URL及提取条件（浏览器中按F12，查），预览，打印。

python代码说明：清华硕士称大厂2万月薪践踏学历

默认可不输⼊提取条件，对于没有下载过的⽹站，会出现提⽰；对于已下载过的⽹站，有保存记录，⾃动关联当前⽹站的提取条件。

python代码如下：

import win32api

import win32con

import requests

from bs4 import BeautifulSoup

import webbrowser

import tkinter

from tkinter import filedialog

import pdfkit

# 预览

琉璃美人煞的原著小说

def take_body():

global url

global body_class

global headers

url = ()

body_class = ()

# 请求URL

headers = {

"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",

"Accept-Encoding":"gzip, deflate, br",

"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)

Chrome/65.0.3325.146 Safari/537.36"

}

荷花古诗

r = (url,headers = headers)

soup = t,"html.parser")

# 提取标题

global title

title =

# 判断该⽹站是否已下载转换过

f = open("","r")

a = f.read()

dict = eval(a)

f.close()

if url.split("/")[2] in dict:

body_class = dict[url.split("/")[2]]

无糖饮料可以当水喝吗

elif body_class == "":

win32api.MessageBox(0, "未从在该⽹站下载过⽂档，添加提取条件", "提⽰", win32con.MB_OK)

# 提取正⽂

if body_class != "":

body = soup.find_all(class_= body_class)[0]

# 对提取的内容，调⽤浏览器进⾏预览

html_test = str(body)

with open("html_test.html","wb")as f:

f.write(de("utf-8"))

webbrowser.open("E:PythonHtmlToPdfHtmlToPdf_V0.7html_test.html",new=0,autoraise=True) # html转pdf

def htmltopdf():

file_name = title + ".pdf"

types = [("pdf⽂件", "*.pdf")]

dest_dir = filedialog.asksaveasfilename(initialfile = file_name,filetypes = types)

options = {"encoding": "utf-8"}

pdfkit.from_file("html_test.html", dest_dir, options=options)

dict = {}

f = open("","r")

a = f.read()

dict = eval(a)

f.close()

向英雄致敬的经典句子dict[url.split("/")[2]] = body_class

f = open("","w")

f.write(str(dict))

f.close()

# 创建窗⼝

root = tkinter.Tk()

root.title("HtmlToPdf")

var_url = tkinter.StringVar()

var_body = tkinter.StringVar()

label_1 = tkinter.Label(root,text = "URL：").place(x=10,y=10)

text_1 = tkinter.Entry(root,textvariable = var_url).place(x=100,y=10)

label_2 = tkinter.Label(root,text = "输⼊提取条件：").place(x=10,y=55)

text_2 = tkinter.Entry(root,show = None,textvariable = var_body).place(x=100,y=55)

button_2 = tkinter.Button(root,text = "预览",command = take_body).place(x=250,y=50)

label_3 = tkinter.Label(root,text = "是否打印：").place(x=10,y=100)

怎样下载网上视频button_3 = tkinter.Button(root,text = "是",command = htmltopdf).place(x=100,y=95)

button_3 = tkinter.Button(root,text = "否",command = root.quit).place(x=130,y=95)

root.mainloop()

本⽂仅代表作者个⼈观点，不代表SEO研究协会⽹官⽅发声，对观点有疑义请先联系作者本⼈进⾏修改，若内容⾮法请联系平台管理员。更多相关资讯，请到SEO研究协会⽹www.seoxiehui学习互联⽹营销技术请到巨推学院www.jutuiedu。

慧智精品网

python批量保存网页为pdf_利用Python把网页内容转换为pdf格式文件，批量下载。。。

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

史记素材作文(实用)

汉代文学和经学的关系

汉代散文知识点总结

中国历史的六条脉络

简述汉代丝绸之路开辟的历史意义

汉代城址与墓区的择地规律

少年读史记汉帝国风云录概括300字

汉代文学在中国文学史中的地位与影响

汉试制度与科举制度的关系

汉代生产方式

汉代的思想大一知识点

汉代的科技成就与文化启示

马王堆汉墓的文化内涵与社会背景从文物解读历史

汉代社会的缩影

汉代经由古丝路上的文化交流与影响

汉书的内容

2022国开中国近代史纲要大作业

汉代经学知识点总结图解

秦汉时期的历史观与历史记载方式

汉代的文化成就

最新文章

中药泡脚的历史典故

关于司马迁的历史评价

“亲亲相隐”现象及容隐制度在中国历史中的演进

人教版七年级中国历史新增文物

国子监历史及简介

列举汉代碑刻隶书10种

标签列表

慧智精品网

python批量保存网页为pdf_利用Python把网页内容转换为pdf格式文件，批量下载。。。

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

史记素材作文(实用)

汉代文学和经学的关系

汉代散文知识点总结

中国历史的六条脉络

简述汉代丝绸之路开辟的历史意义

汉代城址与墓区的择地规律

少年读史记 汉帝国风云录概括300字

汉代文学在中国文学史中的地位与影响

汉试制度与科举制度的关系

汉代生产方式

汉代的思想大一知识点

汉代的科技成就与文化启示

马王堆汉墓的文化内涵与社会背景从文物解读历史

汉代社会的缩影

汉代经由古丝路上的文化交流与影响

汉书的内容

2022国开中国近代史纲要大作业

汉代经学知识点总结图解

秦汉时期的历史观与历史记载方式

汉代的文化成就

最新文章

中药泡脚的历史典故

关于司马迁的历史评价

“亲亲相隐”现象及容隐制度在中国历史中的演进

人教版 七年级中国历史新增文物

国子监历史及简介

列举汉代碑刻隶书10种

标签列表

少年读史记汉帝国风云录概括300字

人教版七年级中国历史新增文物