python读取word里面的内容--慧智精品网

python读取word⾥⾯的内容

1.将word⽂档转为html操作，通过bs4中的 BeautifulSoup 提取html中所需要的内容

步骤⼀：下载bs4 和 pydocx 并且引⼊

pip install bs4

pip install pydocx

# 读取word中的内容

from pydocx import PyDocX

from bs4 import BeautifulSoup # 将html转为对象的形式

步骤⼆：读取word⾥⾯的内容，并且解析

html = _html("C:\\Users\\Administrator\\Desktop\\test.docx")

soup = BeautifulSoup(html, 'html.parser')

不能换头像

"""

demo 表⽰被解析的html格式的内容

html.parser表⽰解析⽤的解析器

"""

soup.prettify() # 使⽤prettify()格式化显⽰输出

京东查询订单# print(soup.prettify())

title_list = soup.select("h2>span[style='text-indent:1.25em']", attrs={"style": "text-indent:1.25em"})

名牌奶粉content_list = soup.find_all('span', attrs={

"class": "pydocx-left"}) # 指定属性，查class属性为title的标签元素，注意因为class是python的关键字，所以这⾥需要加个下划线'_' print(len(content_list))

三伏天2022从哪天开始2.读取word⾥⾯的内容，以⽂本的形式，⼀段⼀段的读出来，通过样式去获去⽂档⾥⾯的内容

步骤⼀：下载python-docx，并且引⼊

pip install python-docx

# 引⼊

老师节日快乐

from docx import Document

步骤⼆：读取word⾥⾯的内容

title = ""

content = ""

titleArr = []

document = Document("C:\\Users\\Administrator\\Desktop\\test.docx")

# 获取所有段落

all_paragraphs = document.paragraphs

for paragraph in all_paragraphs:

if paragraph.style.name == 'Normal':

content = content + + '\n'

else:

obj = {"title": title, "content": content}

if content != '':

titleArr.append(obj)

content = ""农村信用社考试

title =

# print(obj)

发表评论

慧智精品网

python读取word里面的内容

发表评论

推荐文章

关于志愿者活动心得体会7篇

青年志愿者活动总结

志愿者活动总结范文十篇_1

垃圾分类实践总结(精选13篇)

学校志愿者活动总结4篇

热门文章

党员志愿服务活动心得

大学生志愿者社会实践总结1200字范文(5篇)

2021年志愿者服务心得体会精选15篇

志愿者服务队伍建设年度总结(精选7篇)

社区志愿者个人年终工作总结样本(6篇)

公益性岗位工作个人总结(4篇)

学生志愿者个人总结

志愿者工作总结范文15篇

关于2024年志愿者协会个人工作总结(2篇)

志愿者服务工作总结(精选5篇)

志愿者个人工作总结精选10篇

文化志愿者个人工作总结范文

志愿者联合会工作总结8篇

开展志愿者活动总结15篇

文明实践志愿服务的活动总结(通用5篇)

志愿者服务工作总结_

志愿服务活动的心得与感悟10篇

志愿服务关爱行动活动总结(通用10篇)

学生会志愿者活动总结5篇

社区志愿服务活动心得(精选6篇)

最新文章

青年志愿者活动总结

志愿者活动总结与反思范文(4篇)

2024年志愿服务总结(3篇)

志愿服务心得感受(通用10篇)

志愿者服务队工作总结整理四篇

志愿心得感悟200字(优秀9篇)

标签列表