python读取word里面的内容
python读取word⾥⾯的内容
1.将word⽂档转为html操作,通过bs4中的 BeautifulSoup 提取html中所需要的内容
步骤⼀:下载bs4 和 pydocx  并且引⼊
pip install bs4
pip install pydocx
# 读取word中的内容
from pydocx import PyDocX
from bs4 import BeautifulSoup  # 将html转为对象的形式
步骤⼆:读取word⾥⾯的内容,并且解析
html = _html("C:\\Users\\Administrator\\Desktop\\test.docx")
soup = BeautifulSoup(html, 'html.parser')
不能换头像
"""
demo 表⽰被解析的html格式的内容
html.parser表⽰解析⽤的解析器
"""
soup.prettify()  # 使⽤prettify()格式化显⽰输出
京东查询订单# print(soup.prettify())
title_list = soup.select("h2>span[style='text-indent:1.25em']", attrs={"style": "text-indent:1.25em"})
名牌奶粉content_list = soup.find_all('span', attrs={
"class": "pydocx-left"})  # 指定属性,查class属性为title的标签元素,注意因为class是python的关键字,所以这⾥需要加个下划线'_' print(len(content_list))
三伏天2022从哪天开始2.读取word⾥⾯的内容,以⽂本的形式,⼀段⼀段的读出来,通过样式去获去⽂档⾥⾯的内容
步骤⼀:下载python-docx,并且引⼊
pip install python-docx
# 引⼊
老师节日快乐
from docx import Document
步骤⼆:读取word⾥⾯的内容
title = ""
content = ""
titleArr = []
document = Document("C:\\Users\\Administrator\\Desktop\\test.docx")
# 获取所有段落
all_paragraphs = document.paragraphs
for paragraph in all_paragraphs:
if paragraph.style.name == 'Normal':
content = content + + '\n'
else:
obj = {"title": title, "content": content}
if content != '':
titleArr.append(obj)
content = ""农村信用社考试
title =
# print(obj)

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。