python爬取网页数据保存成word实训实验报告_python解析html提取数据，并生。。。--慧智精品网

python爬取⽹页数据保存成word实训实验报告_python解析

html提取数据，并⽣。。。

简介

今天试着⽤ptyhon做了⼀个抓取⽹站内容，并⽣成word⽂档的功能，功能很简单，做⼀下记录以备以后⽤到。

⽣成word⽤到了第三⽅组件python-docx，所以先进⾏第三⽅组件的安装。由于windows下安装的python默认不带setuptools这个模块，所以要先安装setuptools这个模块。

安装

html解析⽤到的是sgmllib⾥的SGMLParser url内容的获取⽤到的是urllib、urllib2

实现代码

# -*- coding: cp936 -*-

from sgmllib import SGMLParser

import os

import sys

import urllib

铀的半衰期import urllib2

from docx import Document

from docx.shared import Inches

import time

##获取要解析的url

class GetUrl(SGMLParser):

def __init__(self):

SGMLParser.__init__(self)

self.start=False

self.urlArr=[]

卫生间堵漏def start_div(self,attr):

for name,value in attr:

if value=="ChairmanCont Bureau":#⽹页js中的固定值

self.start=True

def end_div(self):

self.start=False

def start_a(self,attr):

if self.start:

for name,value in attr:

self.urlArr.append(value)

def getUrlArr(self):

return self.urlArr

##解析上⾯获取的url，获取有⽤数据

class getManInfo(SGMLParser):

def __init__(self):

SGMLParser.__init__(self)

self.start=False

self.p=False

self.dl=False

self.manInfo=[]

self.subInfo=[]

def start_div(self,attr):

for name,value in attr:

if value=="SpeakerInfo":#⽹页js中的固定值self.start=True

def end_div(self):

self.start=False

def start_p(self,attr):

if self.dl:

self.p=True

def end_p(self):

self.p=False

def start_img(self,attr):

if self.dl:

for name,value in attr:

self.subInfo.append(value)

def handle_data(self,data):

if self.p:

想念

self.subInfo.append(data.decode('utf-8')) def start_dl(self,attr):

if self.start:

self.dl=True

def end_dl(self):

self.manInfo.append(self.subInfo)

self.subInfo=[]

self.dl=False

台州旅游景点

def getManInfo(self):

return self.manInfo

urlSource="www.XXX"

sourceData=urllib2.urlopen(urlSource).read()

startTime=time.clock()

##get urls

getUrl=GetUrl()

getUrl.feed(sourceData)

UrlArr()

getUrl.close()

print "get url use:" + str((time.clock() - startTime)) startTime=time.clock()

##get maninfos

manInfos=getManInfo()

for url in urlArr:#one url one person

data=urllib2.urlopen(url).read()

manInfos.feed(data)

ManInfo()

manInfos.close()

print "get maninfos use:" + str((time.clock() - startTime)) startTime=time.clock()

#word

wd()+"\\xxx.docx"

doc=Document()

##word title

doc.add_heading("HEAD".decode('gbk'),0)

p=doc.add_paragraph("HEADCONTENT:".decode('gbk')) ##write info

for infoArr in infos:

i=0

for info in infoArr:

if i==0:##img url

arr1=info.split('.')

suffix=arr1[len(arr1)-1]

arr2=info.split('/')

preffix=arr2[len(arr2)-2]

wd()+"\\imgs\\"+preffix+"."+suffix

if not wd()+"\\imgs"):

os.wd()+"\\imgs")

imgData=urllib2.urlopen(info).read()

try:

元旦休息几天2023年f=open(imgFile,'wb')

f.write(imgData)

f.close()

doc.add_picture(imgFile,width=Inches(1.25))

except Exception as err:

print (err)

elif i==1:

doc.add_heading(info+":",level=1)

else:

doc.add_paragraph(info,style='ListBullet')

i=i+1

doc.save(saveFile)

print "word use:" + str((time.clock() - startTime))

总结

玩游戏的电脑配置

以上就是本⽂关于python解析html提取数据，并⽣成word⽂档实例解析的全部内容，希望对⼤家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题，如有不⾜之处，欢迎留⾔指出。感谢朋友们对本站的⽀持！

慧智精品网

python爬取网页数据保存成word实训实验报告_python解析html提取数据，并生。。。

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

史记素材作文(实用)

汉代文学和经学的关系

汉代散文知识点总结

中国历史的六条脉络

简述汉代丝绸之路开辟的历史意义

汉代城址与墓区的择地规律

少年读史记汉帝国风云录概括300字

汉代文学在中国文学史中的地位与影响

汉试制度与科举制度的关系

汉代生产方式

汉代的思想大一知识点

汉代的科技成就与文化启示

马王堆汉墓的文化内涵与社会背景从文物解读历史

汉代社会的缩影

汉代经由古丝路上的文化交流与影响

汉书的内容

2022国开中国近代史纲要大作业

汉代经学知识点总结图解

秦汉时期的历史观与历史记载方式

汉代的文化成就

最新文章

中药泡脚的历史典故

关于司马迁的历史评价

“亲亲相隐”现象及容隐制度在中国历史中的演进

人教版七年级中国历史新增文物

国子监历史及简介

列举汉代碑刻隶书10种

标签列表

慧智精品网

python爬取网页数据保存成word实训实验报告_python解析html提取数据，并生。。。

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

史记素材作文(实用)

汉代文学和经学的关系

汉代散文知识点总结

中国历史的六条脉络

简述汉代丝绸之路开辟的历史意义

汉代城址与墓区的择地规律

少年读史记 汉帝国风云录概括300字

汉代文学在中国文学史中的地位与影响

汉试制度与科举制度的关系

汉代生产方式

汉代的思想大一知识点

汉代的科技成就与文化启示

马王堆汉墓的文化内涵与社会背景从文物解读历史

汉代社会的缩影

汉代经由古丝路上的文化交流与影响

汉书的内容

2022国开中国近代史纲要大作业

汉代经学知识点总结图解

秦汉时期的历史观与历史记载方式

汉代的文化成就

最新文章

中药泡脚的历史典故

关于司马迁的历史评价

“亲亲相隐”现象及容隐制度在中国历史中的演进

人教版 七年级中国历史新增文物

国子监历史及简介

列举汉代碑刻隶书10种

标签列表

少年读史记汉帝国风云录概括300字

人教版七年级中国历史新增文物