Python爬取豆瓣指定书籍的短评--慧智精品网

Python爬取⾖瓣指定书籍的短评

#!/usr/bin/python

# coding=utf-8

import re

import sys

import time

import random

import urllib

import urllib2

import MySQLdb

# 爬取⾖瓣评论

class Douban:

# 构造函数

def __init__(self, url, name):

# 采集的地址

#self.url = 'book.douban/subject/26356948/comments/hot'

self.url = url

# 存储的⽂件名

self.filename = str(name) + '.txt'

# 数据库配置

self.database = {

'host': '127.0.0.1',

'username': 'root',

'password': 'root',

'database': 'douban',

'charset': 'utf8',

'table': str(name),

}

# HTTP请求超时

self.http_timeout = 10

# 请求计数器

# 错误代码计数器

<_counter = 0

# 数据库第⼀次错误

self.db_error_first = True

# 替换换⾏符

def replaceSpace(self, string):

string = place('\r\n', ' ')

string = place('\n', ' ')

string = place('\r', ' ')

return string

# 清洗单页评论，返回为单条评论的列表

def getCommentsPage(self, url):

user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36' headers = {'User-Agent': user_agent}

request = urllib2.Request(url, headers=headers)

try:

response = urllib2.urlopen(request, timeout=self.http_timeout)

comments_page_raw = ad()

reg = r'.*?<li.*?class="comment-item".*?>(.*?)</li>.*?'

comments_page = re.findall(reg, comments_page_raw, re.I | re.M | re.S)

return comments_page

except urllib2.HTTPError, e:

errmsg = 'HTTP Error: ' + e.code + ',' + e.reason

print unicode(errmsg, 'utf-8')

de == 403 de == '403':

# 服务器拒绝服务，等等...等等 (120)

print unicode('服务器拒绝服务，等等...等等... 等120秒', 'utf-8')

time.sleep(120)

response = urllib2.urlopen(request, timeout=self.http_timeout)

comments_page_raw = ad()

reg = r'.*?<li.*?class="comment-item".*?>(.*?)</li>.*?'

comments_page = re.findall(reg, comments_page_raw, re.I | re.M | re.S)

return comments_page

de == 404 de == '404':

# 已爬取完毕，结束程序

print unicode(' 已爬取完毕，结束程序', 'utf-8')

# 结束程序

else:

print unicode('HTTP 未知错误', 'utf-8')

# 错误次数累加

<_counter += 1

# 判断是否进⾏中断

_counter == 20:

info = '错误次数已达%d次，结束程序' % _counter

print unicode(info, 'utf-8')

# 清洗单条评论，返回单条评论的昵称、头像、内容...的列表

def getCommentsItem(self, comment_raw):

# 昵称，⾖瓣主页，头像，点赞，星级评价，⽇期，评价内容

reg = r'<div.*?<a.*?title="(.*?)" href="(.*?)".*?<img src="(.*?)".*?class="vote-count">(.*?)</span>.*?<span.*?title="(.*?)"></span>.*?<span>(.*?)</ span>.*?<p class="comment-content">(.*?)</p>.*?</div>'

# 匹配

comment = re.findall(reg, comment_raw, re.I | re.M | re.S)

# 返回数据

return comment

# 操作单页内容

def getPageContent(self, url):

# 获取单页评论的列表

comments = CommentsPage(url)

# 迭代出单条评论

for comment in comments:

# 清洗单条评论

contents = CommentsItem(comment)

for content in contents:

# 存到⽂件

self.saveFile(content)

# 存到数据库

self.saveDatabase(content)

# 测试输出

def testPrint(self, content):

print content[0]

print content[1]

print content[2]

print content[3]

print content[4]

print content[5]

placeSpace(content[6])

print '\n'

# 保存到数据库

def saveDatabase(self, content):

连接apple id服务器时出错# 打开数据库连接

db = t(

self.database['host'],

self.database['username'],

self.database['password'],

self.database['database'],

charset=self.database['charset'],

)

# 获取游标

cursor = db.cursor()

# SQL语句

sql = "INSERT INTO %s (username, homepage, header_img, like_num, star_rating, publish_date, comment_content) VALUES ('%s', '%s', '%s', ' %s', '%s', '%s', '%s');" % (

self.database['table'], content[0], content[1], content[2], content[3], content[4], content[5],

# print sql

# 添加数据

try:

# 执⾏SQL语句

# 提交到数据库执⾏

dbmit()

except:

# 回滚

# 判断数据库是否是第⼀次错误

if self.db_error_first:

print 'Failed to find database table, Trying to create database [%s].\n\n' % self.database['table']

time.sleep(2)

# 创建数据表的SQL语句

create_table = '''CREATE TABLE IF NOT EXISTS %s (

id INT(6) NOT NULL PRIMARY KEY AUTO_INCREMENT COMMENT '评论id',

username VARCHAR(50) NOT NULL DEFAULT '' COMMENT '⽤户名',

homepage VARCHAR(200) NOT NULL DEFAULT '' COMMENT '⾖瓣主页',

header_img VARCHAR(200) NOT NULL DEFAULT '' COMMENT '头像',

like_num INT(6) NOT NULL DEFAULT '0' COMMENT '点赞量',

star_rating VARCHAR(10) NOT NULL DEFAULT '' COMMENT '星级评价',

publish_date VARCHAR(12) NOT NULL DEFAULT '' COMMENT '发表⽇期',

comment_content VARCHAR(2000) NOT NULL DEFAULT '' COMMENT '评价内容'

)DEFAULT CHARSET=utf8;''' % self.database['table']

# 执⾏SQL语句

dbmit()

# 设定数据库错误的标志

self.db_error_first = False

# 执⾏异常前的SQL语句

dbmit()

else:

# 数据库⾮第⼀次放⽣错误

print 'Database Error'

# 关闭数据库连接

db.close()

# 保存到⽂件

def saveFile(self, content):

# ⼀⾏数据（即⼀条评论）

# item = content[5] + '\t' + content[4] + '\t' + content[3] + '\t' + content[0] + '\t\t' + content[1] + '\t\t' + content[2] + '\t\t' + content[6] + '\r\n'

item = placeSpace(content[6]) + '\r\n'

# 尝试去将⽂件存储到⽂件

try:

# 打开⽂件

file = open(self.filename, 'ab+')

# 写⼊

file.write(item)

# 关闭⽂件

file.close()

except:

# 发⽣错误

print 'File Error'

# ⼊⼝函数

def start(self, first=1, last=10):

# 按设定页码，采集数据

for page in range(first, last + 1):

# 时间戳

timestrap = str(int(time.time())) + '000'

# get参数

getdata = {'p': page, '_': timestrap}

# URL编码的url

url = self.url + '?' + urllib.urlencode(getdata)

# 开始采集的提⽰信息

info_start = "----- ----- ----- [INFO] 正在获取第%d页 ----- ----- ----- \n%s\n" % (page, url) print unicode(info_start, 'utf-8')

# 休眠2秒

time.sleep(2)

# 获取第page页的内容

# 结束采集的提⽰信息

info_end = "----- ----- ----- [INFO] 第%d页已加载完毕 ----- ----- ----- \n" % page

print unicode(info_end, 'utf-8')

# 采集次数⾃增

# 判断采集次数，并根据条件休眠

quest_counter % 50 == 0:

# 特定情况下，休息60秒

print unicode('\n每采集50页，休息60秒...\n', 'utf-8')

# 休眠

time.sleep(60)

else:

# 普通情况下，休息随机的时间

_time = 5 + int(random.uniform(0, 6))

print unicode('sleep %ds\n\n\n' % _time, 'utf-8')

# 休眠

time.sleep(_time)

# 摆渡⼈

#url = 'book.douban/subject/26356948/comments/hot' # 短评地址

#name = 'baiduren' # 名称

# 芳华

url = 'book.douban/subject/27010212/comments/hot' # 短评地址

name = 'fanghua' # 名称

# 实例化爬⾍对象

bookSpyder = Douban(url, name)

# 设定爬取的页码范围，并开始爬取

bookSpyder.start(1, 333)

慧智精品网

Python爬取豆瓣指定书籍的短评

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

山西汉代政治,文化名人及作品

唐装的起源和历史演变

中国古代史阶段特征

中国历史上的汉朝文化发展

[汉代历史简介]汉代历史故事

历史汉代全部知识点总结

汉代经济发展对中国经济史的影响

汉代的文学体裁

汉源名字来历

简述汉代艺术的基本特征和美学风格

汉代文学的风格和特征

汉代陶瓷知识点归纳总结

汉代经济发展与中外贸易

中国古代史完整版

汉代的科学技术与数学发展

汉代的录囚名词解释

汉代对中国文化的影响-概述说明以及解释

汉代的思想大一统知识点

汉学与宋学的名词解释

汉唐文化交融研究

最新文章

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

互动训练B—《汉武帝巩固大一统王朝》

汉代耧车的历史价值

红星照耀中国汉代青铜读书笔记

湖南马王堆汉墓的发掘与研究

标签列表