第27卷第3期广东石油化工学院学报 Vol.27 No.3 2017 年6 月Journal of Guangdong University of Petrochemical Technology June 2017
网络舆情话题检测技术研究^
张尚韬
(福建信息职业技术学院计算机工程系,福建福州350003)
摘要:针对网络舆情BBS上的热点话题,提出了一种基于给定话题关键词的多级关键词话题检测算法,借助主次关键词、同 义词和变形词扩展,构建了层次化的话题模型。并加入命名实体识别技术和具有就近原则及周期性原则的话题时序关系^测试验证本算法较之传统的文本聚类检测算法更加有效。
关键词:网络舆情;话题检测与跟踪;文本聚类
中图分类号:TP393.1文献标识码:A 文章编号:2095 - 2562(2017)03 - 0041 - 05网络论坛BBS上存储和传输的信息很大程度反映一定时期社会各领域所关注的焦点;同时,大量良 莠不齐的信息也充斥其中。在充分发挥互联网作用的同时,也需要不断改善我国互联网发展环境。完善 互联网管理的基础保障工作,建立互联网发展与安全保障相结合的管理机制,解决互联网间互联管理的问 题。网络舆情中对BBS话题检测与跟踪是其中一项关键技术。国内很多高校和研究机构包括很多公司 都介入该领域的研究,但是相关研究
比较侧重基于TDT(Topic Detecting and Tracking,话题检测与追踪)本身 特进行探索。由于事件产生和后续发展包含了报道之间的时序关系,所以TDT研究不能单一基于内容 建立话题模型,而要结合时序关系检测话题关联性和跟踪话题发展演化趋势[1_5]。中国科学研究院计算 所、北京大学计算语言学研究所、复旦大学以及哈尔滨工业大学等国内著名高校及研究机构也开始进行 TDT相关关键技术研究[6]。2013年华南理工大学参与的海量舆情信息的网络舆情分析[7]是最典型的TDT 相关关键技术研究。TDT中话题跟踪研究方法一般是基于原有的信息检索基础的改进。此领域研究方法 通常是从新报道中抽取特征集作为话题特征,与原有话题模型进行匹配,亦或相关性计算,从而判定是否 为相关话题报道[8_1°]。与以往TDT研究技术相比,
本文的方案在给定话题的检测中提出了层次化的话
题模型,以多级主次关键词、同义词和扩展词等表示
给定话题。考虑到话题在时间上的临近相似原则、
前后周期性以及持续性,加入了具有周期性的时序
关系。设计了基于层次化话题模型的多级关键词权
重检测算法。并用此算法对天涯社区里“魏则西事
件”的帖子进行实验,对比传统,TDT效果较好。具
体研究流程见图1。图1话题层次化结构
1给定话题关键词
为快速准确定位网络舆论中的焦点话题,需要由用户给定焦点话题信息。本文研究的网络舆情中话 题检测和跟踪技术,其核心部分话题来自用户的输入。做如下假设:话题以关键词通过一定数据结构形式 表现;用户输入的话题信息为关键词或关键词组;当输入话题信息为关键词组时,即有多个话题关键词,
则 *
* 收稿日期:2017 - 03 - 20;修回日期:2017 - 05 - 04
作者简介:张尚韬(1980—),男,福建福州人,硕士,副教授,主要研究方向为计算机网络技术。
42广东石油化工学院学报2017 年
认为最先输入的第一个关键词重要性最高,随后关键词重要性依次递减。
这样通过用户输入话题关键词得到了话题的初 级模型,随后需要对此初级话题模型进行进一步处 理,以得到最终话题模型。
2构建话题模型
图为了准确描述话题信息,本文设计一种层次化 的话题结构,见图2。话题是以若干关键词按一定 语言逻辑组合给出的能够表达某一确定内涵的话题 关键词。话题结构就以涉及的若干有层次的关键词 来表示,并据此进行话题相关性鉴别。
话题词库以基础词库为基础,不断学习、更新,形成一个比较全面、系统的与话题有关的词库。话 题词库构建过程如图3所示。
2.1话题词库预处理
目前Internet 上各个站点,特别是各种论坛、BBS 或微博用户留言的特点,当用户在输入一些敏感关 键词的时候,会考虑到一些管制因素。他们为防止自 己的发言被网站过滤掉,会把这些敏感的关键词以 其他的方式表达出来,例如把文字换成拼音、在词中 间加入空格或者一些特殊符号、用同音字或者缩写 来代替等。话题词库的预处理机制则是用来解决此 类问题的。
话题词库的初始输入为用户输入的规范化的基 本关键词元素,话题预处理机制在此基础上通过一 套特殊的扩展规则生成话题关键词的扩展词或变形 词。把每一种表现形式制定一套规则来生成这种特 殊形式,主要的规则设计如图4所示。
2.2话题词库自适应学习
随着时间的推进,热点话题也相应逐渐演变,因此网络舆情发生了一定的变化。话题词库的自适应学 习功能将自动跟踪话题的变化过程并适当修正话题信息。
通过给定的话题关键词、与基础词库匹配得到的同义词、预处理得到的扩展词以及自适应学习得到的 新关键词共同构成了话题词库。此话题词库更准确全面地表达了话题信息。
3话题检测算法
3.1命名识别
命名实体定义为人名、地名、组织机构名、日期等类型。在各种专业领域中,还可根据具体需要定义其 他类型的命名实体,比如:住址、地址、电话号码、会议名称等。命名实体是描述话题或报道语义 的一类特殊语言单位,其对于精确刻画核心内涵和区别不同主题具有重要意义。3.2时序关系
将时序融入话题检测领域的主要策略是将其作为相关性计算的附加元素,通过线性加权的方式调整 相关度指标,建立了统一时间表述方式的机制,在此基础上将当前报道与话题框架下新近事件的时间取差 值,并利用该指标削弱基于内容匹配获得的相关度,其基本思想是:报道与话题时序关系越近,则它们相关
图4 话题词库预处理机制
插入特殊符号 英文翻译 同义词变换 缩写词变换
•级关键词
kw l
kw2
王题或话题卡
结构化关键—卜
素
kn l _
顯
轉
\k n."l kn2
_
[k n."2
\
鍵
图2
话题层次化结构
3 话题基本词库生成流程
同音字替换汉字拼音替换一i 及关键词
k l l
議
\k l."l k l2
_\1k l (2)
怎么建立n (
1
\\i k211\k2---l k22
]
k2 (2)
]
\
话
题关键词
话题词
库
第3期张尚韬:网络舆情话题检测技术研究43
的概率越大。
r 1I TIMEq-TIME,I^ 1
TIME =( TIMEq-TIME, )~a91+ i •\TIMEq-TIMEk\彡(i + 1) •m(1) 1〇,其他
式中:a为时间调整参数,此处a =0.25;m为设定的时间周期,天数;f为正整数以调整时序关系的周期跳
跃性。
3.3相关性检测算法
3.3.1算法说明
(1)用关键词来描述话题。用户输入的关键词称为主关键词(一级关键词)。话题词库中还存储一级关键词扩展匹配的扩展主关键词(二级关键词)。
(2)通过主关键词可以搜索到很多相关的帖子。这些帖子中各首帖的内容里某个词出现的频率较高,则把该词提取出来,作为该话题的次关键词。
(3)每个关键词占用一定的权重,某个帖子与给定话题的相关度由所有在本帖中出现的本话题的关键词的加权和表示。
(4) 如果相关度大于某个给定的阈值,则该帖与给定话题相关,否则不相关。
3.3.2关键词权重和阈值计算
设计算法公式之前,先确定以下符号的意义:
表示第f个关键词;
表示第f个主关键词;
表示第f个扩展的主关键词;
表示第f个次关键词;
w(^):表示关键词的权重;
):表示所有主关键词占用的权重;
^7%"):表示某个帖子7^与给定话题"的相关度,6卩^7%") = 2^(^),可假设0<^<1。
a:表示阈值,若a则相关,否则不相关。
首先,a>0.5,因为a完全是用来判断相关性的,只有满足多数原则才能相关。其次,a不能太大,如
a应该小于0.9,否则这种方法的有效性就较差,一般a<0.67。故a取值范围是0.5<a<0.67,考虑到舆
情研究对话题检测召回率的要求,a的取值暂定为0.55。
关键词权重确定中的基本假设:(1)由于扩展主关键词和次关键词均是由主关键词而来,所以可以假
定帖子中出现所有的主关键词,则该帖为相关帖。(2)单个的主关键词的位置越靠前,权
重则越大。(3)设定任意主关键词的权重一定要大于任意扩展主关键词和次关键词的权重,即w(P^)>
切U P&),切U P&) >切(%•),对任意f和y〇(4)扩展主关键词和次关键词的权重正比于它们出现的频率。
根据此基本假设,主关键词权重的计算步骤为:
(1)令),祕2 = )和祕3 = ),则祕1 +祕2 +祕3 = 1和祕1>^ 〇
(2) 为了满足基本假设第三条,&的值必须是变化的,且主关键词个数越多则%越大。
(3) 假定 &<0.9,主关键词的个数为 &,则令 = a + (0.9-a)x m in|l,(& - 1)/5}。
(4) 假设主关键词的权重从后到前为等比关系,设该比率为r,显然l<r<1.5。若r= 1.2,则w(P^)
= 2.07x祕(户尺5);厂=1.1,贝!J= 1.46x祕(户尺5)〇设主关键词为P^(l彡f彡A),贝!J
k - i
wiPK,) = rk~l w(PK k) =^-—w,(2)
S广1
j=1
其他关键词权重的计算步骤为:
(1)沿用确定阈值的思想,建议1^2 = 0;(1-^;1)和^;3 = (1-0;)(1-^;1)。
44广东石油化工学院学报2017 年
(2)假定单个的主关键词的权重依赖于它出现的次数,故它的权重是随其出现的频率和关键词的多少 而动态变化的。扩展关键词和次关键词的方法相同,下面以次关键词为例进行具体说明。设次关键词为 呢
出
现
的
频
率
为
/;,则
(3)出于性能的考虑,扩展关键词和次关键词的总个数不能太多,本文设定均小于10。3.3.3判断流程
如果各个关键词的权重已经确定,则可以进行如下的相关性检测判断:(1) 计算首帖中出现的主关键词的权重和^1 =
门孖) 1^(户&),如果^>«,则相关;如果^<« +
& -1,则不相关;否则进行下一步的判断。这隐含了:如果帖子中一个主关键词都不出现,则该帖为无关 帖。
(2) 计算首帖中出现的扩展主关键词的权重和 «s 2 = 门孖) 如果- ^,则相关;
<
a 一
、
一切
3,则不相关;否则进行下一步的判断。
(3) 计算首帖中出现的次关键词的权重和$3 = 门孖) w ; (
),如果 >s 3 > a - i - >s 2,则相关;否则
不相关。
4 实验
话题检测的实验数据全部来自天涯社区,本地数据库表BBSFILE 中存储的帖子数有557 860条。其 中,选择“魏则西事件”作为给定话题,结构化主关键词为“魏则西,百度,竞价排名,医院,虚假广告”。
实验以“魏则西事件”相关BBS 帖子作为话题检测的对象,通过本文提出的基于层次化话题模型的多 级关键词权重计算,得到魏则西帖子的话题检测结果,以及作为比较的传统K -最近邻居和支持向量机方 法检测的结果,如表1所示。
表1
话题检测结果 (%)
算法漏报率
错报率
召回率
正确率
F
Measure
Norm( CD et)尺-最近邻居0.255 10.151 60.744 90.848 40.793 30.203 7支持向量机0.296 00.144 90.704 00.855 10.772 20.205 3本文方法
0.193 8
0.127 9
0.806 2
0.872 1
0.824 6
0.177 4
在进一步加入命名实体识别和话题时序关系
后,计算得到话题检测实验结果,如图5所示。
在算法中加入命名实体识别和话题时序关系 后,可以看出在错报率相同的情况下,漏报率大大降 低,检测效果得到了一定的改善。
5 结语
0.02
0.04
0.06
0.08
错报率/%
0.10.12 0.14
本文借鉴经典的话题检测与跟踪相关技术,提 出了解决BBS 上海量帖子数据的话题检测与跟踪 方案。一^种基于给定话题关键词的多级关键词话题
图5命名识别和时序关系的影响
检测算法,借助主次关键词、同义词和变形词扩展,构建了层次化的话题模型。加入命名实体识别技术和 具有就近原则及周期性原则的话题时序关系。测试验证本算法较之传统的文本聚类检测算法更加有效。
[参考文献]
[1 ] Liwen J. Chinese Online BBS Sphere: What BBS Has Brought to C hina[D ] . Cambridge: Massachusetts Institute of Technology,2008 .
第3期 张尚韬:网络舆情话题检测技术研究 45
[2]李保利,俞士汶.话题识别与跟踪研究[J].计算机工程与应用,2003,39(17) :6 -10.
[3] Schwarz R M,Im ai T,Kubala F, et al. A Maximum Likelihood Model for Topic Classification of Broadcast News[C]//European Confer
ence on Speech Communication and Technology. Greece : Rhodes, 1997 .
[4] Allan J, Carbonell J, Doddington G, et al. Topic detection and tracking pilot study:Final report[C]//D arpa Broadcast News Tran
scription and Understanding workshop, San Franciso: Morgan kaufmann Publisher In c, 1998 : 194 - 218 .
[5] Yang Y, Ault T, Pierce T, et al. Improving text categorization methods for event tracking [j] .Proc Acm Sigir,2008.
[6] Yu M Q,Luo W H,Zhou Z T,et al. IC T’s Approaches to HTD and Tracking at TDT2004[C] . Gaithersburg M D:In Processing of
TDT2004 workshop, 2004.
[7]范绍瑜.基于海量舆情信息的网络舆情分析系统的设计与实现[D].广州:华南理工大学,2013.
[8]费绍栋.网络舆情突发事件检测与追踪关键技术研究[D].济南:山东师范大学,2015.
[9]朴乘锴,袁方,刘宇,等.基于改进的softmax回归模型的话题跟踪算法[J].燕山大学学报,2016,40(5):438-445.
[10]董坚峰.面向公共危机预警的网络舆情分析研究[D].武汉:武汉大学,2016.
Study of Topic Detecting and Tracking Technology for Internet Public Opinion
ZHANG Shangtao
(Computer Engineering Department, Fujian Polytechnic of Information Technology, Fuzhou 350003, China)
Abstract:For a large number of BBS hot topics, a detecting technology of topic with multi -level keywords is put forward based on given topic keywords,and a topic model is built with major keywords,subordinate keywords,synonym and extended keywords. At the same time name entity recognization technology is equipped with, and sequential relationship of topic with principle of proximity and periodic law is b u ilt. tests show that this algorithm is more effective than the traditional one.
Key words:Public opinion;TDT;Text clustering
(责任编辑:黄容)
(上接第4〇页)
[4]邓瑞,周玲玲,应忍东.基于K in e ct深度信息的手势提取与识别研究[J].计算机应用研究,2013,30⑷:1263- 1265.
[5]林海波,梅为林,张毅,等.基于K in e ct骨骼信息的机械臂体感交互系统的设计与实现[J].计算机应用与软件,2013,30
(2): 157- 160.
[6]鲁明,王真水,田元,等.一种基于K in e c t的虚拟现实姿态交互工具[J].系统仿真学报,2013,25(9):2124-2130.
[7]郭康得,张明敏,孙超,等.基于视觉技术的三维指尖跟踪算法[J].计算机研究与发展,2010,47(6):1013 -1019.
Application of an Adaptive Two Order Exponential Smoothing
Filter to Kinect Skeleton Extraction
CHEN Ke, XU Linfeng, LI Shujun
(College of Computer and Electronic Information, Guangdong University of Petrochemical Technology, Maoming 525000,China)
Abstract :In order to improve the stability of the skeleton coordinates obtained by Kinect, this paper puts forward a method based on second order exponential smoothing filtering. In this paper, the moving speed trend increment is introduced, and a linear interpolation method is adopted to realize the adaptive smoothing coefficient according to the current speed. Experimental results show that the proposed algorithm has a better smooth transition, and can effectively avoid the humanoid robot arm jit
ter caused by the mutation of original data.
Key words:Two order exponential smoothing; Kinect; Humanoid robot; Skeleton extraction
(责任编辑:黄容)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论