基于情感特征的新冠肺炎疫情舆情演化分析
2021年4月图 学 学 报 April2021第42卷第2期JOURNAL OF GRAPHICS V ol.42No.2基于情感特征的新冠肺炎疫情舆情演化分析
甘宇祥1,王亚博2,薛均晓2,张若琪3,许书宁2,郭毅博4
(1. 郑州联大教育集团,河南郑州 450001;
2. 郑州大学软件学院,河南郑州 450002;
3. 河南师范大学软件学院,河南新乡 453007;
4. 郑州大学信息工程学院,河南郑州 450001)
摘要:针对突发事件的舆情演变态势进行分析,发现社会舆情的演变规律,提出了一种基于情感特征的舆情演化分析方法,该方法包含舆论情感分析模块与舆情演化分析模块。舆论情感分析模块基于BERT预训练模型和BiGRU模型,其中BERT作为词嵌入模型提取舆情文本特征向量,BiGRU则用于提取文本特征向量的上下文联系实现对舆情数据情感极性的精准判别。在舆情演化分析模块中,将舆情的情感特征在时间维度上进行动态可视化建模,并基于其结果实现舆情数据的演化规律解析。在实验部分,利用2020年1月1日到2020年2月19日的100万条新冠肺炎背景下的舆论数据进行了数值实验,实验结果表明,该方法能够有效地对疫情背景下的舆情数据进行演化分析。
关键词:新冠肺炎;舆情情感分析;舆情演变分析
中图分类号:TP 391 DOI:10.11996/JG.j.2095-302X.2021020222
文献标识码:A 文章编号:2095-302X(2021)02-0222-08
Public opinion evolution analysis of “COVID-19 epidemic”
based on sentiment feature
GAN Yu-xiang1,  WANG Ya-bo2,  XUE Jun-xiao2,  ZHANG Ruo-qi3,  XU Shu-ning2,  GUO Yi-bo4
(1. Zhengzhou United Education Group, Zhengzhou Henan 450001, China;
2. School of Software, Zhengzhou University, Zhengzhou Henan 450002, China;
3. College of Software, Henan Normal University, Xinxiang Henan 453007, China;
4. School of Information Engineering, Zhengzhou University, Zhengzhou Henan 450001, China)
网络安全短句
Abstract: In order to analyze the evolution of public opinion under emergencies and discover the law of
the evolution of public opinion, a sentiment feature-based public opinion evolution analysis method was proposed, includdinga News Sentiment Analysis Module and a Public Opinion Evolution Analysis Module. The News Sentiment Analysis Module was based on the BERT pre-training model and the BiGRU model, where BERT was extracted as a word embedding, and BiGRU was employed to extract the contextual links of the textual feature vector to achieve a better understanding of the sentiment polarity of public opinion data. In the Public Opinion Evolution Analysis Module, this paper modeled the dynamic visualization of the sentiment features of public opinion in the time dimension, and then
收稿日期:2020-09-16;定稿日期:2020-10-23
Received:16 September,2020;Finalized:23 October,2020
基金项目:国家自然科学基金项目(6160051017);国家重点研发计划项目;河南省高等学校青年骨干教师培养计划
Foundation items:National Natural Science Foundation of China (6160051017); National Key R & D Plan; Plan for Young Backbone Teachers in Henan Province 第一作者:甘宇祥(1967-),男,河南信阳人,高级工程师,硕士。主要研究向为大数据与人工智能。E-mail:****************
First author:GAN Yu-xiang (1967-), male, senior engineer, master. His main research interests cover data and artificial intelligence.
E-mail:****************
通信作者:薛均晓(1982-),男,河南南阳人,副教授,博士。主要研究向为人工智能、网络空间安全等。E-mail:************* Corresponding author:XUE Jun-xiao (1982-), male, associate professor, Ph.D. His main research interests cover artificial intelligence, cyberspace security, etc. E-mail:*************
第2期甘宇祥,等:基于情感特征的新冠肺炎疫情舆情演化分析223
based on the visualization results, enabled the resolution of evolutionary patterns of public opinion data. Finally, a numerical experiment was conducted using one million pieces of the COVID-19 news data from January 1, 2020 to February 19, 2020. The experimental results show that the method proposed in this paper can effectively analyze the sentiment polarity of public opinion data.
Keywords: COVID-19; analysis of public sentiment and emotion; analysis of public opinion evolution
随着微博、抖音等网络社交媒体的兴起,每个网民均可以作为舆论源进行信息的发表、阅读与传播。社
交媒体的兴起一方面给人们带来巨大便利,另一方也带来了安全隐患。
当重大公共事件突发时,网民们往往不经过深思熟虑,便会在网上发表自己的见解,表达其对事件的情感态度,从而形成网络舆论[1]。自新冠肺炎疫情暴发以来,大众对疫情相关信息高度关注,在这样的背景下,社交媒体在信息聚合、舆论生成方面扮演的角越来越重要。通过分析新冠肺炎疫情下的网络舆论情感极性,可以获得公众对新冠肺炎事件的主要情感观点和价值取向,从而使相关部门能够更加准确地把握特定事件的焦点舆论和发展方向,进一步辅助其进行分析、决策,从而更有效地干预和引导舆论方向来实现科学战“疫”。
文本情感分析指利用自然语言处理(natural language processing,NLP)和文本挖掘技术,对具有主观情感彩的文本进行分析、处理、归纳和推理的过程[2]。就网络舆论情感分析而言,主要有基于情感维度模型的网络舆情信息分级等理论模型研究,情感倾向性分析、有如何构建网络舆情情感词典、用户情感和关系网络演化等技术应用研究,还有针对热门事件网络舆情情感分析的案例研究,形成了完善的网络舆情情感分析研究体系。所使用的情感分析技术包括基于机器学习和深度学习2种方法,其中机器学习方法使用TF-IDF等文本特征加传统的机器学习模型;深度学习方法使用卷积神经网络(convolutional neural network, CNN)和递归神经网络(recurrent neural network, RNN)模型去自动地提取文本特征。
本文基于情感分析和数据可视化方法,对新冠疫情期间的舆论情感态势进行研究。本文基于情感特征对
新型冠状肺炎疫情期间的网络舆论进行情感分析,构建了疫情期间的舆论情感极性分析模型。并结合相关舆论的情感特征对疫情期间的舆情信息进行了演变研究,从而更好地把握舆情演变的规律,提出针对性的方法应对舆情。为舆情系统的治理提供帮助,加强相关部分应对舆情的管理能力。
1  相关的工作
1.1  自然语言处理
NLP是用计算机来处理、理解人类语言,其属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又称为计算语言学。NLP技术可以将非结构化的文本转化为结构化信息[3],并允许计算机通过算法来理解人类语言。从研究内容看,NLP包括语法和语义分析、篇章理解等。从应用角度看,NLP具有广泛的应用前景。特别是在信息时代,NLP 的应用包罗万象,本文所涉及到的便是NLP中的文本情感分析。
1.2  文本情感分析
文本将情感分析方法分为:基于情感词典、基于机器学习和基于深度学习的情感分析[3]3类。其中,基于情感词典的方法主要依赖的是人工搭建的情感词典,周咏梅等[4]提出了构建基于HowNet和SentiWordNet的中文情感词典的方法,该方法在微博文本情感分析任务取得了不错的效果。但其属于无监督学习,会导致构建情感词典困难,从而消耗了大量的时间和精力,但并非广泛适用。
PANG等[5]2002年第一次在电影评论数据集上将机器学习的方法应用在文本情感分类任务中。常用的机器学习方法包括朴素贝叶斯、K最近邻、最大熵等。但这类方法需要人工构造大量特征从而获得更高、更好的分类效果,不仅如此,还需要大量的专业知识,此外仍存在泛化能力不足的问题,导致了此类方法只适用于特定场景。
而基于深度学习的情感分析方法则不需要特点领域的专业人士进行分析并确定分类特征,该方法的扩展性得到大大地提升[6]。最初应用于计算机视觉和语音识别方向,然后扩展到了情感分析的领域,并成为该领域的热门技术。HEIKAL等[7]通过构建CNN模型和LSTM模型进行情感分析。梁军等[8]基于情感极性转移模型的文本情感分析算法的
224 计算机图形学与虚拟现实2021年
实验结果显示,其较普通LSTM和RNN模型有更好的效果。传统的深度学习模型是将特征设置为相同的权重进行训练,从而导致无法更好地关注短文本中对情感类别贡献较为突出的特征。随后Google Mind[9]团队首次提出自注意力机制,由于该机制依赖参数少,且能够更好地帮助模型获得文本特征,表现出优秀的文本处理能力,也因此广泛应用于文本数据挖掘中。
1.3  舆情演化分析
舆情事件的演化过程往往具有生命周期[10]。国内外研究者均对舆情的传播过程进行了探索,这些研究根据不同角度将舆情按照事件发生序列和发展生命周期来划分阶段并构建模型。其中比较突出的传播模型包括BURKHOLDER和TOOLE[11]提出的三阶段模型、文献[12]在三阶段模型基础上提出的四阶段模型;方付建[13]将网络舆情发展历程划分为孕育、扩散、变换和衰减4个阶段。潘崇霞[14]将演化历程简化为初始传播、迅速扩散和消退3个阶段。同时学者们也对突发事件网络舆情各个阶段的特征进行了相应地分析。
1.4  门控循环单元
门控循环单元(gated recurrent unit,GRU)是循环神经网络的改进。其通过引入更新门和重置门机制,有效地解决了RNN在训练过程中出现的梯度爆炸和梯度弥散问题[15]。相较于长短期记忆网络(long short-term memory,LSTM),GRU简化了神经网络结构,减少了模型的参数,并提高了训练速度(图1)。在解决序列数据处理任务中,GRU网络可以学习句子中单词的长期依赖性,还可以更好地对文本进行表征和建模[16]。GRU网络不仅可以通过存储单元存储句子中的重要特征,同时还能选择性地忘记一些不重要的信息。在GRU网络中,每个神经元包括1个存储单元和2个门单元。
图1  GRU相比LSTM的改进
Fig. 1Improvement of GRU compared to LSTM
1.5  BERT
目前,在NLP领域,现有模型大多使用Word2V ec 或Glove等词向量训练工具,然而这些模型训练的词向量本身就具有一定的自身缺陷,是属于静态编码的一种,同一单词在不同的上下文语义环境中会表达相同的含义,这使得模型对语义的理解会产生一定的偏差。
为了充分利用左右两侧的上下文信息,体现句子语义的空间相互关系,2018年10月,Google的DEVLIN等[17]提出了预训练模型BERT (bidirectional encoder representation from transformers)(图2),该语言表示模型采用了基于微调的多层双向Transformer编码器,并用于进行文本特征的提取,从而达到融合字
左右两侧信息的效果[18]。自注意力机制是BERT 编码器的核心,可以得到词的双向表示,并创新性地提出了Masked语言模型与下一个句子预测任务。BERT模型输入的是3个向量的和,对于每一个输入的词,其表征包括词向量(token embeddings)、分段向量(segment embeddings)和位置向量(positions embeddings) 3部分。BERT向量相比于Word2Vec 等模型词向量固定不变以及短距离单向的前后文信息融合,其融合了其他模型的优点,同时也替代了其缺点,能够充分结合上下文动态生成特征向量,表征字的多义性,因此该模型在多种NLP的后续特定任务上取得了良好的效果[19]。
图2BERT结构图
Fig. 2BERT structure diagram
2  方法介绍
2.1  方法概述
为了能够更好地对疫情期间的舆论数据进行舆论情感极性分析与演化分析,如图3所示,本文提出了基于情感特征的疫情期间舆论情感极性分析算法来对疫情期间的舆论数据进行情感识别,在BERT模型后
面加了一层BiGRU,用来更好地捕获词向量之间的上下文联系,并对疫情期间的舆论数据进行精准的情感极性识别。接着联合疫情期间感染数据对舆情数据进行演化分析。通过对负面舆论
第2期 甘宇祥,等:基于情感特征的新冠肺炎疫情舆情演化分析 225
每日变化数据与疫情期间每日感染数据进行关联来探寻舆情演变规律,并通过计算词频的方式探究不同情感极性下的舆论热点。
图3  方法结构图
Fig. 3  Method structure diagram
2.2  方法推导
传统的词向量模型适合对短句和简单的句子进行分析。为了解决一词多义的问题,还应考虑上下文本及单词与单词之间的关系。BERT 模型是Google 提出的语言表示模型,与传统文本情感分析相比,BERT 可以更好地覆盖上下文之间的联系,本文使用Google Research 发布的预训练模型。
通过BERT Base 提取文本特征。对于输入的文本可使用Bert 进行特征提取,即
()n C BERT tn = (1) 模型取[CLS]标记在BERT 训练的最后一层的输出C ,加上权重W 作为双向GRU 模型的输入,即
()i a i a g c b =⨯+W  (2) 其中,1≤i ≤n ,n 为BERT 输出的特征维度;b 是偏置量;激活函数g 为Sigmoid 函数。
模型将输入向量送入BiGRU 中,使用2个GRU 从2个不同的方向计算向量序列,最后将2个方向的结果进行合并输出,即
()i i h BiGRU a = (3) 然后使用Softmax 函数对BiGRU 输出的特征向量进行分类,得到最后的情感极性识别结果。
3  实  验
3.1  实验数据集介绍
本实验选取的数据集为中国计算机学会所举办的疫情期间网民情绪识别比赛中所提供的数据集,该数据集依据与“新冠肺炎”相关的230个主题关键词进行数据采集,抓取了2020年1月1日至
2020年2月20日期间共计100万条微博数据,其中10万条为标注数据,被分为消极、积极与中性3类,见
表1。在本文实验中,本文使用其中10万条标注数据作为训练集来训练疫情期间舆论情感极性分模型。然后利用训练得到的模型对另外90万条未标注数据进行情感极性的识别,并利用可视化技术研究舆情演化与疫情之间的潜在关系。
表1  部分数据集展示
Table 1  Partial data set presentation
时间 舆论数据内容
标签
01月08日15:38
九旬老人拿放大镜写感谢信#:病痛时你们护我周全,康复时我要说声谢谢
正面 01月23日
22:44
现在有横扫附近药店高价出售口
罩的小人;现在有生病还四处乱跑的病人;现在有很多制造谣言和跟风谣言的人;现在还有不听劝的一些人
负面 02月18日
14:10
世卫组织在日内瓦召开发布会,介绍新冠肺炎疫情的最新情况。会上,世卫组织总干事谭德塞表示
中性
同时为了验证本文方法的有效性,人们在开源的潭松波酒店评论数据集上进行了模型性能的测试。该数据集共6 000条样本,其中情感积极样本
3 000条,负面情感样本3 000条。 3.2  实验参数
本文使用Tensorflow 2.0搭建疫情期间舆论情
感极性分析模型,使用的硬件设备为NVIDIA
RTX2080Ti 。
模型中的词嵌入部分为Google 开源的BERT 预模型,其参数见表2。本文使用的损失函数为交叉熵损失函数,并使用Adam 算法对损失函
数进行优化。
表2  模型参数设置
Table 2  Model parameter setting
参数名称 具体设置 学习率 1e-5 Batch Size 16 迭代次数    2 文本最大长度
140
226 计算机图形学与虚拟现实2021年
3.3  情感极性分析实验
为了验证本文方法的有效性,将其与几种主流
的实验方法进行了实验结果对比,并使用了准确
率、召回率和F1 Score等指标对实验结果进行评测。
召回率是某类判断正确的数目除以测试集中该类
的数目。
(1) TF-IDF+LR:TF-IDF用来评估字词对于一
份文件集或一个语料库中的其中一份文件的重要
程度。字词的重要性随着在文件中出现的次数成正
比增加,但同时会随着在语料库中出现的频率成反
比下降[20]。本文先提取文本的TF-IDF特征,然后
使用LR进行分类。
(2) LSTM:长短期记忆网络是一种特殊的
RNN,主要目的是解决长序列训练过程中的梯度消
失问题[21]。
(3) TextCNN:将CNN应用到文本分类任务,
利用多个不同size的kernel来提取句子中的关键信
息,从而更好地捕捉局部相关性[22]。
(4) BERT-Base:BERT是谷歌发布的大规模文
本预训练模型,这里使用的BERT-Base仅为BERT
预训练模型提取文本特征后不做任何处理,然后使
用Softmax进行文本分类。
按照1∶4的比例切分训练集和验证集,其中
训练集用于疫情期间舆论情感极性模型的训练,验
证集则用来验证本文方法的有效性。其对比实验结
果见表3。
表3不同实验方法的性能表现
Table 3 The performance of different
experimental methods
数据集方法准确率召回率F1 Score
疫情期间网民情感数据集TF-IDF+LR 0.608 0.601 0.599 LSTM 0.652 0.638 0.640 TextCNN 0.641 0.633 0.631 BERT-Base 0.749 0.709 0.713 本文0.753 0.714 0.716
酒店评论数据集TF-IDF+LR 0.813 0.806 0.801 LSTM 0.865 0.860 0.858 TextCNN 0.869 0.862 0.870 BERT-Base 0.933 0.929 0.930 本文0.941 0.942 0.939
从表3可看出,本文方法在疫情期间的舆论情感分析中相比其他方法,在4个指标上均有较大程度的提高。其原因:①在大规模数据上,训练得到的BERT预训练模型能够涵盖到更多的信息来应对突发的疫情期间舆论数据;②本文方法在引入BiGRU之后可以更加有效地提取舆情数据中词与词之间的联系。
3.4  疫情期间舆情数据情感演化分析
使用前文训练所得到的疫情期间舆论情感分析模型对另外90万未标注的舆论数据进行预测,然后将该数据和新冠疫情期间每日新增人数与患者总数目进行关联与可视化分析。各类数据占比如图4所示。其部分预测结果见表4,可以看出对于这90万的未标注数据,本文模型也能实现较为精确地识别结果。其中,0代表负面数据、1代表中性数据、2代表积极数据。
图4各类情感极性舆论数据的占比
Fig. 4Percentage of various emotional polar news
表4  部分预测数据展示
Table 4 Part of the forecast data display
时间舆论内容标签
01月21日
23:10
武汉出现的2019-nCoV,建议不要
恐慌,学会去预防中性
01月21日
23:10
没有什么困难是可以打倒伟大的
中华民族的,为奋斗在一线的各
位医护人员和工作者祈福
积极
01月21日
23:11
感觉自己鼻塞,呼吸困难,喉咙有
点疼,不确定有没有发烧,但确
定的是没有接触武汉人
负面
考虑疫情的变化的波动会影响公众发表舆论的情感,例如在疫情高发期间,不断增长的感染者数目会造成社会恐慌,也会直接影响负面情绪舆论的数目变化,所以将每日新增人数与每日感染总人数与负面舆论每日变化数目进行关联与可视化分析,并将其结果绘制成图,图5中左边的纵坐标为全国每天新增确诊人数,右边的纵坐标代表每天的

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。