晋图学刊 2
023(2):1-12ShanxiLibraryJournal
收稿日期:2022-09-08
基金项目:安徽省高校科学研究重点项目“XR技术驱动下的非遗仿真数据服务研究”(项目编号:SK2021A0252);安徽财经大
学科学研究项目“混合虚拟技术环境下的情报动态分析仿真模型研究”(项目编号:ACKYC21057)
作者简介:富子元(1996-),男,在读硕士,研究方向为健康信息学。E mail:richardfu1210@foxmail.com
通信作者:朱学芳(1962-),男,博士,教授,研究方向为数字信息资源管理及服务、多媒体信息处理、信息可视化、数字人文、
模式识别与人工智能等。E mail:xfzhu@nju.edu.cn
引文格式:富子元,朱学芳,李川.突发公共卫生事件下健康信息需求的主题与用户情感实证研究[J].晋图学刊,2023(2):1-12.
·青年论坛·
突发公共卫生事件下
健康信息需求的主题与用户情感实证研究
富子元1,朱学芳1,李 川1
,2
(1.南京大学信息管理学院,江苏南京210023;2.安徽财经大学管理科学与工程学院,安徽蚌埠233030)
摘 要:本文以社会化问答社区为例,探究疫情期间健康信息需求的主题与用户情感变化特征,以期改进问答社区在突发事件中的应急策略,通过数据采集和清洗、文本预处理、LDA主题模型、BERT+BiLSTM情感分类模型对25540条数据进行知识挖掘和主题-情感协同分析。研究结果显示,本文使用的方案能够有效捕捉疫情期间网民需求健康信息的主题特征。在情感分类方面,B
ERT+BiLSTM模型的分类准确率较基线模型提升了11.75%。为更好地应对突发公共卫生事件,本文建议社会化问答社区应自行生产科学的健康信息、提高针对主题的舆情监控力度并积极引导用户认知。
关键词:社会化问答社区;健康信息需求;主题模型;用户情感;突发公共卫生事件
中图分类号:G202 文献标识码:A 文章编号:1004-1680(2023)02-0001-120 引言
2020年初,新型冠状病毒开始肆虐全球,让人们清楚地认识到医疗科技的飞速发展并没有使人类摆脱新型病毒造成的突发公共卫生事件的侵扰。在未来,人类与病毒共存依旧是常态。在面对突发的公共事件时,人类通过各种渠道寻求健康信息也将
成为常态[1]
。本次疫情传播速度快,感染范围广。在这场抗疫斗争中,人民众顽强拼搏,展现了同舟共济的深厚情怀。但在抗击疫情期间,社会化问答社区在其应急管理体系方面存在信息响应滞后、信息质量参差不齐等短板,如何及时提供满足大众所需求的高质量健康信息成为改进应急管理体系的关
突发公共卫生事件分为几级键一环[2]。另一方面,随着居民生活质量的不断提
高,社会大众的健康素养也得到了提升。据中国科
普研究所发布的《中国网民科普需求搜索行为报
告》显示,健康与医疗话题已然成为大众信息搜寻
的主要内容,而信息需求又被认为是用户信息搜寻
行为的起点[
3]
。如此看来,研究与疫情相关的信息需求对于提升健康信息搜寻效率有着重要的意义。
突发公共卫生事件指突然发生的、造成或者可能造成严重社会危害,需要采取应急措施加以应对
的各种卫生事件[4]。研究突发公共卫生事件中社会
化问答社区的健康信息需求,有利于捕捉卫生事件不同阶段的信息交互行为和信息供给关系,为今后有效抵御相似的重大卫生事件提供有价值的经验。
本文通过构建健康信息需求的主题与用户情感关联性分析模型,为疫情期间健康信息需求分析提供新的思路;同时对疫情事件下健康信息主题与用户情感实证分析,说明在疫情的各个阶段大众信息
需求和情感的异同,为消除大众的健康信息焦虑[
5]
和健康信息孤岛[6]提供数据支撑,并对社会化问答社区在抗击疫情中的不足提出合理的改进建议。
1 研究现状
1.1 健康信息需求研究
健康信息需求泛指人在遇到某类病情时为了维持自身健康而搜寻相关信息的需求。寻求信息的途径较多,大众多通过广播、电视、网络等媒介搜寻健康信息。其中,社会化问答社区的数据因其开放性和实时性常被用于满足日常信息需求[7]。
早期的健康信息需求研究目的是为疾病患者提供病理知识或疗养咨询服务,多采用问卷调查法和访谈法来获取用户的健康信息需求类别及其影响因素。随着互联网的飞速发展,健康信息需求者更倾向于
在社会化问答社区进行在线搜索,为了更好地改善用户的搜寻体验,网络健康信息需求开始受到关注:唐晓波等[8]采用内容分析法对39健康网中与高血压有关的问答数据进行研究;杨小溪等[9]收集了120份心理健康的问卷,采用清晰集定性比较分析法探寻出大学生对心理健康信息需求的5种触发路径;邓胜利等[10]收集COVID-19的问答数据,采用多维尺度分析,证明了不同的问答网站中用户健康信息需求的分布以及对时间的敏感程度存在的差异。之后,陈静等[4]基于聊天记录按时间划分为375份健康信息搜索记录,采用内容分析法和关联规则法对COVID-19(CoronaVirusDisease2019,新型冠状病毒肺炎)的健康信息需求展开研究,结论表明信息需求的动因与主题具有显著的相关性;ZhaoW.等[11]对知乎上10861个有关抑郁症的问题进行主题分析,发现用户更多关注抑郁症症状和抑郁症体的社交活动;WangJ.等[12]采用内容分析法对6个中国网络健康社区中与COVID-19相关的8178条有效的问答数据进行研究,研究结论显示大众需求的健康信息大致分成四个主题且男性与女性的健康信息需求并不相同。
早期的研究多倾向于研究健康信息的获取方式和健康信息需求时空分布的变化趋势。如今,社会化问答社区成为了热门的健康信息供求平台;在这些公开的新平台中健康信息需求本身也发生了变化,病患或是病患家属不再局限于向医生寻求健康信息,病患向病患、病患向大众寻求健康信息成为一种趋势。由此,健康信息需求相关的信息量正在飞速上涨。网络中的健康信息需求有着怎样的特征,如何对这些公开的信息进行加工和利用是当前值得研究的方向。
1.2 问答社区健康信息主题研究
社会化问答社区通过算法推荐将拥有类似需求的用户聚集在一起,信息的供求不受时空的约束并且充分发挥了集优势,其他用户提出的问题和问题的解答都会被平台聚类从而出现在需求者的搜寻结果中。如今公共卫生事件频发,健康信息需求获得了学者的广泛关注,对其的研究角度颇多,如从传播学的角度研究健康信息[13],也有学者从医学、信息学的角度研究健康信息需求[14]。随着技术的进步,学者尝试利用不同的方法挖掘健康信息的主题并对其展开研究。
金碧漪等[15]对国外论坛中与糖尿病相关的问答记录和社会化标签进行研究,通过不断调整编码方案,最终获得科学的主题划分策略,利用统计分析方法发现主题的分布特征;范昊等[16]在此基础上,使用LDA(LatentDirichletAllocation,隐含狄利克雷分布)算法对YahooAnswers平台655条问答数据进行主题挖掘,依照时间变化对主题的分布特征和变化趋势进行阐述,并解释其产生的原因;李重阳等[17]使用LDA和人工编码相结合的方法对百度知道中的问答数据展开研究并从主题的整体占比角度阐释主题的分布特征;石静等[18]分别从国内外论坛选取与糖尿病有关的问答数据,采用开放式编码并利用Gephi构造主题共现网络,分析各主题的热度并比较了国内外主题的差异;KeQ.等[19]也采用开放式编码法对百度知道下1681条与COVID-19相关的问答数据进行分析,研究结果将数据划分为8个大类和33个子类,依照各主题的相对占比提取出重要的主题,并构建了概念框架以解释各类主题
产生的原因。
多数研究工作只是改变了研究的方法和研究的对象,但结论都止步于主题的分类和主题的分布特征。隐藏在健康信息需求主题分布特征之下的信息没有得到深入的挖掘。本文将采用以LDA主题模型为主,人工编码修正为辅的方式,挖掘主题的变化特征和影响主题变化的因素。
1.3 问答社区用户情感研究
用户情感研究主要是对用户的情感倾向及其观点、喜恶进行分析。情感研究的应用非常广泛,可以进行用户评论分析、网络舆情监控、消费市场预测等。目前国内外对用户情感倾向的研究方法主要集中在基于情感词典的方法和基于机器学习的方法。
2晋 图 学 刊 2023(2)
基于情感词典的情感分类方法是指使用情感词
典对文本进行情感计算,以此来判断文本的情感倾
向程度:张鹏等[
20]
在情感词典的构造中融入了突发事件演化规律影响因素,选取杭州保姆纵火案微博语料进行情感分析,该情感词典结合了点互信息算
法进行分析,准确率得到了一定程度的提高;
LiS.等[21]采用情感词典的分类法对微博用户数据进行情感分析,因情感词典的人工扩充特性,在疫情初期,情感分类结果明显优于机器学习算法。但情感词典方法需要大量的人力来维护字典。同时情感词典分析长句型文本时会忽略上下文语境,从而影响最终的分类效果。
基于机器学习的情感分类方法成为了多数学者
的选择:曾子明等[
22]
基于多特征的AdaBoost(Adap tiveBoosting
,自适应提升算法)情感分析模型的分类法对1426条微博数据进行情感分析,结果表明增加主题特征数对情感分类效果有显著的正向影
响;赵杨等[23]
采用CNN-SVM(ConvolutionalNeural
Network-SupportVectorMachine
,卷积神经网络-支持向量机)情感分析模型探索影响海淘用户情感
的因素;
Al-Smadi等[24]
对24028条阿拉伯酒店的用户数据采用基于LSTM(LongShort-TermMemo ry,长短期记忆网络)的情感极性分析模型的分类法,基于机器学习的情感分类法往往将否定词认为是负面情绪词,而作者提出的模型不受否定词的影
响,其分类效果优于基线研究;
LiX.等[25]
比较多种算法在平板电脑评价的数据集中情感分类效果,发现
基于联合情感-
主题(JST,JointSentiment-Topic)模型的分类法最优。
在文本情感分析领域,基于BERT(Bidirectional
EncoderRepresentationfromTransformers
,基于Trans former的双向编码)和BiLSTM(Bi-directionalLongShort-TermMemory,双向长短期记忆网络)的情感
分类方法仍处在起步阶段,但郝彦辉等[
26]
应用BERT+BiLSTM模型对社交平台数据进行情感极性检测时显示该模型有着更好的情感分类效果。所
以,本文选择采用B
ERT和BiLSTM相结合的方法进行情感分类。2 研究方法与模型构建
2.1 研究问题
此次研究的目的在于探究突发公共卫生事件下用户健康信息需求的主题特征和用户情绪的变化情况,为下一次突发公共事件的有效治理提供参考。笔者将研究问题细化为以下3个部分。
Q1:在突发公共卫生事件时,问答社区中用户的健康信息需求有哪些主题?这些主题是否具有阶段性特征?
Q2:在突发公共卫生事件时,问答社区的用户在不同阶段寻求健康信息时的情感是否相同?若不同,其有怎样的变化特点?
Q3:在突发公共卫生事件时,问答社区中用户在搜寻不同主题的健康信息时其情感是否不同?
针对提出的问题,本文的研究思路和流程如图1
所示。
Fig.1 Researchideas图1 研究思路
3
富子元:突发公共卫生事件下健康信息需求的主题与用户情感实证研究
2.2 研究方法
2.2.1 数据来源与采集
本文的文本数据来源于知乎(https://www.zhi hu.com/)。知乎自2011年初推出至今已然成长为质量最高的社会化问答社区,其用户数已超3亿[27]。笔者以新冠疫情期间知乎上的提问数据作为健康信息需求的研究对象。数据源确定为2020年2月1日至2021年2月28日该平台“新型冠状病毒”话题下的问题文本数据、回答数、关注数和提问时间,将最终结果按照月份保存至对应的CSV格式文件中,共计得到25540条数据。
本文中新冠肺炎病例数据来源于新型冠状病毒
肺炎疫情分布(
http://2019ncov.chinacdc.cn/2019-nCoV/)。数据采集方式为人工采集,采集的数据为自2
020年2月1日至2021年2月28日,每月中国新冠肺炎总增长人数以及各省份每月新冠肺炎增长人数。经过核对无误后将结果保存至Excel文件中。2.2.2 文本预处理
由于知乎用户的知识水平和专业背景各不相同,所以他们在提问时所使用的词汇存在着差异,需
要对文本进行预处理[
16]
。本文使用百度LAC(Lex icalAnalysisofChinese,汉语词汇分析)和哈工大停用词表对收集到的文本进行预处理,包括分词、去标点符号、去停用词等。2.2.3 主题编码
利用数据编码可以将文本数据划分到具体的类目中,使得数据有序化,因此该方法常被用于处理社
会化问答文本[
28]
。早期针对健康信息的数据编码多采用人工方法加以确定,研究人员结合已有的主题词表,根据数据的真实情况不断调整数据编码的
规则。于此,有学者[
16-17]
认为这种方法虽然简单易用,但是受人为影响因素较大,其分类结果不客观。
所以,本文采用L
DA主题分类模型与人工编码相结合的方式确定待研究文本的主题编码规则。
潜在狄利克雷分布(
LDA)主题模型是由Blei[29]等人在潜在语义分析模型的基础上增加Dirichlet先验分布而产生的一种概率主题模型,其本质是一种基于概率图的三层贝叶斯主题模型,包
括文档、主题和词项三层结构[
27]
,因其可用于识别大规模文本集中潜在的主题信息,所以L
DA在文本分析领域备受关注。该模型将文档视为词的集合,文档的主题通过词的概率分布得出。本文将每一条
健康信息需求文本视作一个独立的文档。在L
DA模型中,一篇文档的生成过程如下:
第一步,从狄利克雷分布a→中抽取文档m的主
题分布参数θm~
Dir(α);第二步,从主题的多项式分布θm中取样生成文
档m第n个词的主题:Zm,n~Cat(θm)
;第三步,从狄利克雷分布β→
中生成主题Zm,n对应的“主题-词项”分布参数φk~Dir(β);第四步,根据词语的多项式分布φk生成主题Zm,n对应的词项:ωm,n~Cat(φZm,n)。LDA主题模型的文本主题
提取示意图如图2所示,该图中涉及的参数解释见表1
。
Fig.2 Schematicdiagramoftexttopicextraction
图2 文本主题提取示意图
4
晋 图 学 刊 2023(2)
表1 LDA模型参数说明
Table1 LDAmodelparameterdescription
符号含义M文档集合K主题数
α的狄利克雷分布先验参数β的狄利克雷分布先验参数θm第m个文档的主题分布φk第k个主题的词项分布Nm第m个文档包含的词数Zm,n第m个文档第n个词对应的主题ωm,n
第m个文档第n个词对应的词项
2.2.4 情感分类
文本情感分类实质上就是对带有情感彩的文本进行分析,挖掘其主观性的情感倾向,从而实现情感态度的划分。根据方法的不同,情感分类法可以划分为:基于情感词典的情感分类法、基于传统机器
学习的情感分类法和基于深度学习的情感分类法。基于情感词典的情感分类法能有效地反映文本的结构,易于理解,在情感词充足且明确划分的情况下分类效果较好;但情感词典需要不断扩充,面对疫情相关的信息,目前尚无广为认可的情感词典进行情感判断,分类可信度不高。基于传统机器学习的情感分类法能够通过不同的情感特征和情感分类器的组合对文本进行情感分类;但这一分类法不能充分利用上下文的语境信息,分类准确性不高,并且在处理较大的文本数据时效率较低。基于深度学习的情感分类法能充分利用上下文的语境信息,与传统机器学习方法相比,使用语言模型预训练的方法可以对多义词进行建模,有效缓解了大规模语料对模型结构的依赖问题。
BERT是谷歌公司在2018年10月发布的一种基于深度学习的语言模型,全称为BidirectionalEn coderRepresentationfromTransformers,实质是一种
基于转换器的双向编码表征模型[30]
。BERT采用
Transformer中的Encoder部分作为其最基本的单元,通过残差连接使得其网络能够捕捉语句中的双向关系进而实现双向编码。BERT基于字符来实现文本向量化,因此该模型可以充分利用上下文特征,不依赖分词的准确性。
本文经过BERT向量化后的健康信息需求文本T如式(1)所示:
T∈{T1,T2,T3……Tn
}。(1)双向长短期记忆网络(BiLSTM)是GravesA
等[31]
将前向LSTM和后向LSTM叠加而成的循环神
经网络,该网络有效解决了单向LSTM仅能分析上文信息的模型单向性问题。在BiLSTM模型中,每
个时刻都存在方向相反的两个LSTM门[32]。其中
前向LSTM将BERT输入的词向量T∈{T1,T2,T3……Tn}按顺序读取,输出向量集合为{h→
1,h→
2,h→
3
,…h→
n};后向LSTM将词向量T∈{T1,T2,T3……Tn
}按逆序读取,输出向量集合为{h→
′1,h→
′2,h→
′3,…h→
′n},最后拼接h→
i和h→
′i获得词向量Ti的特征向量hi,即BiLSTM的输出如式(2)所示:
hi={h→
i,h→
′i
}。(2)
本研究使用B
ERT+BiLSTM的方式,其模型结构图如图3所示。BERT采用Google开源的预训练模型“
Chinese_L-2_H-768_A-12”。2.2.5 分类效果评价指标
情感分类模型的评估指标主要包括:准确率(Acc)、精确率(P)、召回率(R)、F1值(F1),其计算公式如式(
3-6)所示:Acc=正确预测为类别Ai的和
所有预测样本的数量;
(3)Pi
=正确预测为类别Ai的数量预测样本中Ai的数量;(4)Ri
=正确预测为类别Ai的数量所有预测为类别Ai的数量;(5)F1i
=2RiPi
Ri+Pi
。(6)
公式中,Ai即A1,A2,A3分别指情感类别中的
正向类、中性类和负向类。3 实验结果3.1 数据基本情况
问题数、回答数和关注数是直接反映该问题需求程度的指标,通过对问题数、回答数和关注数按月求和,我们发现这三个指标的变化趋势基本趋同,依照这三个指标的涨跌趋势进行阶段划分可以较准确地反映需求者对健康信息的需求程度的变化趋势。本文按问题数、回答数和关注数的涨落趋势将13个月划分成四个阶段,如图4所示。3.2 健康信息需求的主题分析
本文考虑到数据的时间跨度较大,选择采用由3.1得出的不同时间阶段作为语料划分的节点,之
5
富子元:突发公共卫生事件下健康信息需求的主题与用户情感实证研究
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论