基于语料库的新冠疫情网络谣言分析
基于语料库的新冠疫情网络谣言分析
刘艳姚凤禄李嘉颖吕可
安徽农业大学
提要:对基于具体事件的网络谣言进行语言特征分析既有助于深入发现网络谣言的语言特征,也有利于对今后类似事件中网络谣言的识别和预防。在自建新冠疫情网络谣言语料库的基础上,文章通过提取主题词对比分析的方法总结了新冠谣言的如下特征:主题词语义集中化、名词使用抽象化、动词施动者以民众为主、祈使词语具有强制意味。通过与人民日报官微语料的对比,发现官微语料语义更加明确、细节性更强(与官微相比,谣言具有以下特征:更多使用祈使类词语、对物资的关注更多、在时间设定上具有较强随意性、好用强制意味的词语来增强内容的权威感。总体上看,新冠网络谣言的特点集中表现在“多使用民众视角、语义具有强制性”两方面。
关键词:新冠;谣言;语料库;语言特征
引言
WeO2.0时代的到来,推动了微博、等网络社交平台的迅速发展,信息表达更加自由,传播也更加迅捷,同时却也导致了网络谣言的产生%网络谣言是指“依托各类网络媒体,在民间广为流传的未经官方
正式认可的事关公众利益或公众感兴趣的事件、事物或问题的一种阐述或解释”(丁颖、张簸,2019)。网络谣言的消极影响主要显现于传播环节,目前研究也多从谣言传播角度展开。王晰巍(2020)等通过对社交媒体环境下网络谣言国内外研究动态及趋势的分析指出:国内外学者都将社交媒体网络谣言的传播作为近些年主要研究方向,而未来主要的研究趋势是社交媒体网络谣言的治理、给出应对策略以及保证网络信息的真实性%网络言种内容的网络语言,在其信息真实性未经确认之前,普通网民是难以准确判断的,这也是很多网络谣言传播甚广的原因%因此,识别谣言是治理谣言的要%关于网络言别的
研究相对于传播研究来说要缺乏得多,其研究内容主要集中在以下三个方面:(一)对网络谣言用户的识别分析,如杨倩雯(2019)通过建立了包含3980个微博谣言发布用户信息和3514个普通正常用户信息行为特点的数据集,用XGBoost算法、支持向量计算法和朴素贝叶斯算法构建分类器进行分类实验,对微博谣言用户进行识别;(二)对网络谣言传播规律的分析,如吴晓等(2018)基于平均场理论研究网络谣言的传播规律,提出一个包含谣言澄清、遗忘率、文化程度和
#本文系教育部人文社会科学研究青年基金项目"长三角地区农业转移人口子女语言融合研究”(编号: 16YJC740047)阶段性成果。
中国语言战略
社交媒体结构因素的网络谣言传播动力学模型,对网络谣言传播规律进行了分析;(三)基于机器算法的谣言检测,如马鸣(2018)等通过对微博主题分类后提取出基于用户、传播特征、内容三方面的统计特征,融入相似度统计特征,对微博谣言的检测性能进行了提升。
,基于机学的研究占主导,而基于语言分析的则很少,后者在知网中仅到2篇相关论文,分别是程爱侠等(2014)对微博谣言的特征分析和符存(2015)对网络谣言语言学特征的分析%我们认为,对网络谣言进行语言分析具有重要的意义:(一)人工标记是机器分析的前提,语言分析是机器学习的基础%机器识别中的诸多难题,如:无意义数字或符号的有意干扰、语境造成的准确性误差、新词新义造成分词困难(夏松等,2019)等,都需要人工干预来提高准确性%(二)普通网民识别谣言的能力与网络谣言的传播关系密切,而目前研究多着眼于机器学习角度,对提升普通网民识别谣言能力的研究不足。这就更凸显了加强语言特征分析的意义%
从研究语料范围来看,模型建构类的论文多基于大数据的微博语料,实证类的分析则基于具体的某类事件。我们认为,对网络谣言的语言分析更加需要针对具体事件的语料分析,这是因为:网络事件类型多样,相应而起的网络谣言也具有不同的事件特征,基于具体事件的网络谣言研究分析可以更
深入地发现这一类事件中网络谣言的特征,也有利于今后同类型事件中网络谣言的识别与预防%
此外,已有研究成果证实:区分谣言和非谣言的特征、基于主题模式的谣言提取和谣言数据库的利用
平安夜发朋友圈的句子短句
是建立谣言检测模型的有效方法(马鸣等,2020)。因此,本研究试图在特定主题模式下,利用语料库,通过谣言与非谣言的对比来分析网络谣言的语言特征,以期推动网络谣言识别研究的进展%
2020年初始,新冠病毒肆虐,在此期间,有关新冠疫情的谣言纷纷扩散,各官方媒体迅速跟进,对网络谣言进行甄别,及时发布了大量的辟谣信息。我们选取2020年1月20日①至2月23日期间微博、等平台传播的已由官方媒体公示确定的网络谣言语料和同时期人民日报平台发布的信息语料,各建立了一个18000字和52000字的型语库,对比新冠疫情期间网络谣言(以下简称新冠谣言)的语言特征%
-新冠谣言语言特征分析
我们通过antconc整理了新冠谣言语料库中前100个主题词,将之归纳为以下几个范畴(见表1)#。
表1新冠谣言语料主题词分类及示例范畴例词
动词类诊治防护类
感染242.3、隔离206.0、确诊179.6、消毒137.6、防控79.03.雾化64.01.传染第二轮“双一流”建设高校名单公布
62.95,戴59.4、预防50.97
2020网络爆红歌曲疫情报道类转发147.7、通知98.10
其他类拉走41.66、撤35.10、传播34.12、抽调32.99
①网络流传的新冠疫情网络谣言最早产生于1月20日,故选取此日为数据收集的起始日期。
②表1只收了讨论中涉及的部分前100主题词,全部的前100词在表3中呈现。
基于语料库的新冠疫情网络谣言分析
续表
范畴例词
名词类
诊治防护类
肺炎69390、冠状病毒67898、病毒39892、新型32899、疫情29092、新冠7692、
冠状7198、潜伏期6397、流鼻涕(症状)14094、咳痰(症状)7694、发烧7194、感
冒6892、细胞4995、咳嗽3290
机构人类
钟南山12893、医院9994、外甥4691、朋友4597、驾驶员4290、病人4093、红十
字会3590、硕士3398
口罩49198、酒精8895、纳米级5191、大蒜4396、消毒水3391、淡盐水3391、纸
尿裤6490
地点类武汉54692、疫区9493、大润发3396、东城3296
时间类春节假期5191、今天50.14、每天44.50
其他类
请12196、大家11290、一律7790、紧急7698、各位4091、全部3790、务必3393、
不准3398、有效32.72
#词语后的数字代表关键值(Keyness)
qq自定义头像
接下来,我们对新冠谣言的语言特征进
行分析。
(一)语义集中化
通过范畴分类我们可以看出,新冠谣言主题词语义集中化的特征明显,表现为范畴集中化和内容集中化两个方面。从范畴来看,集中于动词和名词两大类,均以疫情诊治防护类为主。从具体内容来看,各范畴内部词语的语义也十分集中,如诊治防护类名词语义集中于症状描述,机构人类词语以“钟南山、医院、红十字会”出现频率最高,其他类词的语义内容也很集中,以祈使类为主。
(二)名词使用抽象化
通过观察,我们发现新冠谣言的名词使用具有抽象化的特点%具体表现在以下方面:
第一,对象称呼概括化%新冠谣言常用概括性较强的称呼语,如“大家、各位”等%这种称呼习惯与谣
言的传播途径联系密切,在微博等快速便捷的社交平台,谣言的受众为全体网民%使用“大家、各位”等概括性强、口语彩较重的语词能有效拉近与受众的心理距离,激发归属感,调动责任感、参与感,引发“从众效应”,从而为谣言的广泛传播夯实一定基础,制造更多的谣言扩
散源%
第二,主体外延模糊化%新冠谣言常用“外甥、舅舅、朋友、硕士”等模糊性较强的词
语来指称描述主体。谣言制造者以自己的亲属、朋友或高学历的知识分子来增加谣言“真实性”的8码,一方面为自己的虚张声势提供“科学依据”;另一方面也抓住读者心理倾向,诱使网民频频转发,并以同样的依据以增强信息的说服力%如:共青团中央专栏2020年1月3日澄清的网传谣言“朋友的女儿所在医院支援武汉前线医护发回的消息:望大家不要穿毛领或绒线的外套,其容易吸附病毒”。同平台2020年1月31日澄清的网传谣言“我亲外甥硕士毕业在深圳医院工作,被抽调研究武汉肺炎病毒……”。
第三,假借专家之名。新冠谣言语料中,“钟南山”的出现频率颇高。谣言发布者往往将一些主观预测冠以“钟南山”的头衔,利用民众对钟南山院士的信任与敬仰,制造一些假新闻,博取受众的眼球%如腾讯较真平台2020年2月9日澄清的一则网传谣言“钟南山院士说:'至今确诊一万多例,无一
中国语言战略
素食者'”。
第四,假借科技术语。科技术语往往具有很强的权威性,却又离普通人的认知有较大距离,也成为谣言发布者的“良器”。对于“纳米级”、“雾化”、“抗病毒”这类术语,普通受众往往并不能完全了解,却望之便生起敬畏之心%下面的谣言便是利用了受众的这种心理:
腾讯较真平台2020年2月10日辟谣:“美国的抗病毒药瑞德西韦用在临床病人身上十分有效,危重病人已经开始好转……”
共青团中央专栏2020年1月20日辟谣:“全国几乎没有吸烟者因SARS而死亡的%烟是纳米级的%烟油子覆盖了肺细胞表面%相当于给每个细胞戴了一个纳米级的口罩……”
(三)动词施动者以民众为主
我们把语料库中的动词主题词按动作主体分为四类:医疗机构、社会机构、民众、病毒,具体归纳见表2。
表2新冠谣言动词主题词表
主体类别动词主题词数量医疗机构隔离/确诊/防控/防疫/防护/雾化/拉走7社会机构消毒/通知/封/撤/抽调/派送6
民众感染/流鼻涕/咳痰/发烧/干咳/传染/发病/咳嗽/转告/出门/返回/回来/夕卜
出/戴/预防/漱/吃/用/转发
19
病毒传播/附着2
从表2中数据可以看出,以民众为施事主体的动词占全部动词主题词的56%,一定程度上说明了谣言发布者多从普通民众的
视角出发制造虚假的疫情相关信息%其中,一连串的民众主体动词构建出消极的话语
框架“感染一返回一发病一传染”,隐喻民众在疫情预防中处于极其薄弱环节,感染疾病的风险甚高,进而散布恐慌情绪%
仔细分析,我们还可以看出:以医疗机构和社会机构为主体的动词都具有意义单一的特点和“一刀切”倾向,体现了谣言发布
者对于抗疫行为和举措缺乏细节的了解%(四)祈使词语具有强制意味
对新冠谣言的语料分析发现,常用“不要、一律、务必、不准”等强制性的祈使语词给读者造成心理压力,也是新冠谣言的一大特点%如以下谣言:
上海网络2020年1月26日辟谣:“根据新型冠状病毒感染的肺炎防控指挥部的公告要求,自2020年1月25日0时起,市区出租车一律停止运营……”
深圳发布2月6日辟谣:“刚接通知,定于今晚12点对全市主干道进行大面积消杀、消毒工作。因此次消毒药水浓度较大,
请各位于今晚10点后务必待在家中,不要随意出入,睡觉时请紧闭门窗%”
强制性的语言背后是谣言内容的虚假,体现了谣言发布者自知其内容的苍白,只能依靠语言的力量来虚张声势。
二新冠谣言和人民日报官微主题词对比分析
为进一步了解新冠谣言的语言特点,我们以同时期(2020年1月20日至2月23
日)人民日报平台发布的信息语料为对照,与之进行了对比分析。通过对人民
日报官微(以下简称官微)语料的观察,我们
发现其关于新冠疫情的报道从2019年12
基于语料库的新冠疫情网络谣言分析
月中下旬逐渐增多,话题集中于对疫情的防控工作和报道。通过Antconc提取出各自前100的主题词,根据语义分类对比如下(见表3)。
表3新冠谣言与人民日报官微主题词对照表
类别人民日报官微主题词新冠谣言主题词
诊治类例、病例、确诊、肺炎、冠状病毒、新增、感染、防
控、出院、隔离、医学观察、重症、发热、就诊、治
愈、、症状、病情、收治、首例、检测、救治、防
护、危重、核酸、病毒、咳嗽、入院、诊断、临床、体
温、传染病、发病、诊疗、床位、消毒(36个)
肺炎、冠状病毒、病毒、感染、隔离、确诊、流
鼻涕、消毒、防控、咳痰、新冠、发烧、干咳、感
2016年中考时间冒、雾化、潜伏期、传染、戴、预防、防疫、病
、发、嗽、护(24个)
处所类武汉、医院、湖北、黄冈、荆门、火神山、襄阳、孝
感、荆州、鄂州、黄石、方舱(12个)
武汉、医院、疫区、大润发、东城、新塘、瑞金
(7个)
类患者、卫健委、人员、门诊、医护人员、医疗机构、
疾控中心、人民、钟南山、专家组、乘客、男性、医
疗队(13个)
钟南山、大家、外甥、朋友、驾驶员、病人、各
位、红十字会、硕士、中西医、老公(11个)
报道类疫情、累计、接触、报告、截至、死亡、追踪、某某、
乘坐、解除、转发、扩散、车厢、通报、传播、抗疫、
直播(17个)
疫情、转发、通知、转告(4个)
修饰类新型、密切、疑似、定点、男、医用、公共(7个)新型、紧急、正常、全部、高速、有效(6个)祈使类/(0个)请、不要、一律、务必、不准、可以(6个)
物资类口罩、物资(2个)口罩、酒精、纳米级、大蒜、药物、纸尿裤、物资、消毒水、淡盐水(9个)
时间类目前、正在、已(3个)明天、春节、今天、每天、今晚(5个)
其他类其中、居家、接受、卫生、尚有、戳、开学、健康、含、
加油(10个)
sa?、出门、货机、回来、返回、烟油子、外出、
细胞、无、拉走、漱、身份证、吃、用、封、撤、呼
吸道、传播、抽调、处方、文案、派送、野味、健
康、附着、免疫力、在家、拜年(28个)
从表3可以看出,官微语料主题词较多地集中在诊治类、报道类和名称、处所类,谣言语料较多地集中在其他类、诊治类、名称类和物资类。由此可以看出这两类语料的不同语义倾向:官微对于新冠疫情的诊治情况更为关注,而谣言则更加关注处理措施。对比两类主题词,我们有如下发现:
(一)官微语料细节性更强、语义更明确第一,官微语料更关注诊治细节。通过对比,们发现官语比言语多“新增、出院、医学观察、治愈、首例、检测、危重、核酸、临床、体温”等诊治类主题词。这些词语的细节性更强,如“首例”、“X例”等表述更加精确,“治愈、危重”等的程度性也很明确。相比之下,谣言语料的诊治类主题词表义则比较模糊。
第二,官微语料处所、名称类专名所指更明确。前面我们分析过新冠谣言具有主体外延模糊化的特点,常用“外甥、舅舅、朋友、硕士”等模糊性较强的词语来指称描述主体。相比之下,官微语料的指称则更加明确,表现处、类主词更多,
离婚官司指更清楚。
第三,官微报道更详细。官微报道数据性较强,相关主题词,如“累计、截至、某某、乘坐”等,都搭配具体数字,体现了较强的科

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。