基于舆情数据的档案信息跨维度收集与分类研究
您的好帮手——《档案界论坛》
  业  务  研  究
53
档案管理
6/2019
总第241期
网络舆情数据是社会组织或个人在社会实践活动中直接形成的文字、图像、视频等多媒体数字信息,是对以往社会活动的清晰、确定的原始记录,具有鲜明的原始记录性,这与档案的本质特性是相同的,决定了网络舆情数据信息的档案属性。
1 舆情数据档案信息跨维度收集是档案管理工作的技术保障
无线路由器密码怎么改1.1 舆情数据收集是档案信息收集的基础。当前,互联
网舆情数据收集系统主要包含三种数据收集技术:人工收集、搜索引擎收集和第三方互联网机构定向收
集。
人工收集是指通过人工浏览网络平台,如门户网站、博客、论坛、贴吧等,跟踪敏感问题,通过人工监测获取有价值的数据和信息,经汇总、分析后观察社会舆论走势。人工收集是当前档案管理人员较常用的舆情数据档案信息收集方式之一。
搜索引擎收集按其工作方式主要可分为三种,分别是全文搜索引擎收集、目录索引类搜索引擎收集和元搜索引擎收集。搜索引擎收集的代表是360搜索、谷歌搜索和百度搜索。以百度搜索为例,据CNNIC发布的《2018年中国网民搜索行为研究报告》显示:百度日均搜索量超过50亿人次,截至2018年12月,搜索引擎是中国网民的最基础应用,百度搜索渗透率为97.4%,使用率略逊于即时通信。档案管理人员利用搜索引擎通过预先设定好的关键词,可以得到相对准确的舆情信息,对敏感舆情信息及时抓取,分类保存舆情数据,时刻监视舆情数据的动态变化。
抗美援朝精神
人工收集和搜索引擎收集是当前比较常用的互联网舆情收集技术,但是这两种收集方式的缺点是可提取关键信息的文本内容都比较短,容易因为数据稀疏导致在做相关运算时出现准确率和推荐召回率不高的状况。克服这一技术难题的方法借助第三方互联网舆情机构定向采集,通过对核心词的外拓实现了准确率和推荐召回率的同步提升。
第三方互联网舆情监测机构定向收集是指依托定向搜索和网络爬虫技术对web文本进行核心词抓取、
主题词过
滤、敏感词检测等技术,实现对网络舆情的分类汇总。网络爬虫(Web Spider)是一段代码或者一个小程序,它可以像蜘蛛在蜘蛛网上爬行一样自动采集网站上的数据。Web Spider不但能为搜索引擎采集数据信息,亦可作为定向信息采集器,对某些网站下的特定信息进行定向采集。第三方社会舆情监测机构定向收集拥有较为专业的数据监测和分类系统,可指定某个目标网站进行监测,定向抽取目标网站最新主题帖内容或某个主题帖的所有回复帖的内容;亦可不指定目标网站对全部网站进行监测,既可以对国内网站进行监测,也可以对国外网站BBC、Facebook、CNN 和Twitter等进行监测。
目前,技术比较成熟的国内第三方互联网舆情专业监测机构有人民网舆情监测室、中正舆情研究中心和中青舆情在线等。以人民网舆情监测室为例,可以全天候监测百度贴吧、强国论坛、西祠社区、新浪论坛、新华网、搜狐社区、网易社区、凤凰网、天涯社区以及用户指定的其他动态网站,可以为档案管理人员提供及时、准确和有针对性的舆情数据档案信息收集服务功能。
1.2 舆情数据预处理是档案信息收集的前提。当前,舆
情档案信息数据预处理常用的技术手段有三种:
第一,对文本进行预处理。文本预处理是对通过舆情采集器收集的未加工的 Web网页进行初步处理,
再对经初步处理过的网页文本进行发现话题和数字建模,文本预处理最重要的环节是进行特征选择和中文分词。中文分词对命名实体进行识别,采用 ICTCLAS 系统对所获语料标注词性和进行中文分词,基于词频提炼出web模型的特征向量对中文分词后的文本语料库进行向量化分析。分词技术是针对提交查询的关键词串进行处理,将收集到的网页文本内容转化为结构化向量。
第二,对话题进行检测。对文本经过预处理后的文本语料库形成了扩展空间向量模型VSM向量集。利用 VSM 各向量间的相似度,对文本进行话题检测和聚类,对文本内容分析的深度决定了聚类技术的效果,聚类技术的功能在于挖掘热点话题。一般情况下,可提取关键信息的文本
基于舆情数据的档案信息跨维度收集与分类研究*
冉朝霞
摘  要:当前档案管理人员的互联网舆情档案信息收集、分类和有效处理能力都存在一些问题,应着力提升档案管理人员对互联网舆
情档案信息的跨维度收集和分类能力,准确把握互联网舆情的内在特征及其演进过程中的潜在规律,实现对互联网舆情档案信息管理在技术和模式上的创新。
关键词:突发事件;网络舆情;多维信息;档案收集;档案分类
  业  务  研  究
54
档案管理6/2019总第241期
内容都比较短,容易因为数据稀疏导致在做相关运算时出现准确率和推荐召回率难以权衡的状况。克服这一技术难题的方法就是引入词扩展技术,通过对核心词的外拓实现准确率和推荐召回率的同步提升。词扩展技术是指利用特定算法对原始文本向量进行处理,使原始数据中的邻近对象形成核心明确、分布较为离散且粒度小的话题集合,将话题集合进一步划分为多个“微簇”,利用特定算法,对“微簇”进行二次聚类,用满足一定的阈值要求、质量较高的核心对象代表“微簇”。
第三,利用话题综合评价标准对话题进行过滤。运用语义识别技术,对之前采集的数据信息进行更深一步的过滤识别,通过对数据信息中句子的结构、语法及部分关键词的词义进行过滤处理,从而将信息转化为人们常用的语言,将大量复杂的信息简单化。从进行过聚类、过滤处理后的文本中提取中心词,将分析后的中心词进行组合,通过结构化分析获取中心词组,计算中心词组所涉及的文本数量,运算模块根据文本参数进行加权计算,统计热门关键词组的文本数量,获取热门关键词组的热度值。
2 舆情数据档案信息科学分类是档案管理工作的重要内容
互联网舆情数据档案信息分类有两种:一是即时分类,即时分类是在舆情的具体处理过程中,档案管理人员根据舆情的具体内容呈现以及运行的情况,对舆情产生的原因和舆情产生的核心体进行分析,着重对特定舆情的演进及应对进行分析预判。通过发现话题,捕捉受众情绪特点,关注话语分布时空特征,揭示舆情演变规律。二是深度分类,深度分类是在舆情处理完成后,档案管理人员依据舆情发展的结构性特点,挖掘出新的、深层次的热点话题,跟进媒体报道,追踪敏感事件,并通过IP定位发现受众的空间分布及传播路径,建立事件识别模式,监测热点话题,发现突发事件特征、规律,提取、分析与公众利益密切相关的部分,为互联网舆情数据档案信息入库提供科学的分类依据。
2.1 互联网舆情档案信息的定点分类。一般情况下,危
及社会稳定的舆情可能包含以下几种形式:段子、谣言、社会思潮、理论争鸣、示威游行或体聚集产生的舆情等,舆情监测系统须及时搜集这些舆情形式和信息,快速做出及时恰当的反应。档案管理人员利用智能搜索软件在对定点微博、、论坛、贴吧和重点网站等实行24小时不间断监控的基础上,通过预先设置好的关键词,对敏感信息和少数有影响力的意见领袖的言论进行定点抓取,并对收集到的社会舆情数据进行分类保存,持续观察舆情数据的动态变化。“突发性体事件中的网络舆情往往开始于网络中某位网友的爆料,抑或是媒体的报道,这些原始性信息会在公众脑海中形成首因效应,并通过微博、博客等形式构造信息链条。”[1]
2.2 互联网舆情档案信息的定向分类。档案管理人员对
互联网舆论要进行定向的有针对性的分析,判断出哪些意见和观点会自生自灭、自然消解,哪些意见和观点会演进成重大舆情危机。档案管理人员需要根据定向分析分类的结果和网络舆情的瞬时变化做出舆情走势预判,从情绪层面走向意见层面,再从意见层面走向行动层面。“趋势与定向判断是网络舆情分析与分类的核心,是应对与引导的依据,根据汇总到的舆情信息,通过系统的分析,做出关于舆情发展趋势与走向的基本判断,这一判断主要是在定量基础上得出的定向判断。”[2]
在网络舆情的定向分析分类工作中,必须时刻警惕新要素的加入,这些作为行为主体的新要素一般都具有一定的影响力,档案管理人员通过对新要素的话语结构和信息资源的再分配成为舆论场的行为主体,通过与公众的互动获得社会资本并将其转化为注意力资源,在事态发展的关键节点实现对舆论格局的影响,左右舆情走向。社会舆情的定向分类“有助于判断突发性体事件相关舆情的意见倾向,对网民意见和网络舆论的形成过程进行进一步分析,通过梳理,整理出网民对舆情事件的主体态度和总体倾向”。[3]
晚上拍夜景配一句话2.3 互联网舆情档案信息的定量分类。从宏观到微观是
一种研究事物的方法,档案管理人员要具备用定量分析的方法对定性描述进行度量,可以在微观层次上展现互联网舆情的变化,在更小的粒度上对互联网舆情进行定量评价,发现舆情的演化规律。
档案管理人员要从制度建设到日常运作层面切实回应民众需求,在进行互联网舆情定量分类时,档案
管理人员要重视微博和的转载量和跟帖数量,因为突发性体事件中微博和的转载量和跟帖数量是互联网舆情事件能否引起广大网民关注的显性指标,是网民意见的最直接表现。
2.4 互联网舆情档案信息的定性分类。突发事件发生以
后,人们获知的相关信息并不一定是事件本身的真实信息,档案管理人员首先要对事件真伪做定性判断,一般来讲舆论具有基于事实并且相对于事实本身的独立性,舆情在传播过程中,信息往往会发生变异,因此对事件真伪的判断是进行舆情定性分类的第一步。“人们认知这一世界往往通过多样的、情景化的、理性与感性并存的方式,在抓取这些复杂的情感、价值、信仰以及意见时,大数据技术仍有其弱点。”[4]网络舆情的定性分析与分类应尽快寻有力证据,厘清事实和谣言边界,杜绝舆情的外溢和偏离。
3 加强互联网舆情数据档案信息跨维度动态管理
3.1 构建互联网舆情数据档案信息管理跨维度互动模式。档案管理人员应将互联网舆情大数据档案管理与互
您的好帮手——《档案界论坛》
  业  务  研  究
55
档案管理6/2019总第241期
联网内容治理相结合,让数据流显现关联;将互联网舆情大数据档案管理与政府科学决策相结合,让信息流畅通无阻;将互联网舆情大数据档案管理和舆情日常管理相结合,让舆情流和谐运转。
架照3.2 构建互联网舆情数据档案信息多元管理模式。传统
档案管理结构模式中公众的参与度比较低。大数据时代为舆论的快速形成和公众对公共事务话语权的表达提供了讨论空间,由单一主体治理变为多元主体治理,多元主体治理的基本结构体现了混合的特点,多元主体治理的边界与范围不是简单的信息关联和多元混合。互联网和大数据技术拓宽了档案管理的内容,改变了档案管理人员和民众的连接与互动方式,因此需要寻求一种新的档案管理模型和良性互动的连接机制来消解传统档案管理成长的困境。
3.3 构建互联网舆情数据档案信息管理回应指标体系。
警惕舆情动态在复杂的演进过程中出现的不和谐因素,准确界定舆情等级,通过级别划分、舆情聚类、有效处置和事后评估构建舆情回应的指标体系,通过行为干预及早进行有效处置,汇编典型事件档案库。互联网舆情集中反映了当前热点,聚焦了矛盾和冲突,暴露了隐匿于风暴漩涡中的滥觞,档
案管理人员应从追问事实到反思制度,从线上舆论和线下互动的有效对接到挖掘方法和社会洞察的有效结合,构建互联网舆情档案管理回应指标体系,改进和完善档案管理中的制度性、结构性问题。
*基金项目:2018年度河南省委党校行政学院系统科研课题《网络社会治理与网络技术创新机制研究》(立项号:2018--216)阶段成果;2019年郑州市委党校科研服务教学专项调研课题《提升领导干部互联网管理能力问题研究》阶段性成果;河南省社会科学规划决策咨询项目《社会舆情的收集研判和有效处置研究》(批准号:2017JC49)后期成果。
参考文献:
[1]王玉琼,胡娟.突发性体性事件管理问题探讨[J].管理学杂志,2017,26 (5) :42 - 44.
[2]梁雪云.网络舆情的分析与分类机制研究[J].今传媒杂志,2016,5:16-17.
[3]姜鑫.收集、判断与沟通:突发性体事件的网络舆情研究[J].学术交流杂志2018,7:202-207.
[4]KITCHIN R.Big data and human geography: Opportunities, challenges and risks[J].Dialogues in Human Geography,2017, 3(3):262-267.
挖坑怎么玩(作者单位:中共郑州市委党校公共管理教研部  来稿日期:2019-07-14)
(上接52页)
哪个品牌奶粉好3.4 非物质文化遗产资源的开发、利用。科学技术是促
进社会进步的主要动力,数字技术已经对社会多个领域产生了重要影响,而且还有很大的上升空间。利用数字技术收集、整理非物质文化遗产档案有利于更全面、更安全、更系统地保护非物质文化遗产资源,但是很多非物质文化遗产资源蕴含丰富的文化价值和社会价值,所以除了保护以外,还要适度开发非物质文化遗产,尤其是要利用数字技术开发、利用非物质文化遗产,从而最大限度发挥非物质文化遗产的价值。
数字创意非物质文化遗产档案资源的开发最终目的是为了推动非物质文化遗产的传承,这也是社会进步的一个重要体现。从当前非物质文化遗产档案开发、利用的现状来看,很多地区已经实现了创新性开发。比如说申报非物质文化遗产的档案越来越多,流传于互联网的非物质文化遗产档案也越来越多。但是,因为经济利益的驱使,还存在过度开发利用的情况,这威胁到了非物质文化遗产的保护。因此,开发、利用非物质文化遗产的手段需要进一步完善。所以非物质文化遗产数字化开发必须遵循相应的技术路线:一是要系统地收集非物质文化遗产资源,利用数字技术提取、分类以及创意转化等形式,构建起具有地方特、民族特的文化符号体系,从而为后续的研究、开发奠定基础;二是设计非
物质文化遗产数字化创意产品体系,进一步探求非物质文化遗产资源可视化、交互体验的设计方法,建立合适的数字创意产品体系;三是进一步探究非物质文化遗产数字创意产品产业化发展方向,酝酿开发非物质文化遗产资源商业化运用策略,使其在被保护的基础上创造一定的经济价值。
参考文献:
[1]骆伟.地方文献学概论[M].澳门文献信息学会出版社,2008.
[2]章立,朱蓉等.非物质文化遗产三维数字化保护与传播研究——以惠山泥人为例[J].装饰,2016(8).
[3]刘鹏茹.我国非物质文化遗产档案资源数据库系统建设研究[J]浙江档案,2017(30).
[4]余日季.孝文化遗产的数字化开发与传承[J].湖北大学学报(哲学社会科学版),2017(3).
(作者单位:郑州二七纪念馆文物资料保管部    来稿日期:2019-08-02)

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。