科学管理〈〈〈KEXUEGUANLI D01:10.16565/jki.l006-7744.2021.04.28党政机关重要网页电子文件归档管理研究
没有身份证可以坐高铁吗王程程穆佳桐
摘要重要网页具有档案资源的原始记录性、易逝性、价值性等特点,这都要求应当对重要网页的归档工作给予足够重视,据I 构建涵盖重要网页电子文件的创建、采集、数据管理、存储和利用整个过程的党政机关重要网页电子文件归档管理实现模式i
关键词党政机关重要网页归档管理需求分析
中图分类号G271文献标识码A收稿日期2020-09-03
★作者简介:王程程,西安工程大学档案馆馆员,文学硕士,研究方向为档案管理;穆佳桐,辽宁省档案馆副研究馆员,档案学学士,研究方向为档案管理。
Research on Electronic Documents Filing Management of Important Web Pages of Party and Government Organizations
Wang Chengcheng,Mu Jiatong
Abstract Important web pages have the characteristics of original record,perishability and value of archival resources,which requires that we should pay enough attention to the filing work of important web pages,and construct the implementation mode of electronic documents filing management of important web pages of party and government organizations covering the whole process of creation,collection,data management,storage and utilization of the electronic documents.
Keyword party and government organizations;important web page;filing management;demand analysis
一、党政机关重要网页电子文件归档需求分析
网络资源保存项目最早由欧美国家提出和开始实施,自1996年开始,澳大利亚、加拿大、瑞典等国就由国家图书馆或档案馆着手实施这类项目。此后网络资源保存的思想扩散到其他国家,使得有更多的国家参与进来,不过负责这类项目的机构通常都是各国的国家图书馆,而档案馆则较少参与进来,目前已有加拿大、英国等国家的国家档案馆开始实施这类项目。档案 机构承担着对互联网的党政机关重要网页电子文件进行归档的责任,对这类机构的重要网页电子文件进行归档十分重要。互联网中党政机关的重要网页资源具有很高的价值,这种价值体现在历史、文化、研究和经等,对这重要网的档
的重,是保存和实现这些网络资源的有要。此,重要网自的要对档
够重视,否则整个社会将面临这些网页资源一旦失去后众多历史记录缺失的风险。
最可怕的恐龙第一名首先,重要网页具有档案资源的原始记录性。互联 网中的信息真实记录了党政机构网络活动的真实表现和行为,这些信息以文字、图像、声音等丰富的形式展102!LANTAI WORLD兰"世界现出来,能够生动直观地反映国家、社会和各级党政机构的网络和,而档案资源
憋回去的屁会消失在身体内部吗有的始,这,重要网资源与档案的本质属性是共通的。
其次,重要网页具有档案资源的易逝性。根据美国国会图书馆发布的一项调查报告显示,有四成的网站在年后,而网的则更,网资源的平均寿命只有短短的44天。可以想象,一个包含了声音、文字和视频等多种形式信息的网页最终难逃因为网站建设变更、内容调整或更新而消失的最终命运,这些网页资源如果没有得到有效保存,都将无声地消失在互联网中,这要求我们对党政机关的重要网页资源进行归档保存。
最后,重要网有档案资源的价值性。档案的价值主要体现在档案能够对某类从事有关社会实践活动的社会主体或个体产生某种效用,而网页完全具备了作为记录网络活动相关信息的真凭实据作用,因而也具有了档案的凭证和情报价值。以曾经影响大的腾讯珊瑚虫案为例,在该案的庭审中,原告律师向法庭提出了一个重要证,该证据显示腾讯旗下的
科技频道曾经在其网页上提供了可供用户下载珊瑚虫相关的产品链接,该证据来源于美国互联网档案馆(/)网页数据库,从该库中,我们可以到2005年10月31日记录该证据的相应链接地址,正因为有了该证据,案件判决最终受到了很大影响,这充分说明了重要网页的凭证作用叫
二、党政机关重要网页电子文件归档管理实现模式
1.党政机关重要网页电子文件的创建。
(1)网页电子文件创建格式。对党政机关重要网页电子文件的创建,到档
理范围的网页电子文件涵盖网站发布的通知、公告及各类公文信息,这些网页电子文件的创建顺序将以文件的发布为,网页电子文件的以网页(html)、PDF等格式呈现,若不是这些格式,统一将其转化为这些格式进行归档保存叫
(2)网页电子文件的创建。对于大多数党政机关,其网站上发布的重要网页电子文件
上都没有明该电子文件的背景信息,如文件的发布机发布,因要工商管理专业就业前景
所创建的网页电子文件标注其。
2.党政机关重要网页电子文件的采集。
(1)采集对象。通过对党政机关重要网页电子文件进行初步的调研,我们已经大致明确了重要网页电子文件在网站中的,党政机关发布的文件公政政重大目、民生热点、公共安全等方面的信息,这些信息大多以文的在,分文件中了频等信息,对于这,我们会对其是否需要保重评估。
(2)采集方式。在明确网页电子文件的采集对象范
以,要应该从党政机关的网站上这些网页电子文件采集下来。采集方式的选取要考虑重要网页电子文件的完整性,估计可能需要采集的时间,评估所获取信息的质量情况,以及这些网页电子文件的内容价值等,进而决浅层采集方式还是深层。
(3)采集工具。通常来说,采集一个党政机关单位网站的网页电子文件可以有两种主要工具,分别是Heritrix和HTTrack。其中,Heritrix可相对完整、精确地将整个网站的信息抓取下来,这种工具适用于对比较大规模的党政机关网站重要电子文件进行抓取。而HTTrack这种工具则更加侧重于对网页进行链接分析,借助该工具可以掌握党政机关网站文件的结构特征,可通过该工具对党政机关网站的重要网页电子文
件深层次的抓取738。因此,可根据实际需要有针对性地选用这两款软件。
(4)采集频率。由党政机关网站网页电子文件的价值或重要性决定。档案管理部门根据上级相关部门提
出的党政机关重要网页电子文件价值评估体系,制定“党政机关重要电子文件价值评估计分表”,对党政机关网站上发布的网页电子文件的价值
民警王法金精确计分,再根据网页电子文件的得分确定针对该文件的具频率。根据网页电子文件的价值或重要性得分情况,网页电子文件分为三等,分别是非常重要文件、比较重要文件和一般重要文件。其中,“非常重要文件”可每月采集;“比较重要的文件”可每个季度采集;一般重要文件”可每年采集。
3.党政机关重要网页电子文件的数据。党政中通快递运费怎么算
机关重要网页电子文件实施数据管理,也就是要对党政机关网站上发布的网页电子文件相关的著录描述,应对所获取的网页电子文件的内容、结构、生成背其在各部门之间的流转过程、原本存储该电子文件的系统平台信息进行记录和标注,以准的语言和格式对网页电子文件对象及其组成元素进行精准描述,从而使所归档和存储的网页电子文件与党政机关的其他电子文件建立起关联关系。只有这样才能有效地证网页电子文件在上的实性完整性可读性,进而生成能够用于长期保存的党政机关重要网页电子文件数据。针党政机关重要网页电子文件的数据管理和内容描述元数据工作,主要由档案管理门以党政机关的门实施。
4.党政机关重要网页电子文件的储。
(1)存储内容。对重要网页电子文件进行存储,不
仅要存储网页电子文件本身的内容信息,还可能会涉
网页电子文件的技相关P 这些信息描述了该电子文件的完整信息。
(2)存储格式。目前,国际通用的政府电子文件存储格式为WARC(Web Archiving File Format),该格式在2009年被正式确立为电子文件档案格式的国际标
LANTAI WORLD兰"世界!103
准,该标准的编号为ISO28500:2900。WARC在存储电子文件方面具有独特的优势,它具有了比较完善的软件生态环境,且存储后的电子文件档案内容丰富,便于对其进行管理,可扩展性比较强,能够支持在大数据环境下的大容量文件存储需求,这都是该格式成为党政机关重要网页电子文件长期保存和管理的不二选择%
(3)存储架构。由于网页电子文件具有规模大、更新快、容量数据的特征,因而要对其进行比较好的存储,需要采用当前大数据环境下的云存储技术对其进行存储。其中,Hadoop是目前比较成熟的开源云计算平台,平台采用了HDFS分布式存储技术对大量数据进行存储。其存储架构包含存储平台应用和电子文件存储环境。
5.党政机关重要网页电子文件的利用。以往的信息检索技术已经很难满足大数据环境下党政机关海量
重要网页电子文件检索的需求,这就需要基于Agent或能的,量重要网页电子文件的和。于网页电子文件具有超链接的特性,对这些超链接进行重现和定位,有助于掌握重要网页电子文件相关的档案资源,了解文件的关,这可重要网页的重定向、网站网页域名的重定向以及网页的“URL+时间戳”等一系列技术实现。此外,除了传统的Web数据挖掘技术可用于对党政机关重要网页电子文件所包含的进行,网支持量机
算法等新技术可以帮助档案管理部门更加精确地评估党政机关网页电子文件的价值和重要性,并帮助用户从大量电子文件中识别出他们想要的信息,实现网页电子文件的增值服务。更重要的是,党政机关重要网页电子文件用服务系统还需要对用户检索、系统挖掘的数据结果进行可视化呈现,将重要网页电子文件之间的关联关系展现出来,方便中挖掘出深层次的潜在信息。
三、结语
如何对政府数字信息资源进行长期保存是信息管理学、档案学持续研究的课题。作为一种重要的数字信,党政机关重要网页电子文件有其自身特征,对其进行保存与归档面临着诸多困难,包括确定归档边界、适应资源的快速增长、协调政府与图情档机构以及社会其他组织之间关系等,对其实现模式、关键技术及其保障方面的问题研究,对于进一步推动数字信息长期保存理论的持续发展,拓展和深化信息管理及档案学的理论有着重要意义。
参考文献
[1]曹玲,颜祥林+国国会图书馆网页归档项目的新动向[J].档案学研究,2018(2):125-128.[2]王熹.网站文件归档问题的若干思考[J]冲国档案,2017(10):68-69.
[3]陈建平.高校重要网页信息采集归档实践探析!J].浙江档案,2017(9):65.
[4]尹哲.对政府网站网页归档的问题思考[J].北京档案,2016(2):21-22.
104!LANTAI WORLD 兰"世界
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论