电力行业非结构化信息管理
1.1 企业非结构化信息管理现状
数据的有效利用是每个企业高效运作的基础。提到信息管理,最典型的处理受到是数据库应用,但实际上数据库技术只擅长管理并操作结构化数据。有统计表明,企业数据每年以200% 的速度增长,其中企业信息搜索软件80%的数据以文件、邮件、图片等非结构化数据存放在企业内计算机系统中的各个角落,这些非常宝贵的信息资源亟待被有效管理并循环利用。而数据库只解决了20%的结构化数据管理问题,因此,企业或机构中80%的非结构化信息的管理是企业信息资源管理的核心。
如何方便,快捷,安全地管理企业内部的信息内容就将涉及到企业搜索引擎领域的应用。企业搜索就是为企业内外部各类非结构化数据处理提供的一个综合应用平台层,将各类数据信息与用户的需求直接连接,而无须用户了解其间的任何过程信息。对于用户来说,使用企业搜索就如同看电视一样简单,只要告诉它你想看什么,它即会立即返回你需要的任何内容,以你最希望看到的方式展示出来。
企业搜索引擎除了与互联网搜索工具一样能完成采集、检索等基本功能外,企业搜索对相关核心技术的要求更高,如采集的效率更快,全面性更强,深度更深,而且能够定向定量采集;
检索则更加注重个性化检索,以信息内容为核心的相关度排序方式、个性化推送,甚至还包括自动分类、聚类、语义分析等对信息的组织和有序化技术。企业搜索并不是简单的将互联网搜索技术拿到企业内部来用,而是对企业内外部数据的高效获取和有效组织的技术和过程,它不仅仅包括互联网搜索的相关技术,还包括一系列对于非结构化数据的组织、分析和安全管理技术等。
业界提出了不少方法以实现这些功能,例如:关键字搜索、标签解决方案、交叉过滤和语言方法等等。通过这些方法可以在一定程度上提高计算机对非结构化信息的处理能力,但由于这些方法都需要一定程度的人工干预。事实上,为了保证各类业务的成功运营,真正需要做的是使计算机能够自动、实时和智能地处理业务运营所必需的各类信息,这就需要计算机系统可以理解当今存储的非结构化信息究竟是什么,理解当前进行处理的信息究竟代表什么含义。也就是说采用内容理解、概念匹配技术实现计算机对文本、网页、、语音、视频、文档和个性档案的自动分析和处理将是企业搜索技术中的核心与重点。通过这样的技术,企业能够整合各种异构的内部或外部数据源,无论是结构化数据还是非结构化数据,通过对数据内容的理解,来实现自动化的信息管理、知识发现和信息的主动推送。
    对于企业搜索引擎而言,通过对结构化信息(如数据库和XML)和非结构化信息(PDF文档、和视频音频等)的分析与处理,通常都会完成以下功能:
11企业搜索引擎功能
其中主要功能含义如下:
关键字检索:
用户在文本框输入一个或几个关键词,搜索引擎随后返回所有包含搜索词的文档结果。
自然语言检索:
用户采用自然语言描述查询条件,可以是语句、段落或是整篇文档,搜索引擎查询并返回与所查概念相关的结果。
自动摘要
搜索引擎根据文档内容信息返回文档内容中最重要概念的摘要,进一步可以根据给定查询的结果提供最适当的动态摘要
自动超链接
搜索引擎将文档内容动态链接到与其上下文内容相似的信息上。例如,在互联网浏览一篇文章时,搜索引擎自动把该文动态链接到与其上下文相似的内容或实时地推荐相关的资料。
自动聚类
搜索引擎根据文档内容直接的相似度,自动将大量相关内容或类似文档集中到一起形成统一的聚类。
自动分类
搜索引擎根据概念相似性自动对信息进行分类,进一步还可以根据文档内容发现最适合的类别,并自动打上分类标记,以便进行后续的处理或归档。
用户搜索档案
根据用户搜索偏好可以生成每个用户的搜索档案,可以代表用户当前的兴趣所在,而且不需要用户填写任何形式的表格。
社区与协作
基于用户搜索档案理解的用户信息,并自动将有共同兴趣的用户聚集为用户社区。
专家定位
根据用户档案自动识别出该社区内的专家
信息推送
通过多种渠道包括浏览器、移动设备、即时通讯软件的不过等给用户发送个性化的内容。
音频搜索
通过对音频进行语音识别,理解音频和音频内容信息,将其转化为文本后用于信息搜索领域。
视频搜索
通过对视频中的关键图像、字幕或者视频中的语音内容信息进行分析与处理,搜索引擎可
以统一整合视频音频等非结构化信息,建立索引。用户可以以图像、字幕或者语音文本为检索条件搜索视频内容。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。