信息检索
1信息、知识、情报、文献的关系 :信息是宇宙间的一切运动状态及其反应,我们通过对这些信息的获取来认识事物本质,并由此产生新的知识。知识是经人脑思维加工而成的有序化的人类信息。文献是被物化了的知识记载,是被人们认可并进行长期管理的信息。情报是人们为解决特定问题而被活化了的更为高级、更为实用的知识。
2零次文献:主要指尚未经过系统整理形成一次文献的零散资料,例如,未正式发表的书信、手稿、讨论稿、实验的原始数据、工程草图、人们在某些专业会议上口头交流的经验或某些论点等。
一次信息:以作者本人的生产和科研工作为依据而创作的原始信息。如专著、教材、学术论文等。
二次信息:将分散的无序的一次信息进行加工整理后,使之成为系统有序的信息。 如书目、引文索引、搜索引擎的搜索结果等。
三次信息:根据二次信息提供的线索,利用一次信息,经过调研、分析、综合而形成的。如百科全书、综述、述评、字词典等。
3信息检索的意义:①信息检索是大学生信息素质教育的主要内容 ②信息检索是创新人才应具备的基本技能  ③信息检索是科学研究和论文写作的重要环节 ④信息检索是开发信息资源的有效途径 ⑤信息检索是科学决策的依据和企业竞争的手段
4什么是信息检索:
信息检索(广义上)是将杂乱无序的信息按一定的方式组织和存储起来,并根据信息用户的需求出相关信息的过程和技术,全称是”信息存储与检索”。(狭义的信息检索指的是后一过程。)
5检索语言的概念:是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。它是信息标引人员和信息检索人员沟通的桥梁。对于信息标引人员来说,它是表达文献主题内容,形成文献标识并借以组织文献的依据;对于检索人员来说,它是表达检索课题要求,并同检索系统中已经存储的文献标识进行比较从而获得所需文献的依据。(检索语言是根据文献信息检索需要而编制的一种人工语言,又称检索标识。它是在自然语言的基础上记过处理后能够表达文献特征,供信息检索系统存储和检索共同使用的人工语言,实质上它是存储和检索之间的约定语言,是人与检索系统对话的基础,是沟通信息
存储和信息检索两个过程的桥梁。)
检索语言的作用:①标引文献信息内容及其外表特征,保证不同标引人员表征文献的一致性;
②对内容相同及相关的文献信息加以集中,揭示其相关性;
③使文献信息的存储集中化、系统化、组织化,便于检索者按照一定的排列次序进行有序化检索;
④便于将标引用语和检索用语进行相符性比较,保证不同检索人员表述相同文献内容的一致性,以及检索人员与标引人员对相同文献内容表述的一致性;
⑤保证检索者按不同需要检索文献时,都能获得最高查全率和查准率。
6分类语言:是按文献内容所属的学科或专业,结合文献内容特征,根据特定分类体系而编制的检索语言。它通过分类体系的分类号使同学科专业文献集中在—起,以分类号作为检索标识。(我国常见的体系分类语言:《中国图书馆分类法》)
主题语言::是直接以代表信息内容特征和科学概念的概念词作为检索标识,并按字顺组织起来的一种检索语言。主题语言又可分为标题词、单元词、叙词、关键词等语言。(标题词语言,叙词语言)
7检索工具
概念:检索工具是存储、报道和检索信息的工具。它是经过对信息进行搜集整理、特征分析和组织加工后的产物,同时又是信息检索的主要手段和条件。
特点:检索工具是在一次文献的基础上加工而成的二次或三次文献,每条信息条目能完整描述信息的内容特征和外部特征,条目中有检索意义的检索标识提供信息线索,并按照一定的体例编排而成。
{类型:1按其正文的内容性质和用途划分,可分为提供线索的指示型检索工具(二次文献)和提供具体信息的参考型检索工具(部分三次文献)两个大类,十四个小类。具体分类如下:指示型检索工具 :书目,索引,题录,文摘。参考型工具书:词典,引语工具书,百科全书,传记资料,手册,机构名录,地理资料,统计资料,年鉴、表谱、图册,政府出版物,全文数据库。
2按收录范围划分,可分为综合型检索工具、专业型检索工具和单一型检索工具} 
书本上的工具分为1目录型检索工具2题录型检索工具3文摘型检索工具4索引型检索工具
8信息检索的基本步骤
(一) 信息需求分析(二) 制定检索策略 ※ 选择检索系统 ※ 确定检索途径※选定检索方法※ 构造检索式(三) 实施检索、分析检索结果、索取原文(四) 评价检索效果,调整检索式,优化策略
9检索失误分析及对策:①检出的文献过少:
检索工具的信息资源不适合本次检索课题的范围;
检索词的选择是否过于冷僻;
同义词、近义词以及相关词语被遗漏;
位置运算符和字段限制符的使用不正确;
未使用截词符,遗漏了该检索词的其他形态;
逻辑运算符的使用有错误。
②检出的文献过多,不相关文献比例过大 :
检索词的范围过大,使用了上位概念;
截词过短;
逻辑运算符的使用有错误;
未合理使用位置运算符或字段限制符
10 搜索引擎是Internet上对网上二次信息进行信息组织的主要形式,其实质是一种报道、存储网上一次信息的检索工具。
学科信息门户是指根据特定的目标,选定信息资源的学科领域,对有关的网站网页进行搜索和收集,加以鉴定核实,并对核实后的网址进行合理组织,使之能够提供检索、浏览和链接的信息集合。
学科信息门户与搜索引擎的主要区别在于,其搜集的资源专题性和学科性质更强,通常是由该学科研究领域的专家经过筛选、标引、注解和评价的有关这一领域高质量的信息资源,从而保证用户获得“所要即所得”的信息。学科信息门户提供浏览检索的途径较搜索引擎多,且能够提供更严谨的字段限制检索和概念检索,更适应专业用户的需求。但是,由于学科信息门户主要使用受控语言来组织网络资源,因此不具备搜索引擎索引资源涉及面广、检索覆盖率高的特点,相比之下,搜集的资源相当有限 。
企业信息搜索软件11网络信息资源的选择与评价
(一)评价的意义
      网络信息资源评价,是指依据科学评价的基本原理,运用定性和定量分析方法,构建合理完善的评价指标体系,对网络上的各种信息进行选择和评估,以确定其质量和价值。
      其根本目的是为在网络信息海洋中挑选出能满足用户信息需求的信息提供科学依据,从而较好地屏蔽一些信息污染,以实现对网络信息资源的有效开发与利用。
二)评价的标准
网络信息机构的权威性和可信度
网络信息资源的客观性和新颖性
网络信息资源的覆盖面和针对性
网络信息资源的易检性和获取成本
(三)评价的方法
        1  定性分析法是指按照一定的评价标准从主观角度对网络信息资源所做的优选与评估。这种方法一般根据评价目的和服务对象的不同需求, 确定相应的评价指标体系, 建立评价标准及赋值标准, 再让用户进行评定或打分, 给出网络信息资源的评价结果, 以指示网络信息资源质量的高低。
      定性评价法一般采用用户问卷调查和专家评议等方式。定性评价标准因专业领域、学术水平和课题的专门需求等差别而因人而异, 无法强求一致。目前, 实践中所开展的绝大部分网络信息资源的评价服务都以定性评价法为主。定性评价的缺点是评价结果受人为因素影
响较大, 并且由于缺乏量化标准, 评价结果往往失之模糊,其优点是可以对网站内容进行深入系统的分析。
2定量评价法是按照数量分析方法, 利用网上自动搜集和整理网站信息的评估工具, 从客观量化角度对网络信息资源进行的优选与评价。
      定量评价的优点是信息比较全面及时,使用方便而快捷, 可以从技术指标上对网站进行评价, 所得的评价结果比较客观而公允。缺点是标准过于简单, 并且这些统计数据可能会受到广告、网站免费服务、浏览器设置等因素的影响, 所得结果难免偏颇。同时, 定量评价方法无法对内容进行深入的考察。定量评价法在一定程度上克服了定性评价的主观性和价值偏向, 为人们提供了一个系统、客观、规范、宏大的数量分析方法, 是网络信息资源评价的一个发展方向。
12全文检索技术
全文检索是一种能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软件。
搜索引擎是全文检索技术最主要的一个应用。目前,搜索引擎的使用已成为排在收发之后的第二大互联网应用技术。搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的到排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。全文检索技术是搜索引擎的核心支撑技术。 
13网络信息检索工具
(一)网络信息检索工具的构成
信息采集子系统
数据库
    信息采集子系统采集和标引的信息汇集成数据库
检索代理软件
    当用户提出检索要求时代理用户在数据库中进行检索的程序
(二)工作原理
   
      通过人工采集或自动索引程序广泛收集网络信息资源数据,经过判断、选择、标引、加工、分类和组织后形成供检索使用的数据库并创建目录索引;用户根据检索需求,按照检索工具的语法要求构造并通过检索界面输入检索提问式;检索软件对用户的检索提问进行识别和判断后,代理用户在数据库中进行检索,在对检索结果进行评估、比较和按相关度排序后提供给用户。
(三)类 型
按检索对象划分
    非Web资源检索工具、Web资源检索工具
按采集内容划分
    综合型检索工具、专科型检索工具、专题型检索工具
(四)评价指标
数据库的评价指标 (数据库的规模、范围、质量控制)
信息组织管理评价指标(信息的搜集方法、更新周期、组织管理方式)
信息检索功能评价指标(查全率、查准率、响应速度等)
检索结果评价指标
  检索结果的满意度;响应时间;相关度排序;结果输出个性化选择;结果显示形式。
检索界面评价指标   
14搜索引擎工作原理
(一)工作原理
网页搜集 搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面
时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。
预处理 搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。
    ⒈提取文字⒉中文分词⒊去停止词 ⒋消除噪音(搜索引擎需要识别并消除这些噪声,比如版权声明文字、导航条、广告等……) 5.正向索引6.倒排索引7.链接关系计算8.特殊文件处理
查询服务搜索引擎接受用户提交的查询请求后,按照用户的要求检索索引数据库,到用户所需要的资源,并返回用户。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。