(一)因特网上的信息资源(次重点)
网上有什么样的信息:政府信息、科研信息、教育信息、文化信息、休闲娱乐信息。
网上不太可能有的信息:如有并企业公司的战略、发展规划,商业、贸易秘密;商业性库和大多数有版权的印刷资料等。
因特网上信息资源的特点及信息利用价值
因特网信息的特点:无限性和广泛性,多样性,共享性,新颖性,无序性。
因特网信息的优越性:价廉,新颖、深入,广泛直接交流,非正式和自由发表园地。(二)因特网上信息资源的种类(重点)
因特网上信息资源的主要类型有以下五种:
(1)Web 信息资源
指建立在超文本、超媒体技术的基础上,集文本、图形、图象、声音为一体,并以直观的图形用户界面展现和提供信息的网络资源形式。
(2)Telnet 信息资源
指借助远程登录(remote login),在网络通信协议Telnet(telecommunication network protocol)的支持下,在远程计算机上登录,使自己的计算机暂时成为远程计算机的终端,进而可以实时访问、使用远程计算机中对外开放的资源。
(3)FTP 信息资源
FTP(file transfer protocol) 是因特网使用的文件传输协议。该协议的主要功能是完成一个系统到另一个完整的文件拷贝。即在因特网的联网计算机之间传输文件。
(4)用户服务组信息资源
由一组对某一特定兴趣的网络用户组成的电子论坛。如新闻组(usenet newsgroup)、邮件列表(mailing list)、专题讨论组(discussion group)、兴趣组(interest group)、辩论会(conference)等等。
(5)RSS信息资源
RSS是一种用于共享新闻和其他Web内容的数据交换规范,是将用户订阅的内容传送给他们的通令协同格式。
2、因特网信息资源的评价标准
(1)目的
(2)范围
(3)内容:准确性、权威性、新颖性、独特性、可靠性、图形和多媒体设计、信息的展示与设计、可操件性。
3、评价方法
(1)定性评价
按照一定的评价标准对被评站点的各方面特征、质量作出主观评判。一般有问卷调查、专家评议等方式。
(2)定量评价
是利用数量分析方法,对调查统计数据进行分析,进而做出较系统、客观的评判。
定量评价主要从以下途径进行:从网页的URL中得到信息;查看网站首页描述;从超级链接中获取信息;参考他人评价。
1、识记:因特网信息资源的评价标准和评价方法,定性评价和定量评价的定义。
2、理解:对因特网信息资源进行评价的意义。
3、应用:任选一网站,对其信息资源进行评价。
与传统信息检索方式相比,因特网信息检索的主要特点是:
(1) 检索范围大
(2) 检索效率高
(3) 检索工具强大
(4) 信息冗余大
因特网信息检索的方法主要有两种:基于浏览的检索方式和基于关键词的方式。
1、基于浏览的检索方式
包括不依靠任何检索工具的浏览和借助检索工具的浏览。
(1)不依靠任何检索工具的浏览
顺链而行:此为在因特网上发现和检索信息最原始的方法,即在日常的网上漫游过程中,随机地发现一些有用的信息。
收藏网址:个人用户在上网浏览的过程中将一些常用的站点地址记录下来,组织成目录以备今后之需。
不依靠任何检索工具的浏览方式,适合以下几类信息检索的目的:延伸已有信息范围;跟踪新信息;网上信息调研;好奇心驱使;消遣性浏览;享受浏览经验。
(2)借助检索工具的浏览
借助以Yahoo为代表的网络资源目录。
(3)基于浏览的检索方式的特点
优点:能够针对具体任务或问题到相关信息;方便对检索到的结果信息进行筛选;在检索过程中,能够使用不太明确的信息需求得以清晰化;有时能获取一些意外信息;容易使用突破本学科领域的界限,获取跨学科、跨得业信息;利于多媒体信息的检索。
缺点:用户获取信息的偶然性大;检全率较差;易出现信息迷航。
2、基于关键词的检索方式
(1)基于关键词的检索的工具:最具代表性的是搜索引擎,如google。
(2)基于关键词检索的特点
优点:检索简单易得,利于上手;检索到的信息较新,时效性好;可以达到较高的检全率;符合检索语言的文献保障原则和用户保障原则。
缺点:关键词语言难以反映词间的相关关系;分散主题,影响查准率;自动标引无法完全解决标引不一致的问题。
(3)常用的关键词高级检索功能
主要的功能有:布尔逻辑检索、截词检索、位置检索、加权检索、词组检索、范畴检索(限制检索)、概念检索、模糊检索、深入检索
①布尔逻辑检索(boolean logic)
所谓布尔逻辑(又称布尔代数),是指使用AND、OR或NOT 等运算符查含有某种词语特定组配形式的那些网页(记录)。
逻辑“与”
用AND(或+)表示。A AND B (A+B) ,网页记录中必须同时包含A、B两个词。
逻辑“或”
用OR表示。A OR B ,表示只要含有其中一个检索词或同时含有这两个检索词的文献都将被命中。
逻辑“非”
用NOT (或-)表示。A NOT B (A-B),表示被检索文献在含有检索词A而不含有检索词B时才能被命中。
②截词检索
检索时输入检索词的局部(词干)进行非准确性检索匹配。主要用于西文检索工具。
③位置检索(靠词检索)
运算符NEAR 可以容许两个词相距一定的距离,有时还可以由用户来规定它们之间的距离。
④词组检索
企业信息搜索软件词组检索是一个词组(通常用双引号“”括起)当作一个独立运算单元,进行严格匹配,以提高检索的精度和准确度,它也是一般数据库检索中常用的方法。
⑤范畴检索
是指将检索限制在记录的一个特定部分或几个部分的能力。
一些有用、经常遇到的范畴下:
Title(网页标题)
Links(链接)
Date
URL
图像和其他媒体
特殊检索功能
网络信息检索工具的原理
(1)网页抓取
(2)文档分析
(3)建立索引
(4)文档表示
(5)归类和聚类
(四) 因特网检索工具的性能评价(次重点)
网上信息检索工具的评价主要从5个方面进行。
1、收录范围
从网络信息检索系统的数据量、收录项目、索引深度、新颖性及更新频率、索引建立方式、处理语言等方面进行评价。
2、检索功能
从检索方式单一还是多样;所使用的检索技术是否先进、多样;对所查信息是否有选择与限定的自由这三方面来评价。
3、 检索效率
目前较广采用的信息检索指标是检索全率与检准率。
4、检索结果的处理和展示
5、用户界面设计
用户接口的设计是评价检索系统一个重要的因素。
(一)搜索引擎发展简述(一般)
所有搜索引擎的祖先是1990年由蒙特利尔大学的学生Alan Emtage、Peter Deutsch等人发明的Archie,用于检索FTP文件。
1994年4月出现第一个搜索引擎--Webcrawler,同年,Lycos是搜索引擎史上又一个重要进步,是最早具有现在意义的搜索引擎,发布于1994年7月。
1995年AltaVista和Excite问世
1996年HotBot出现
1997年Northen Light 出现
1998年Google 问世。
(二)通用搜索引擎(重点)
通用搜索引擎是相对于专业搜索引擎而言。通用搜索引擎是一种“大众资源”,试图为每个人提供所有的信息信息。通用搜索引擎使用方便,对信息查询反应迅速。
介绍国外著名搜索引擎:
Google le
Alltheweb www.alltheweb
Ask Jeeves www.ask
MSN www.search.msn
Lycos www.lycos
AOL search.aol
Excite ite
Altavista www.altavista
Go
介绍国内著名搜索引擎:
百度 www.baidu
中国搜索 www.zhongsou
3721 www.3721
天网 e.pku.edu
对各个搜索引擎从以下3个方面来进行详细介绍:
(1)数据库规模与范围。例如:Google到2004年2月宣布它拥有世界上最大的搜索引擎数据库,标引了大约43亿左右的文本文档。Google的信息门类也非常介全。除普通的网页数库以外,它还拥有一个图像数据库和一个新闻数据库等。
(2)检索界面
包括搜索引擎首页的特点和结构,高级搜索的入口。
(3)检索功能
检索功能首先要了解搜索引擎是否支持布尔逻辑检索功能。以Google为例,Google支持不完全的布尔逻辑。在检索框中输入的所有检索词,Google会自动以AND逻辑连接;Google也支持OR逻辑操作,但注意在进行“或”操作时OR逻辑操作符必须大写。除布尔逻辑功能,还考察搜索引擎是否具有词组检索、截词检索和范畴检索的功能,其中范畴检索对哪些范畴进行了限制。
1、目录型网络检索工具原理
因特网上的目录型检索工具一般称为网络目录(Web Directory),它是由网络开发者将网络资源收集后,以某种分类法进行组织整理,并和检索法集成一种可供分类浏览和检索的等级结构式目录。网络目录一般是通过引导网络用户的查询概念来帮助用户到所需的网络信息。
2、目录资源的收集和分类
(1)收集
网络目录一般采用人工或半自动方式采集和存储网络信息。
(2)分类
网络目录通常是按网络资源的主题性质进行分类,以某种分类体系为依据,将信息资源分为若干领域的主题范畴,然后再细分为各学科专题目录,最后列出具体的相关网站(资源),形成一个由信息链组成的树状结构,即总目—— 专题目录—— 链接—— 文本。
目录资源的收集和分类优点是人工方式建立的查询工具其检索信息的准确性较高;缺点是
收集信息的效率及全面性低于自动方式。目前,部分网络资源目录利用自动功能或者由用户递交的方式来丰富和补充资源。
3、网络目录结构
一个网络目录包括许多层,最高层(一级)目录页总是将因特网资源分成最大范围、最普通的主题范畴。主题链接到第二层目录(另一个页面),然后在第二层目录再分出子目录,一般到第四级。
4、网络资源目录分类方法
(1)主题分类法
一个主题充当一个类目,类目象主题词表一样按字顺排列,一个类目又可分为若干细目,同位类的细目也是按字顺排列。
主题分类法的优点是以事物分类, 与些事物相关的内容全部集中在一起;对交叉学科的主题提示非常有利。缺点是此分类法容量小, 对网络资源的覆盖率极为有限。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论