元搜索引擎
元搜索引擎
随着科学技术的发展,元搜索引擎技术应运而生。元搜索引擎是基于搜索引擎之上的搜索引擎。如今已逐渐成为了社会的热点话题,它已经渐渐地融入到人们的日常生活中。
A元搜索引擎定义:
通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,它是是对分布于网络的多种检索工具的全局控制机制。
B元搜索引擎核心理论:
元搜索引擎就是一个具有双层客户机/服务器机构的系统,一般由检索请求提交、检索接口代理、检索结果显示3部分组成。
企业信息搜索软件
(1)请求提交。负责实现用户的检索设置要求,包括调用哪些独立搜索引擎、是否有最长检索时间设置、是否提供高级检索服务、设置每个搜索引擎返回的检索结果数量、在线帮助是否有效等。若用户选择个性化检索,则推理机制将根据用户基本信息与动态知识库进行分析推理用户的当前意向,进行查询求精处理,并根据用户对返回结果的行为使用反馈机制动态更新知识库。
(2)检索接口代理。负责将用户的检索请求“翻译”成能够满足不同搜索引擎“本地化”要求的格式,包括是否支持布尔检索、短语检索、自然语言检索等高级检索特性,是否能够实现检
索请求的“本地化”转换。它是元搜索引擎的一个重要指标。
(3)结果显示。负责所有来源搜索引擎检索结果的去重、合并、输出处理等。元搜索引擎如何将独立搜索引擎的检索结果以统一的格式显示给用户,是评测其检索性能的重要手段。
C元搜索引擎代表性文献:
i    《元搜索引擎结果生成技术研究》    张卫丰    徐宝文    等著
ii    《中外元搜索引擎的比较研究》    晏一平    岳泉   
D元搜索引擎主要模型:数学模型
作为一个信息检索系统,元搜索引擎可以形式化的通过一个六元组来描述:
                  MSE-System=(SEn,Qn,Hn,Fn,Rn,Tn)
其中SEnQnHnFnRnTn分别表示待选择搜索引擎集合,信息检索需求集合,信息检索需求交换集合,待选择搜索引擎集合和信息检索需求集合之间的匹配处理框架,排序算法以及查询结果集筛选标准。
E元搜索引擎方法与工具:
方法:    1接受用户的原始查询;
2把原始查询分别转换为各个成员搜索引擎能够接受的形式;
3向成员搜索引擎发送查询;
4收集各个搜索引擎的原始查询结果;
5对原始查询结果进行合成,形成最终结果;
6把最终查询结果递交给用户。
工具:    ROST Search Engine Analysis Tools 0.1
F元搜索引擎最佳实践:
国内最佳搜索引擎:
1.搜魅网(someta):集合了百度、google、搜狐、雅虎多家主流搜索引擎的结果,提供网页、资讯、网址导航等聚合查询。搜魅网突破了元搜索引擎没有自己的蜘蛛的瓶颈,提供了网站查询的功能。
2.佐意综合搜索(chinazss):佐意网提供的综合搜索,结合了Google\Baidu\yahoo\等知名搜索引擎,更细分了不同的搜索类别,如软件搜索,游戏搜索,视频搜索,新闻搜索,网页搜索,地图搜索,音乐搜索,企业搜索等。看似页面简单,却搜索功能却很强大。佐意综合搜索可以说是元搜索中的一个典范。 该搜索引擎还可直接查询手机号码归属地,IP查询等。
3.觅搜(MetaSoo):最近发现的一个使用了Ajax技术的中文元搜索引擎,可搜索谷歌、百度、雅虎一搜、搜狗、有道等。用户可以自行设置各搜索引擎的可信度(权重),觅搜会根据各搜索引擎重复等情况计算得分,最高100分,然后按照得分排序。这是Ajax技术在元搜索引擎中的第一次应用。
4.抓虾网聚搜:就是将百度、Google两家算法各异的搜索巨头的搜索结果去重,然后呈现到用户面前。
  通过抓虾聚搜的搜索框,还可以方便的进行天气预报查询、手机归属地查询、网页计算器、ip地址查询、邮编区号查询、实时汇率转换、网站PR值、ALexa排名速查 、网站快速预览、检索纠正功能、字典查询、诗词查询、成语词典、百家姓速查、快递单号查询等等。 致力快捷生活。
国外的最佳搜索引擎:
1.MetaCrawler:提供涵盖近2 0个主题的目录检索服务, 包括常规检索、高级检索、定制检索、国家或地区的资源检索等。其中, 高级检索模式可实现搜索引擎的选择调用, 基于域名、地区或国家的检索结果过滤, 最长检索时间设置, 每页可显示的和允许每个搜索引擎返回的检索结果数量的设定, 检索结果排序依据(包括相关度、域名、源搜索引擎)设定等。
2.Dogpile:它首先并行地调用GoogleYahooMSNAsk Jeeves4个元搜索引擎, 如果没有得到10个以上的结果, 再调用另外的搜索引擎。但Dogpile不提供可调用的源搜索引擎列表,不支持对各个源搜索引擎的自行指定和选择。
3.MammaMamma是并行式元搜索引擎,自称为“搜索引擎之母”。可同时调用7个最常用的独立搜索引擎, 并且可查询网上商店、新闻、股票指数、图像和声音文件等资源。其特点是检索界面友好, 检索选项丰富,主要包括可控制调用的独立搜索引擎、选择使用短语检索功能、设定检索时间、设定每页可显示记录数等。
4.Ixquick:Ixquick最大优点是支持中文检索。支持各种基本的和高级的检索功能, 包括关键词检索、短语检索、截词检索、布尔逻辑检索、概念检索、自然语言检索、指定字段检索、包含(+)或排除(-)检索等。
G元搜索引擎软件:K风元搜索引擎系统 K-MetaSearch v3.1
K-MetaSearch是由Kwindsoft自主研发的元搜索引擎产品。主要功能特点:任意聚合成员搜索引擎、分类搜索快速建立行业网站组搜索引擎、缓存技术静态化搜索、中文智能分词技术、广告管理、WAP移动搜索;后台程序采用多线程调用成员引擎,大大提高搜索速度、性能和系统负载能力。
H元搜索引擎热点问题:
(1)检索时间有时过长。虽然元搜索引擎采用了一系列的优化运行机制,能够在尽可能短的时间内提供相对全面、准确的信息,但是由于一次调用多个独立搜索引擎,并将用户的检索请求转换处理后进行搜索,然后将所有查询结果集中起来以统一的格式呈现在用户面前,而从各独立搜索引擎返回的结果中常有很多重复结果,数量庞大,因此,在去重、排序、聚类等处理时,系统将面临巨大负载,增加了检索时间。
(2)检索结果全面性和可靠性较差。元搜索引擎检索时间的限制、检索结果数量的限制等,限定了从每个成员引擎返回的检索结果的数量。此外,因各成员引擎彼此相对独立,最后返回给用户的检索结果往往不完整、常常有重复,不能完全满足用户需求,用户需要做更多的筛选,从而影响了检索结果的全面性和可靠性。
(3)不能灵活控制结果的输出。由于元搜索引擎是通过一个统一用户界面帮助用户利用若干独立搜索引擎来实现检索操作,因此,在查询输入处理及输出显示时可能出现问题。
(4)检索结果排序不够理想。因为不同搜索引擎在本身查询结果排序过程中采用的算法相差很大,元搜索引擎必须整合这些使用不同排序算法产生的结果,以统一的结果形式返回给用户。如果仅按各搜索引擎自己的结果序列顺序显示输出,结果很可能有重复。
(5 )信息搜索覆盖面受到限制,影响了检索效果和质量。因为元搜索引擎实现检索语法转换的能力仍然有限,不支持指定字段检索等特殊检索特性的高级检索功能,不同的搜索引擎在解析查询表达式的方式、处理大小写字母的方式、是否允许自然语言查询、是否可以采用邻接操作符等方面都可能有差异。此外,元搜索引擎不能正确处理一些词组和布尔检索算符,发挥不了各个独立搜索引擎的高级检索特。为了尽可能多地挂接搜索引擎,元搜索引擎通常只使用简单、直接的搜索策略,一般仅支持notandor等简单的布尔逻辑语法操作,因此,许多大型搜索引擎被排除在外,影响了信息检索覆盖面。
(6)检索式处理较复杂。由于大部分搜索引擎互不兼容,互操作性差,用户接口不一致,一些包含多个词或复杂逻辑的查询请求,其查询式常被一些成员引擎误解。
I元搜索引擎发展趋势:
元搜索引擎依赖于数据库选择技术、文本选择技术、查询分派技术和结果综合技术等。用户界面的改进、调用策略的完善、返回信息的整合以及最终检索结果的排序,仍然是未来元搜索引擎研究的重点。
(1)基于智能代理的信息过滤和个性化服务的元搜索引擎研究
  由于智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,将智能代理技术应用于元搜索引擎的结构中,构建智能元搜索引擎,可使元搜索引擎能够不断学习用户的信息需求,检索时自动搜索相关信息源,依据检索模型智能地提供“命中”结果,从而提供个性化的服务;可以按照用户要求定期反馈,实现定期和定题检索;能依据用户的信息反馈,自动对知识库里的知识进行纠错、增加等维护和更新;能够分析整理成员搜索引擎的工作记录数据,建立调用策略模型,实施检索时动态地决定调用策略,将搜索请求递交给最适合的搜索引擎处理,并自动将用户感兴趣的、对用户有用的信息提交给用户。
  元搜索引擎智能代理的核心是搜索引擎知识库的预处理和搜索引擎调用策略的确定。其具体表现在查询定制、自动处理、结果过滤与排序上。即允许用户灵活地设置查询条件和搜索选项,如选择合适的源站点、搜索范围及限定语言、地域或类型等,识别与理解用户需求并自动生成调用策略激活成员搜索引擎,整合成员搜索引擎的返回信息并按时间或关联度对结果排序。因此,研究和构建智能元搜索引擎是元搜索引擎的一个重要发展方向。
(2)基于分布式体系结构P to P和网格计算技术的元搜索引擎研究
  首先,作为目前流行的一种新兴网络模型——计算机对等联网(Peer—To—PeerP to P)
是真正的分布式计算技术,P to P引导网络计算模式从集中式向分布式转移,使网络应用的核心从中央服务器向网络边缘的终端设备扩散。P to P技术的优势是开发出强大的搜索工具,使用户能够深度搜索文档。这种搜索无需通过Web服务器,不受信息文档格式和宿主设备的限制,达到传统目录式搜索引擎(查全率在20%~30%之间)无可比拟的深度(包括网上所有开放的资源)P to P对等搜索技术应用于元搜索引擎,将为Internet的信息搜索提供全新的解决之道,是元搜索引擎发展的趋势之一。
  其次,源于美国联邦政府过去10年来资助的高性能计算项目——网格计算技术,试图实现互联网上所有资源的全面连通,包括计算资源、存储资源、通信资源、软件资源、信息资源、知识资源等。网格是把信息技术具体化、计算资源虚拟化,并把所有通过联网的计算资源都按共享原则参与进来,达到计算资源的全面共享,以满足不断变化的计算需求。所以,开发基于网格的搜索引擎不仅可以大大提高资源检索的效率,实现即查即得,还可以实现对异构资源的检索,并获得很高的查全率和查准率。构建基于网格的搜索引擎是目前研究的另一个热点。
(3)具有交叉语言检索功能的元搜索引擎研究
  交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库中进行信息检索,返回能够回答用户问题的所有语言的文档。如果再加上机器翻译,返回结果可以用用户熟悉的语言显示。资源标注、编目和描述是信息查的基础,结构化的资源(XML)和资源的描述框架(RDF)互相配合,将大大提高信息查效率。XML可简化元数据的提取工作,从而协助人们寻信息,并有助于信息生产者和信息消费者的相互发现。如果说在网络的支持下,HTML语言解决了在异构平台间传送数据和文档,那么基于XMLVRMLSMIL解决了在异构平台间传送感受的可能性问题。研究和构建具有交叉语言检索功能的元搜索引擎,将彻底打破元搜索引擎的语言障碍和国别限制,扩大元搜索引擎的应用范围,是元搜索引擎的一个重要发展方向。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。