我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:六合平特一肖 > 范例检索 >

internet搜索引擎概述论文怎么写??(范文)

归档日期:04-26       文本归类:范例检索      文章编辑:爱尚语录

  可选中1个或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问题。

  摘要:对基于lnternet的搜索引擎的含义及分类、基本构成、工作原理及性能评价标准进行了概述,并进一步分析了利用搜索引擎检索网络信息的局限,对其未来的发展趋势作了相应的分析。

  搜索引擎,即search engine,这一词在国内外因特网领域中被广泛的使用,然而。它的含义却不尽相同。在美国。搜索引擎通常指的是基于因特网的搜索引擎,它们收集因特网上几千万到几亿个网页,并且每一个网页上的每一个词都被搜索引擎所收录,也就是我们所说的全文检索,典型的如Googe,ln[oseek,HotBot。在中国,搜索引擎通常指的是基于网站目录的搜索服务或者是特定网站的搜索服务,前者如搜狐、新浪等公司开发的网站搜索服务,后者如Chinaren网站提供的全文检索服务。而本文研究的搜索引擎是指一种基于lntemet的信息查询工具,即一种基于lnternet的信息查询系统,包括信息采集、信息标引和信息检索三个主要部分。

  1.2 Meta search engine(元搜索引擎) 它在检索信息时通过调用其它多个独立的搜索引擎来完成检索功能,并且能够将从多个独立搜索引擎查询的结果进行不同程度的处理,比如删除重复结果、校验连接、结果按照相关度排序等。元搜索引擎本身可以有也可以没有自己的数据库。由于不同的元搜索引擎挂接的独立搜索引擎各不相同,且各自独立的搜索引擎在查询语法上的差别较大,使得元搜索引擎本身仅支持AND、0R、N0T等简单的语法操作,返回的结果只能满足“最低常用分母”,即不能提高搜索结果的准确性。

  1.3 Net search engine(网络搜索软件) 就是网络用户可以将相应的搜索软件下载至本地的计算机上,安装查询,这是一种具有网络查询功能的离线浏览器。相对于元搜索引擎,它可以灵活地控制输出结果,其最大特点是方便用户使用和能快速地查询网络相关资源。

  用户检索信息时,搜索引擎是根据用户的查询要求,按照一定的算法从索引数据库中查找对应的信息返回给用户。为了保证用户查找信息的精度和新鲜度。对于独立的搜索引擎而言.还需要建立并维护一个庞大的数据库。独立搜索引擎中的索引数据库中的信息是通过一种叫做网络蜘蛛(spider)的程序软件定期在网上爬行,通过访问公共网络中公开区域的每一个站点采集网页,对网络信息资源进行收集,然后利用索引软件对收集的信息进行自动标引,创建一个可供用户按照关键字等进行查询的web页索引数据库,搜索软件通过索引数据库为用户提供查询服务。所以,一般的搜索引擎主要由网络蜘蛛、索引和搜索软件三部分组成.

  网络蜘蛛。是一个功能很强的程序,它会定期根据预先设定的地址去查看对应的网页,如网页发生变化则重新获取该网页,否则根据该网页中的链接继续去访问。网络蜘蛛访问页面的过程是对互连网上信息遍历的过程。为了保证网络蜘蛛遍历信息的广度,一般事先设定_ 些重要的链接,然后进行遍历。在遍历的过程中不断记录网页中的链接,不断地遍历下去,直到访问完所有的链接。

  索引软件。网络蜘蛛将遍历搜索集得到的网页存放在数据库中。为了提高检索的效率,需要建立索引。索引一般为倒排档索引。

  搜索软件。该软件用于筛选索引数据库中无数的网页信息,选择出符合用户检索要求的网页并对它们进行分级排序。然后将分级排序后的结果显示给用户。

  3.1 搜索引擎建立索引的方法 数据库中的索引一般是按照倒排文档的文件格式存放,在建立例排索引的时候,不同的搜索引擎有不同的选项。有些搜索引擎对于信息页面建立全文索引;而有些只建立摘要部分,或者是段落前面部分的索引;还有些搜索引擎,比如Google建立索引的时候,同时还考虑超文本的不同标记所表示的不同含义。如粗体、大字体显示的东西往往比较重要;放在锚链中的信息往往是它所指向页面的信息的概括,所以用它来作为所指向的页面的重要信息。Google、infoseek还在建立索引的过程中收集页面中的超链接。这些超链接反映了收集到的信息之间的空间结构,利用这些结果信息可以提高页面相关度判别时的准确度。由于索引不同,在检索信息时产生的结果会不同。

  3.2 搜索引擎的检索功能搜索引擎所支持的检索功能的多少及其实现的优劣,直接决定了检索效果的好坏,所以网络检索工具除了要支持诸如布尔检索、邻近检索、截词检索、字段检索等基本的检索功能之外,更应该根据网上信息资源的变化,及时地应用新技术、新方法,提高高级检索功能。另外,由于中文信息特有的编码不统一问题,所以如果搜索引擎能够实现不同内码之间的自动转换,用户就会全面检索大陆、港台乃至全世界的中文信息。这样不但提高了搜索引擎的质量,而且会得到用户的支持。

  3.3 搜索引擎的检索效果 检索效果可以从响应时间、查全率、查准率和相关度方面来衡量。响应时间是用户输入检索式开始查询到检出结果的时间。查全率是指一次搜索结果中符合用户要求的数目与和用户查询相关的总数之比;查准率是指一次搜索结果集中符合用户要求的数目与该次搜索结果总数之比;相似度是指用户查询与搜索结果之间相似度的一种度量。虽然由于无法估计网络上与某个检索提问相关的所有信息数量。所以目前尚没有定量计算查全率的更好方法,但是它作为评价检索效果的指标还是值得保留。查准率也是一个复杂的概念,一方面表示搜索引擎对搜索结果的排序,另一方面却体现了搜索引擎对垃圾网页的抗干扰能力。总之,一个好的搜索引辇应该具有较快的响应速度和高的查全率和查准率,或者有极大的相似度。

  3.4 搜索引擎的受欢迎程度 搜索引擎的受欢迎程度体现了用户对于搜索引擎的偏爱程度,知名度高、性能稳定和搜索质量好的搜索引擎很受用户的青睐。搜索引擎的受欢迎程度也会随着它的知名度和服务水平的变化而动态的变化。搜索引擎的服务水平和它所收集的信息量、信息的新鲜度和查询的精度相关。随着各种新的搜索技术的出现,智能化的、支持多媒体检索的搜索引擎将越来越受用户的欢迎。

  另外,搜索引擎的信息占有量也可以作为评价搜索引擎性能的指标。综上所述,评价搜索引擎的性能指标可以概括为:a.建立索引的方法(全文索引,部分索引,按重要程度索引等);b.检索功能(支持的检索技术,多媒体检索,内码处理等);C.查询效果(响应时间,查全率,查准率,相关度);d.受欢迎程度;e.信息占有量。

  2001年Roper的调查指出,36% 的互连网用户一个星期花超过2个小时的时间在网上搜索;71% 的用户在使用搜索引擎时遇到过麻烦;平均搜索12分钟以后发现搜索受挫。另一项由Keen所做的调查显示,31% 的人使用搜索引擎寻找答案,网上查找答案的半数以上都不成功。从这些调查数据中不难看出。目前的搜索引擎仍然存在不少的局限性。概括起来大致有以下几个方面。

  4.1 搜索引擎对信息的标引深度不够 目前,搜索引擎检索的结果往往只提供一些线形的网址和包括关键词的网页信息,与人们对它的预期存在较大的距离,或者返回过多的无用信息,或者信息丢失,特别是对特定的文献数据库的检索显得无能为力。

  4.2 搜索引擎的信息量占有不足 作为搜索引擎必须占有相当大的信息量才能具有一定的查全率和实用性。目前还没有一种覆盖整个因特网信息资源的搜索引擎。

  4.3 搜索引擎的查准率不高 分析起来,这是因为:一方面由于网上信息数量巨大、内容庞大、良莠不齐,信息的质量得不到保障;另一方面是由于大多数搜索引擎的索引工作由程序自动完成,根据网页中词频及词的位置等因素确定关键词,有的网站为了提高点击率,将一些与网页主题并不相关的热门词汇以隐含方式放在页面上,并重复多次,从而造成查准率低。

  4.4 检索功能单一,缺乏灵活性 目前许多搜索引擎的查询方法比较单一,一般只提供分类查询方式和关键词查询方式。不能从文献的多个方面对检索提问进行限制,只能就某一关键词或者概念进行笼统的检索。

  4.5 搜索引擎自身的技术局限像目前部分搜索引擎还不能支持对多媒体信息的检索。造成上述信息检索困难的原因实质在于搜索引擎对要检索的信息仅仅采用机械的词语匹配来实现,缺乏知识处理能力和理解能力。也就是说搜索引擎无法处理用户看来是非常普通的常识性知识,更不能处理随用户不同而变化的个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性知识等等。

本文链接:http://prozacraft.com/fanlijiansuo/236.html