下载此文档

基于开源框架的搜索引擎的研究与实现.doc


文档分类:IT计算机 | 页数:约5页 举报非法文档有奖
1/5
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/5 下载此文档
文档列表 文档介绍
基于开源框架的搜索引擎的研究与实现.doc华中科技人学基于开源框架的搜索引擎的研究与实现开题报告谭望达4/14/2010本文讲述了如何在开源程序的基础上搭建口己的一个简单的搜索引擎,使用Lucene,Hadoop和一些机器学****库作为搜索引擎的基础,并且还对Lucene与Hadoop的实现原理进行了比较细致的讲述,希望能够对研究和开发搜索引擎的人起到一定的帮助。一•选题意义理论意义从理论的意义上来说,也有很多的地方用到了搜索引擎技术,比如说从语音识别,文本分类,模式识别,都使用到了机器学****而机器学****的核心就是语料库(corpus),而语料库都是庞大的,一般来说动辄以T级来计算,所以如何从T(千G)级的,也就是以十亿文档级别的数据屮提取出想要的数据,是一项挑战,在搜索引擎技术诞生之前是不敢想的。可以说,搜索引擎技术与机器学****的识别的结合是未来科研的一个很重要的方向。现实意义从实际出发,搜索引擎生活屮作为越来越广泛的使用到的一项基本工具,从生活琐事到专业领域,□常问题可以去百度百科,科研论文可以去Google学术,消费购物可以去阿里巴巴,交友联络可以去校内网,而这些公司与检索相关的内容,都可以说或多或少的应用了很多搜索引擎的技术。现在还有越来越多的垂直搜索引擎建立起来,也就是利用其他搜索引擎的结果进行二次排序处理,在一个个的更细分的领域屮起到了很大的作用。可以说搜索引擎作为一项互联网的基本技术被广泛的使用。随着一个一个搜索引擎相关的公司的成功,比如Google这样一•个神话般的公司,越来越多的人也关注到了这个领域。不过想从头自己编写一个搜索引擎可不是容易的事情,而随着越来越多和关的文献的发表和开源社区的建立,创建这样的一个搜索引擎就不再是难事,而实用这些开源的搜索引擎框架,不需要过多的深入技术细节,而更多的精力可以放在想法的实现上。开源框架的实用一•般说来是免费的或者相对商业软件来说是很便宜的,用户可以在资金不太宽裕的吋候放心的使用。另外本文将讨论一下机器学****的一些内容,搜索引擎只是一•个“搜索”的实现,而如何更好的把结果展示给用户,如何在数据之丄实现更多的特性,就是需要机器学****來进行的,搜索引擎与机器学****是越来越不可分。本文将讨论一下机器学****的一些基本概念,并且简单的介绍几个开源的机器学****库。二•论文综述外有关情况综述国外在搜索引擎与机器学****领域是远远的走在了国内同行的前面,据可以查到的资料上来看,最早的搜索引擎有UniversityofMcGill师生开发出的Archie,是一个简单的FTP文件搜索引擎,而国外的相关文献也是非常的多。如果想了解国外的搜索引擎研究最新情况,看看Google的就可以了解到很多的内容。Google的研究成果:超过百万台的机群的管理:Google所主导的“云计算”也就是利用大量廉价的电脑来组成计算集群,在节约了成本的同时也大大的增加了可扩展性,Google现在的集群可以随意的通过扩展计算机的数量来增强计算与存储的能力,也可以通过扩展计算机的数量来增加数据的安全性,一份数据可以在不同的计算机的硬盘屮存多份的景象。Google的云计算与很多公司的高档服务器相比,节省了约30%的成本,让自己赢在了起跑线上。•Google文件系统(GoogleFileSystem,GFS):Google所创建的GFS隐藏了下层负载均衡,冗余复制等细节,对上层程序提供一个统一的文件系统API

基于开源框架的搜索引擎的研究与实现 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数5
  • 收藏数0 收藏
  • 顶次数0
  • 上传人小雄
  • 文件大小80 KB
  • 时间2020-07-09
最近更新