下载此文档

基于增量反馈和自适应机制的主题爬虫系统的设计与实现.pdf


文档分类:IT计算机 | 页数:约54页 举报非法文档有奖
1/54
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/54 下载此文档
文档列表 文档介绍
学÷爱鹬伲簀、簍朋~一——⋯———悖A⒗锘剩夯弧⋯,一一一至挝桂~一叠专业名称~盐:簋垫廛旦垫盔,学位论文盏赵憝——堑互亟——一指导被灯姓名一————;;论曼提交『昝新委员会睨评阍人、
摘要——关键词:主题爬虫,,向量空间模型,超链分析近年来,随着互联网信息的快速几何增长,如何及时准确地从互联网上获取有用信息显得十分重要。主题爬虫是一种基于主题的信息采集系统,可以从互联网上采集到与主题相关的有用信息,在主题搜索引擎、站点结构分析等方面取得越来越广泛的应用。本论文进行了基于主题的爬虫系统的设计与实现,其主要的研究工作和特点包括:①研究了主题爬虫系统的基本理论和基本结构,深入分析和探讨了与主题爬虫相关的技术,并设计和初步实现了一个基于增量反馈和自适应机制的主题爬虫系统②在页面与主题相关性判定中,引入了文本分类的思想,应用了在自然语言处理中比较成熟的基于向量空间模型的主题相似度计算方法。③在胫魈獾南喙匦耘卸ㄖ校酆显擞昧送澄谋灸谌莺蚖结构图的启发策略,并在经典的如算法基础上提出了引入增量反馈和自适应机制的新的算法。④总结了主题页面在系姆植脊媛桑隽酥魈庋≡竦姆椒ㄒ约岸灾魈庖面中基于语法的分析方法。基于增量反馈和自适应机制的主题爬虫系统的设计与实现南京理工大学硕士论文
②穓①⑨④篎—琫產,琕,硕士论文瓹籥瓵琲猻瑂.,,.瑆..廿..Ⅱ
主垒赡甓嘣聄日巡一,够年‘月学位论文使用授权声明声明本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均已在论文中作了明确的说明。研究生签名:南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅或上网公布本学位论文的全部或部分内容,可以向有关部门或机构送交并授权其保存、借阅或上网公布本学位论文的全部或部分内容。对于保密论文,按保密的有关规定和程序处理。
髀当今,随着因特网难杆俜⒄梗缫丫晌H嗣腔竦眯畔⒌谋匾展到包含大约亿个网页和诟龀唇。际醯难该头⒄乖谝欢ǔ潭的信息。这样的矛盾促使一种以阉饕嫖V鞯模糜谔崛⊥缬行ё试吹男“爬虫”作为采集器的标准术语。网络爬虫是一个沿着链接漫游牡导系某绦颍话阕ち粼诜衿魃希目前,常见的综合型搜索引擎的优点是用户可以查到范围很广的信息,但不足针对上述状况,人们提出了对某一专题的主题搜索引擎,它可以在某些小范围背景途径和重要手段,正深刻地改变着我们的生活。而在网上发展最为迅猛的技术,以其直观、方便的使用方式和丰富的表达能力,已经发展成为一个全球化信息发展空间。据年一项统计表明,系男畔⒆芰在之间,上网用户超过凇靖鐾蛭墓婺R丫焖俜上解决了信息匮乏的问题,但其缺陷也日益突出。好多人面对着浩如烟海的网络信息仍然感到所需信息的不足,究其原因,并不是真正信息量的不足,而是因为人们在如此大的信息库里,很难用浏览的方式找到自己所需的信息。一方面网上的信息多种多样、丰富多彩,而另一方面用户却找不到他们所需要息检索技术应运而生了。、、、天网等国内外知名的搜索引擎正是人们为了解决网上信息检索的难题,而在信息检索领域进行大量研究后的成果。这些搜索引擎通常使用一个或多个资源采集器从上收集各种数据鐆、缓笤诒镜胤衿魃衔U庑┦萁⑺饕庇没检索时根据用户提交的检索条件从索引库中迅速查找到所需的信息【。这些采集器被叫做:珻琖曲,韭畚脑诤竺嬲陆诮场褂通过给定的一些芄焕孟馠这样的标准协议读取相应文档,然后以文档中包括的所有新的捶梦使魑P碌钠鸬悖绦新危矫挥满足条件的新V埂M缗莱娴难芯靠J加谏鲜兰途攀甏蝗衔J澜上的第一个爬虫实现于年。它的优势在于自动化程度高、维护费用低,更强调技术上的创新和提高,也更适合于开展研究工作,因而成为当前研究的热点。之处在于由于其涉及领域太广,因此在某些特定领域的查询上则不够深入和专业化,在整个采集过程中,它也并不太在意采集的顺序和被采集页面的相关主题。同时采集所得的页面的数量过于庞大和采集页面内容过于杂乱。南京理工大学硕二畚基于增量反馈和自适应机制的主题爬虫系统的设计与实现
的领域取得比综合型搜索引擎更满意的结果,满足了某些特定用户的需要。采用主面之前进行预测分析,从而识别出这些页面是否与主题相关,决定是否采集或者制规整程度,同时也节约了网络带宽,提高信息搜索的效率。因此开展对主题爬虫的题搜索算法的爬虫程序仅对给定主题相关的网页文档进行搜集,搜索算法在访问页定采集的优先顺序。毛题爬虫可以有效地减少采集页面的数量,增加了采集页面的研究是很有必要的。主愿穗虫的研究现状在年,出现了最早使用查询来指导爬虫爬行的系统——阉飨低罄聪嗉淘旰

基于增量反馈和自适应机制的主题爬虫系统的设计与实现 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数54
  • 收藏数0 收藏
  • 顶次数0
  • 上传人Horange
  • 文件大小0 KB
  • 时间2014-01-25