下载此文档

主题爬虫论文:基于网页分块的主题爬虫方法研究.doc


文档分类:IT计算机 | 页数:约6页 举报非法文档有奖
1/6
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/6 下载此文档
文档列表 文档介绍
主题爬虫论文:基于网页分块的主题爬虫方法研究
【中文摘要】随着网络上信息的爆炸式增长,普通搜索引擎的查询结果越来越不能满足用户查询的需要,尤其是那些查询特定信息的不同领域、不同背景的用户,因此适应特定主题和个性化搜索的垂直搜索引擎应运而生。主题爬虫作为垂直搜索引擎的核心组成部分,其抓取的网页的质量好坏直接影响垂直搜索引擎的返回结果。如何判断下载的网页与目标主题的相关度和如何确定待爬行队列中URL的访问优先级是主题爬虫中影响抓取的网页质量的关键因素;同时由于Web页面的结构特性,致使主题爬虫在爬行过程中存在“隧道”现象,它的存在将会对爬行的覆盖率和准确率造成较大的影响。本文利用网页分块判断主题相关度和最佳优先搜索策略的优势,同时为了克服“隧道”现象,提出了一种基于网页分块的主题爬虫方法:①将分类器的思想应用到主题爬虫中,训练出了针对主题爬虫的类中心向量分类器,该分类器主要用于确定网页或网页块的主题类别和它们之间的相似度,其突出的优点是可以较好的描述用户感兴趣的主题,分类速度快,能提高爬行的速度;②在网页块内考虑URL的差异,将块内的URL分为特殊URL和普通URL进行访问优先级预测,从而提高预测的准确性,克服由于预测不准确带来的相关网页被忽略的问题;③通过在网页块内引用类间转移概率,克服爬行过程中存在的“黑色隧道”现象,通过利用网页分块的思想,克服爬行过程中存在的“灰色隧道”现象。最后从DMOZ目录中选取3种不同的目标主题对基于本文提出的方法和已存在的基于文字内容的方法及基于分类器的方法实现的三种主题爬虫采用常用的性能评估值
——Harvest Ratio进行对比验证,实验结果表明本文提出的方法实现的主题爬虫在Harvest Ratio上要优于其他两种方法,较好的满足了主题爬虫的需求。
【英文摘要】With the increasing of information on , the results of general search engine can’t meet the needs of the users, especially those with different area or different background who want to search information in specialized fields. Then vertical search engines which are much more professional and personalized emerge as the times key part of vertical search engine is the focused crawler by which topical portions of the can be downloaded whose quality can directly affect the results of vertical search engines. The major factors of the quality of topical portions downloaded are how to predict the relevance between downloaded

主题爬虫论文:基于网页分块的主题爬虫方法研究 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数6
  • 收藏数0 收藏
  • 顶次数0
  • 上传人陈晓翠
  • 文件大小0 KB
  • 时间2012-07-02