下载此文档

基于启发式搜索策略的主题网络爬虫算法的设计与实现.pdf


文档分类:IT计算机 | 页数:约42页 举报非法文档有奖
1/42
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/42 下载此文档
文档列表 文档介绍
河北工业大学
硕士学位论文
基于启发式搜索策略的主题网络爬虫算法的设计与实现
姓名:刘玮
申请学位级别:硕士
专业:计算机应用技术
指导教师:沈西挺
20081101
河北工业大学硕士学位论文

基于启发式搜索策略的主题网络爬虫算法的设计与实现

摘要

随着全球信息化的进程逐渐加快,网络信息量的爆炸式增长,人们查找信息越来越难。
Web 搜索引擎的出现在一定程度上解决了这种矛盾。然而现行的大型通用搜索引擎无法根
据用户所指定的主题进行针对性的搜索,主题搜索引擎应运而生。主题搜索引擎主要针对
某一特定领域、某一特定主题或某一特定人群,提供内容集中而深入的信息与服务。主题
网络爬虫作为主题搜索引擎的重要组成部分,它的好坏直接关系到所搜索到资源的质量,
因此如何设计一个高质量的主题网络爬虫就成为了主题搜索引擎研究的一个重要课题。
通用搜索引擎设计的目的是在网络上搜索尽可能多的高质量网页,然而 Web 信息容量
的巨大使得网络爬虫不可能提取所有的 Web 页面,即使能够全部提取,也没有足够大的空
间来存放。通用网络爬虫的信息采集方式是盲目的,通常使用宽度优先搜索,深度优先搜
索和有限深度的宽度搜索三种策略。主题搜索引擎与通用搜索引擎不同,它的设计目标是
尽可能多的搜索与主题相关的网页,尽可能少的搜索与主题无关的内容,提高采集主题资
源的效率。主题网络爬虫设计的关键是如何将待爬行的 URL 按照某种策略进行排序,使得
与主题相关的、质量高的 URL 优先爬行,爬行的过程逐渐向主题领域聚焦。
论文首先分析了主题搜索引擎与通用搜索引擎体系结构的异同,主题搜索引擎的信息
采集策略,即主题网络爬虫的实现方式。目前比较有代表性的主题搜索策略如:基于启发
式搜索算法和基于文本分类的搜索算法。论文通过分析各种搜索算法的优缺点,进行整合
和改进,设计出一个基于启发式搜索策略的主题网络爬虫。在主题表示中利用向量空间模
型提取主题关键词的算法,并且根据反比文档频率计算出关键词的权重。在预测链接价值
的算法中,采用启发式搜索算法,即先通过在线获得的领域知识评价待访问链接的价值,
借以推断信息资源的分布情况,然后按一定的原则选择价值最大的链接进行下一步的搜
索,找到到达目标节点的最佳路径,删除不好的节点,保留那些好的节点。
论文设计了一个基于启发式搜索策略的主题网络爬虫,对其执行流程给出了精确的算
法描述,提出了若干关键算法的解决方案。详细阐述了链接主题相关度预测算法和网页主
题相关度分析算法的实现。最后通过实验,证明了论文设计的主题网络爬虫具有较高的搜
索效率。

关键词:主题网络爬虫,搜索策略,启发式搜索,VSM,页面过滤




i
基于启发式搜索策略的主题网络爬虫的设计与实现

DESIGN AND IMPLEMENTATION OF ALGORITHM ON
TOPIC-SPECIFIC WEB CRAWLER BASED ON HEURISTIC
SEARCH STRATEGY



ABSTRACT


With the process of global information technology speeding up gradually , the amount of
web information explosive growth,it’s more and more dufficulty to find
emergence of web search Engine can solve this contradiction in some , existing
large general search engine cann’t be specified by user based on the theme of targeted
topic-specific search engine -specific search engine target a specific area, a
specific theme or a specific group of people, to provide focused and deep-going information and
services. Focused web crawler is an important part of topic-specific search

基于启发式搜索策略的主题网络爬虫算法的设计与实现 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数42
  • 收藏数0 收藏
  • 顶次数0
  • 上传人numten7
  • 文件大小0 KB
  • 时间2014-03-05
最近更新