下载此文档

基于BP网络的高校主题爬虫的设计与实现.pdf


文档分类:IT计算机 | 页数:约41页 举报非法文档有奖
1/41
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/41 下载此文档
文档列表 文档介绍
东北师范大学
硕士学位论文
基于BP网络的高校主题爬虫的设计与实现
姓名:韩冰
申请学位级别:硕士
专业:计算机软件与理论
指导教师:姜华
20090501
摘要写罅糠岣挥杏玫淖试矗阉饕嬉殉晌H嗣羌焖髡饫嘧试吹闹匾9主题爬虫是主题搜索引擎的基础与核心。它是建立在普通爬虫基础之上的,类的主题爬虫。旨在挖掘出更多的高校领域相关资源。数逼近、模式识别、信息分类及数据压缩等领域都得到了广泛的应用。特别地,.由于它的数学意义明确,学****算法步骤分明,使得应用背景更加广泛。信息。它的分类比线性划分更精确、更合理,网络容错性好。实验结果表明,本文设计的高校主题爬虫取得了良好的效果,具有较高的实关键词:搜索引擎;相关度:个性化;主题爬虫;人工神经网络具。但是,随着信息多元化的增长,传统的通用搜索引擎返回结果过多,主题相关度差。因此,很难满足人们对个性化服务日益增长的需要。这也为通用搜索引擎提出了空前的挑战。基于此,面向特定领域、适应于特定人群的主题搜索引擎应运而生。是普通爬虫在功能上的扩展。本文主要研究主题爬虫的相关技术,建立一个高校人工神经网络是利用非线性可微分函数进行权值训练的多层网络。它包含了神经网络理论中最为精华的部分。由于其结构简单、可塑性强,所以,在函本文主要描述了高校主题爬虫的设计与实现的全过程。如何对网页进行主题相关性的判断是主题爬虫设计中的重要内容。这里不同于目前多数采用的向量空间模型进行网页主题相关度判断的方法,而是将解决非线性问题具有较好效果的技术用于高校主题爬虫中,进行主题相关度的预测,指导爬虫采集高校相关用价值。而且比采用向量空间模型进行主题相关度判断的方法具有更高的准确率。,’
甅痵瓻甀甌瓸琹甋瓾,.甀...琾瑃。瑆甀篠;籔;籄Ⅱ。
电话:——邮编:——学位论文作者签名:叠垫选指导教师签名:姜竺独创性声明·学位论文版权使用授权书本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特以标注和致谢的地方外,论文中不包含其他人已经本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即:东数据库进行检索,可以采用影印、缩印或其它复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ皇氅艺:£:型发表或撰写过的研究成果,也不包含为获得东北师范大学或其他教育机构的学位或证书而使用过的材料。与我~同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和磁盘,允许论文被查阅和借阅。本人授权东北师范大学可以将学位论文的全部或部分内容编入有关学位论文作者签名:学位论文作者毕业后去向:工作单位:通讯地址:一
第一章引言课题研究背景国的网页数估计也超过了凇?梢运担琁已经成为目前世界上最大的信息资源库。目前,网页以每天超过虻乃俣仍龀ぷ拧M闲畔⒆试捶自樱绾温闳嗣嵌各行业的信息。它就像一个公共的图书馆,旨在满足所有用户的需要嘲。基于淖身特点,大量的数据分布在数以亿计的计算机互联网上,所以,检索起来困难重重。单有可能会指向同鐾镜哪谌荨A硗猓浞翟驳耐呈糠浅>薮螅畔⑾喙囟炔睿精确度不高。一次搜索的结果可能有成千上万条,而在这过于庞大的信息中,有用信息用户游览时就会花费大量时间才能找到所需要信息。此外,在目前的硬件条件下,通用随着人们对个性化信息检索服务的日益增长的需要,通用搜索引擎的这些不足日益明显。解决这一问题的直接途径是升级网络搜索器的硬件,采用处理能力更强的计算机系统。但是这种方法的扩展性有限,性价比也不高。另一个途径是采用分布式的方法来提高并行能力。然而,并行不仅使系统的开销和设计的复杂性增加了,而且并行带来的效益随着并行搜索器数目的增加会明显减少。目前,~般大型搜索引擎都采用了并行机制,但并行带来的改善效果仍不能满足人们的需要,人们需要从其他角度出发,来改善目前的困境,主题搜索引擎就是在这样的背景下出现的。与通用搜索引擎不同,它主要是为用户提供某个主题或者某个领域资源的检索服务。因此,建立面向特定专业领域的主题搜索引擎已经成为搜索引擎新的发展趋势。所谓主题型搜索引擎,也称专业搜索引擎或垂直搜索引擎。它是以构筑某一专题领域或学科领域的因特网信息资源库为目标,智能地在互联网上搜集符合设定专题或满足东北师范大学硕士学位论文随着的飞速发展和广泛应用,网络信息量呈几何级数地增长。据统计,到年为止,全球页面的数目约为亿,而到年拢壕凇6快速、准确而全面获取信息的要求,己经成为摆在人们面前的一大难题。搜索引擎的出现可以帮助用户在网络上方便地查找到自己需要的信息。它已经成为人们最重要和普遍使用的一种工具。目前,人们一般是通过通用搜索引擎来获取信息。但是如此快速地发展,也给当前的通用搜索引擎和通用

基于BP网络的高校主题爬虫的设计与实现 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数41
  • 收藏数0 收藏
  • 顶次数0
  • 上传人山吉
  • 文件大小0 KB
  • 时间2014-02-26