下载此文档

基于扩展网页和公平特征选择的网页分类算法研究(可复制毕业论文).pdf


文档分类:论文 | 页数:约66页 举报非法文档有奖
1/66
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/66 下载此文档
文档列表 文档介绍
摘要随着互联网技术的不断发展,軪系男畔⒅灰娣岣唬丫晌H放性和异构性,用户很难从纷繁复杂的海量信息中准确定位到自己所需要的信一个十分重要的研究课题。传统的处理方式是依靠人工的方法对网页进行分类,即专业人员在浏览网页后,根据其内容将它划分到一个或多个类别中。然而,网页信息在不断地快速增长,仍然依靠人工的方式对大量的网页进行分类,将是不合适,也是难以实现的。为了使用户更容易更准确地定位所需要的信息,众多的学者开始研究网页自动分类技术。自动文本分类是在给定的分类体系下,由特定的算法根据文本的内容确定与之相关联的类别。自动文本分类是人工智能技术和信息获取技术相结合的研究领域,是进行基于文本内容的自动信息处理的核心技术。本文对中文网页分类算法进行了研究,具体内容如下:⒀芯苛酥形耐撤掷嗟谋尘昂湍训恪7治隽酥形奈谋痉掷嗟幕驹恚源统的特征选择和分类算法进行了分析,对比了传统特征提取方法的优缺点。⑾晗嘎凼隽硕灾形耐辰凶远掷嗟闹饕N侍狻<赐车谋硎竞屯车脑处理。论述了网页预处理过程,包括网页的清洗和中文自动分词技术。⒈疚奶岢隽艘恢纸ɡ┱雇澈凸教卣餮≡裣嘟岷系耐撤掷嗨惴ā?悸堑超链接的重要性,通过建立扩展网页,增加了关键分类特征的比例和数量,从而子或段落添加到原网页形成扩展网页。公平特征选择算法不仅可以公平的对待每个类,而且可以识别有效特征,降低特征空康奈取⒍员疚奶岢龅乃惴ń惺笛椋⒍允笛榻峁拦馈J笛榻峁荼砻鳎疚提出的算法可以有效的提高网页分类的准确率和担且恢钟行У耐撤掷嗨关键词:公平特征选择算法扩展网页特征提取网页分类们同常工作和生活中获取信息的重要来源。但是,由于所固有的开息。因此,如何合理和有效地组织和管理网上信息,已经日益成为信息处理领域提高了网页分类的准确率。考虑到网页结构的重要性,我们把锚点文本所在的句法。
作者签名:,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。本人授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。保密的学位论文在解密后也遵守此规定。
第滦髀背景介绍随着互联网技术的飞速发展,网络上的信息资源呈指数级增长,经成为拥有几十亿个页面的分布式信息空问,人们从信息缺乏的时代过渡到信息极为丰富的数字化时代。由于互联网在线信息的快速增加,“信息迷向”、“在信息超载”已经成为一个同益严峻的问题,尽管搜索引擎能在一定程度上帮助人们获取网上资源,但由于查全率和查准率不高,反馈结果存在大量无关信息,因而不能很好地满足人们从互联网上获取有价值信息和进行深层次信息挖掘的需求。因此,人们对网页自动分类技术的需要越来越迫切。网页自动分类是处理海量网页的有效手段,它能提供网页集的良好组织结构,简化网页的存取和操作,提高网页处理效率。网页自动分类技术已经成为组织和管理在线文本数据的关键技术。网页自动分类技术不仅可应用于对未知类别网页的在线分类,也可对大批量己经分类的网页按新的分类体系进行重新分类,以满足不同的应用需求。实际上网页索引、网页摘要、网页过滤、试吹陌床愦畏掷嘧橹⒏鲂曰畔⒎务,以及所有需要进行网页文档自动整理、自动选择和发送的应用都可采用网页自动分类的技术和方法来实现,因此网页自动分类技术具有很高的研究价值和研究前景。网页自动分类也称为在线文档分类析被分类网页的特征,并与各类别中网页所具有的共同特征进行比较,将被分类网页化归为特征最接近的一类并赋予相应类别。面对网上的海量信息,传统的做法是对网上信息进行人工分类,并加以组织和整理,为人们提供一种相对有效的信息获取手段。但是,这种人工分类的做法存在着许多弊端:一是耗费大量的人力,物力和财力。二是存在分类结果一致性不高的问题。即使分类人的语言素质较高,对于不同的人分类,其分类结果仍然不尽相同。甚至同一个人,在不同时间做分类也可能会有不同的结果。细髦中畔⒌难杆僭黾樱隹咳斯さ方式来处理是不切实际的。传统的人工分类的做法存在许多弊端,不仅是耗费大量人力、物力和精力,而且存在分类结果一致性不高的问题。因而,构造一个有效的文本分类系统是十分必要的。文本分类是一个活跃的科研领域,它是数据挖掘中一个重要的研究领域。采用文本分类技术可以建立起一个自动的文本分类系统,相对于人工分类,自动分类系统具有以下特点:ü
,取得了较好效国内外文本自动分

基于扩展网页和公平特征选择的网页分类算法研究(可复制毕业论文) 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数66
  • 收藏数0 收藏
  • 顶次数0
  • 上传人mkt365
  • 文件大小0 KB
  • 时间2014-01-13