下载此文档

基于词语网络的关键词自动提取方法及在中文网页分类中的应用的研究.pdf


文档分类:办公文档 | 页数:约47页 举报非法文档有奖
1/47
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/47 下载此文档
文档列表 文档介绍
摘要文本关键词自动提取算法可分为基于统计的方法,基于词语共现图的方法,网络模型的平均路径长度或聚类系数为关键词自动提取依据。平均路径长度或聚网页分类技术主要应用于搜索引擎,信息检索,舆情内容监管,网站管理等方面。本文针对文本关键词自动提取技术中存在的问题,结合网页分类的需求,研词进行特征选择对网页向量模型降维,再对网页进行分类。结果给定一阈值,在分词过程中,如果两个或多个词语间相似度高于该阈值,就数。在实验中与其他特征选择算法进行降维后的分类结果相比较,关键词特征选基于词语网络的方法三种。基于统计中最基础的词频统计方法是选出文档中词频最高的几个词语作为关键词。该方法简单快速,但无法提取出含有文档中心内容但频率不高的词。基于词语共现图的方法需要设定的参数过多,常会造成边界上的取舍问题,算法的稳定性和精度很难控制。基于词语网络的方法是以文档词语类系数理论以连通图为基础,故对非连通的文档模型,正确衡量顶点的重要性成为困难。随着网络技术发展,网页信息日益增多,为了管理网页信息,常需要对网页进行分类。人工分类已无法满足需求,很多的网页自动分类技术已被提出。究了以下内容:���诖视锿�缒P偷奈谋竟丶�首远�崛。�.使用网页关键主要取得了以下研究成果:��岢鲆恢只�诖视锿�绲奈谋竟丶�首远�崛〔呗裕盒薷钠骄�肪冻ざ�和聚类系数理论,定义网络平均逆路径长度和有效聚类系数指标,使其适应非连通图。在词语网络关键词自动提取算法的关键节点选择步骤中使用节点删除指标来衡量词语重要性,综合考虑节点删除后对文档词语网络模型的两个新定义指标造成的损失。实验结果表明该指标比现有指标更好衡量词语网络节点的重要性。��岢龌�诖视锵嗨贫鹊闹形姆执什呗裕褐形拇视锍S卸啻释�逍蜗螅��语相似度即为两个词语意义相同的程度。词与其本身相似度为�1疚母�菔笛�对其作为一个词进行处理。该分词策略能有效提高关键词自动提取的准确率。��褂猛�车墓丶�式�刑卣餮≡瘢�苡行Ы档屯�澄牡迪蛄磕P偷奈�择具有一定的可行性。本文在对词语网络指标新定义基础上选择关键节点使自动提取的关键词更准确。使用关键词来进行网页分类过程中的特征选择也使文档的向量空间模型降维过程损失的信息量更少,分类结果比较理想。关键词:词语相似度,关键词自动提取,词语网络,中文网页分类中图分类号:���基于词语网络的关键词自动提取方法及在中文网页分类中的应用研究复且大学硕士学位论文
ぁ蓿琤�������甒���������������.������甒����篸��������甂����������������琲�����������������复旦大学硕士学位论文������,�������甌����,������琤�����.��������琲�������������瓵��������;������琾���������.�����.����坞�����甎�����甌����甀������.����;��基于词语网络的关键词自动提取方法及在中文网页分类中的应用研究��.
,��������������复旦大学硕士学位论文���������甌��甌�����������.�����������.�������.���甀��������,��������.����.������������,��������.���簑��基于词语网络的关键词自动提取方法及在中文网页分类中的应用研究
口��囹���第一章绪论��论文的选题背景和意义万个,较��年增长�.�ァV泄��匙芰砍���亿个,较��增长�%,随着网络技术的发展,网络上的数据量越来越多,网络应用也越来越丰富。��年全球网络数据量达到����,�����.���;チM��葜行�������ぜ疲����晔澜缟辖ú�鷏,����,��������的数据量。据中国互联网信息中一�����/�客臣葡允荆航刂���甑祝�中国域名总量达到�,����个,较��年增长�%。中国网站总数达到���见图��。这快速增长的数据显示了同益丰富的网络信息资源。���臣频闹泄�蛎�⑼�炯巴�匙芰�互联网快速发展给互联网用户同常生活带来了极大的方便,人们足不出户即可以了解世事,可以进行购物,可以与人交流,可以查找需要信息等等。但在互联网提供这些方便的同时,网络的快速增长过程中仍然存在许多问题。用户如何快速查找自己需要的信息,如何快速掌握信息的主要内容以及如何有效阻止色情、反动、暴力、迷信、违法等负面的,不健康的,有害的信息在网络上传播等问题也显得越来越突出。因此,对互联网进行有效控制管理是保证其健康快速发展的�籮�禾帷S忠蛭;チM�男畔⒘烤薮螅�浯蟛糠质嵌���荩�刻於荚诟�碌�特性,导致对其进行控制管理也是异常复杂。最初的控制主要靠人:�汗芾硗瓿桑�不过因为其快速发展,人工管理越来越无法满足需求

基于词语网络的关键词自动提取方法及在中文网页分类中的应用的研究 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数47
  • 收藏数0 收藏
  • 顶次数0
  • 上传人hytkxy
  • 文件大小0 KB
  • 时间2015-08-22