下载此文档

中英文新闻网页关键词抽取技术研究.pdf


文档分类:IT计算机 | 页数:约55页 举报非法文档有奖
1/55
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/55 下载此文档
文档列表 文档介绍
中英文新闻网页关键词抽取技术的研究摘要信息技术的飞速发展和互联网的普及使得网上信息呈现出几何级数的增压缩和检索,提高信息访问的效率成了一个越来越重要的课题。作为网络信息传播的重要载体,众多新闻网页没有关键词。对这些网页进行关键词抽取,将提高用户浏览的速度和信息的访问效率。从这点出发,。在追踪了国内外研究现状,分析比较了各类关键词抽取算法的基础上,提出了一种不依赖语种、不依赖训练语料库的单文档的基于词汇链和词共现的新闻网页关键词抽取算法和算法4罅康随机新闻网页实验结果表明,本文提出的算法是有效的新闻网页关键词抽取算综上所述,本文的主要工作如下:孕挛磐彻丶食槿≌箍Q芯浚永砺酆褪笛榱椒矫嬷っ髁嘶谟镆分析的关键词抽取方法有着良好的应用前景。在对提出的基于词汇链的关键词抽取算法实验验证的基础上,将词语相关性引入词语语义相似度分析中,提出了基于词汇链与词共现的新闻网页关键词抽取算法诔槿」丶实墓讨惺迪至舜视锏钠缫逑狻T谧匀挥镅源砗托畔检索技术中,语义结构的构造依赖于每个词语的词义。利用构建的词汇链表示文本语义结构就要求实现对多义词的词义判别。本文借助知识库和语境上下文提供的有效信息,在构建词汇链过程中将词语的各个词义纳入到整个语境下考查,通过判断多义词的词义与其周围上下文环境的关系来消除多义词的歧义;恳恢痔卣餮≡穹椒ǘ家S刖咛宓挠τ孟嘟岷喜拍茏畲笙薅确⒒悠湫能。通过对比实验,本文从文章、词汇链和知识库中提出了大量有效特征,借助选取的特征从候选词集中选择出最终抽取的关键词;氪视锏南喙匦砸越饩鑫窗视锏某槿∥侍狻L岢龅腒惴ㄓ于需要判断词语间的语义相似度,而语义相似度的计算需要知识库的支持。因此不能很好的处理未包含词的抽取问题。为了解决该问题,本文在该算法的基础上加入了词共现模型,提出了基于词汇链与词共现的新闻网页关键词抽取算法8盟惴ù哟视锏挠镆逑嗨菩杂胂喙匦粤礁鼋嵌瓤悸俏闹写视锏闹匾关键词:关键词抽取,词汇链,词共现,歧义消解,相似性,相关性长。检索和利用网络信息变得越来越困难。如何有效的对海量信息进行组织、法。度,提高了对未包含词语的抽取能力。
甌甀琱..瓸,,瑆瓸.,,琤..,,
,疭瑃:,...瑆瓸琲瓸.—,,
插图清单图词汇链图示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图新闻网页关键词抽取系统框架⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图新闻网页过滤流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图词语“杜鹃钠缫逑馐纠算法在不同的数据集上抽取的实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯算法在不同特征集上的抽取结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯与抽取关键词的对比实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图词语间相似与相关联系示例图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯惴ㄔ诓煌氖菁铣槿〉氖笛榻峁惴ㄔ诓煌卣骷系某槿〗峁隟员仁笛榻峁图新闻网页过滤与总结系统登录界面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图中文新闻网页过滤与总结系统界面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图英文新闻网页过滤与总结系统界面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图中文网页实验示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图英文网页实验示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图
表格清单表词汇链描述文本统一性的示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表某篇新闻的核心提示⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表构建的词汇链示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表贪婪算法构建词汇链的示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..表部分词语在中的解释⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.算法选择的特征⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.算法性能评价实验一⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.算法性能评价实验二⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.算法性能评价实验三⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.表新闻示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表相似与共现矩阵⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯惴ㄑ∪〉奶卣鳌惴ㄐ阅芷兰凼笛橐弧惴ㄐ阅芷兰凼笛槎惴ㄐ阅芷兰凼笛槿表
⋯⋯擗穆绎⋯:⋯⋯名:粕滓叮口甓咴拢缛■■叩菩字日期:钚形彩年华月,岁日晰签独创性声明学位论文版权使用授权书噬字本人声明所呈交的学位论文是本人在导师指导下进行的研究】:作及取得的研究成果。据我所知,除了文中特别加以标志和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已本学位论文作者完全了解合肥工业大学有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅或借阅。本人授权据库进行检索,可以采用影印、缩

中英文新闻网页关键词抽取技术研究 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数55
  • 收藏数0 收藏
  • 顶次数0
  • 上传人1322891254
  • 文件大小0 KB
  • 时间2014-09-11