下载此文档

中英文新闻网页关键词抽取技术研究.doc


文档分类:IT计算机 | 页数:约39页 举报非法文档有奖
1/39
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/39 下载此文档
文档列表 文档介绍
计算机应用技术专业毕业论文[精品论文] 中英文新闻网页关键词抽取技术研究
关键词:新闻网页关键词抽取中英文新闻词汇链歧义消解
摘要:信息技术的飞速发展和互联网的普及使得网上信息呈现出几何级数的增长。检索和利用网络信息变得越来越困难。如何有效的对海量信息进行组织、压缩和检索,提高信息访问的效率成了一个越来越重要的课题。作为网络信息传播的重要载体,众多新闻网页没有关键词。对这些网页进行关键词抽取,将提高用户浏览的速度和信息的访问效率。从这点出发,本文研究了自然语言处理和信息检索技术的一个重要领域-新闻网页的关键词自动抽取。在追踪了国内外研究现状,分析比较了各类关键词抽取算法的基础上,提出了一种不依赖语种、。大量的随机新闻网页实验结果表明,本文提出的算法是有效的新闻网页关键词抽取算法。综上所述,本文的主要工作如下: (1)对新闻网页关键词抽取展开研究,从理论和实验两方面证明了基于语义分析的关键词抽取方法有着良好的应用前景。在对提出的基于词汇链的关键词抽取算法KEUD实验验证的基础上,将词语相关性引入词语语义相似度分析中,; (2)在抽取关键词的过程中实现了词语的歧义消解。在自然语言处理和信息检索技术中,语义结构的构造依赖于每个词语的词义。利用构建的词汇链表示文本语义结构就要求实现对多义词的词义判别。本文借助知识库和语境上下文提供的有效信息,在构建词汇链过程中将词语的各个词义纳入到整个语境下考查,通过判断多义词的词义与其周围上下文环境的关系来消除多义词的歧义; (3)每一种特征选择方法都要与具体的应用相结合才能最大限度发挥其性能。通过对比实验,本文从文章、词汇链和知识库中提出了大量有效特征,借助选取的特征从候选词集中选择出最终抽取的关键词; (4)引入词语的相关性以解决未包含词语的抽取问题。提出的KEUD算法由于需要判断词语间的语义相似度,而语义相似度的计算需要知识库的支持。因此不能很好的处理未包含词的抽取问题。为了解决该问题,本文在该算法的基础上加入了词共现模型,。该算法从词语的语义相似性与相关性两个角度考虑文中词语的重要度,提高了对未包含词语的抽取能力。
正文内容
信息技术的飞速发展和互联网的普及使得网上信息呈现出几何级数的增长。检索和利用网络信息变得越来越困难。如何有效的对海量信息进行组织、压缩和检索,提高信息访问的效率成了一个越来越重要的课题。作为网络信息传播的重要载体,众多新闻网页没有关键词。对这些网页进行关键词抽取,将提高用户浏览的速度和信息的访问效率。从这点出发,本文研究了自然语言处理和信息检索技术的一个重要领域-新闻网页的关键词自动抽取。在追踪了国内外研究现状,分析比较了各类关键词抽取算法的基础上,提出了一种不依赖语种、。大量的随机新闻网页实验结果表明,本文提出的算法是有效的新闻网页关键词抽取算法。综上所述,本文的主要工作如下: (1)对新闻网页关键词抽取展开研究,从理论和实验两方面证明了基于语义分析的关键词抽取方法有着良好的应用前景。在对提出的基于词汇链的关键词抽取算法KEUD实验验证的基础上,将词语相关性引入词语语义相似度分析中,; (2)在抽取关键词的过程中实现了词语的歧义消解。在自然语言处理和信息检索技术中,语义结构的构造依赖于每个词语的词义。利用构建的词汇链表示文本语义结构就要求实现对多义词的词义判别。本文借助知识库和语境上下文提供的有效信息,在构建词汇链过程中将词语的各个词义纳入到整个语境下考查,通过判断多义词的词义与其周围上下文环境的关系来消除多义词的歧义; (3)每一种特征选择方法都要与具体的应用相结合才能最大限度发挥其性能。通过对比实验,本文从文章、词汇链和知识库中提出了大量有效特征,借助选取的特征从候选词集中选择出最终抽取的关键词; (4)引入词语的相关性以解决未包含词语的抽取问题。提出的KEUD算法由于需要判断词语间的语义相似度,而语义相似度的计算需要知识库的支持。因此不能很好的处理未包含词的抽取问题。为了解决该问题,本文在该算法的基础上加入了词共现模型,。该算法从词语的语义相似性与相关性两个角度考虑文中词语的重要度,提高了对未包含词语的抽取能力。
信息技术的飞速发展和互联网的普及使得网上信息呈现出几何级数的增长。检索和利用网络信息变得越来越困难。如何有效的对海量信息进行组织、压缩和检索,提高信息访问的效率成了一个越来越重要的课题。作为网络信息传播的重要载体,众多新闻网页没有关键词。对这些网页进行关键词抽取,将提高用户浏览的速度和信息的访问效率。从这点出发,本文研究了自然语言处理和信息检索技术的一个重要领域-新闻网页的关键词自动抽取。在追踪了国内外研究现状,分析比较了各类关键词抽取算法的基础上,提出了一种不依赖语种、。大量的随机新闻网页实验结果表明,本文提出的算法是有效的新闻网页关键词

中英文新闻网页关键词抽取技术研究 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数39
  • 收藏数0 收藏
  • 顶次数0
  • 上传人jia0277li
  • 文件大小71 KB
  • 时间2018-07-12