下载此文档

模式化中文信息提取研究.pdf


文档分类:论文 | 页数:约16页 举报非法文档有奖
1/16
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/16 下载此文档
文档列表 文档介绍
模式化中文信息提取研究
赖国文
信息工程学院计算机系计算机科学与技术专业
(学号 2002131097)

【内容摘要】N-Gram 特性选择被广泛应用于基于模式的文本学****研究中。然而
已经发表的关于 N-Gram 的文献多是应用在于英文的特性选择上。由于语言规范
的不同,基于 N-Gram 的模式化中文信息处理研究相对比较少。这种模型最关键
的问题之一,就是决定 N 的最佳取值。对于英文处理而言,N 值选择 3 是多数文
献所推荐的。许多中文文字处理的应用就直接引用英文的这一 N-Gram 特性,使
用二元模型(bi-gram)或者三元模型(tri-gram)作为其解决方案。据统计调查,
用三元模型实现的拼音汉字转换系统是目前市场上性价比最好的产品。为了测试
N=3 是否是中文里最好的 N 值选择,该论文先提出一种专门处理中文的 N-Gram
算法,然后应用此算法分析3 个不同的语料数据库。通过对这3 个语料数据库的
分析,找出中文文本中最佳的 N 值选择。结果表明,对中文而言,N 值取 3 或者
4 是比较好的解决方案。
【关键词】中文信息处理;统计语言模型;N 元语法模型

【教师点评】信息的过量使得自动信息处理成为当今的重大课题。在文本的信息
处理中,确定文本单元(即字或词)是第一步。英文中常用 N-Gram 算法来对文
本进行处理,其 N 值代表了文本单元的长度。对于英文来说,N 的取值公认为 3,
然而对于中文,相关方面研究较少,出于经验仍然使用 3 这个值。该文章关注了
中文信息处理中一个容易被忽略的文本单元长度选取问题,对 N-Gram 算法进行
研究,针对中文的特点,设计了自己的算法并用软件实现。同时通过实际数据的
采样和处理,分析出中文与英文文本单元的不同特点,提出了 N=4 而不是 N=3
更符合中文特点这个结论。该文章结构层次清晰,在算法和实现上有创新的因素。
获得数据和分析数据的方法得当,其实验结果为后续的中文文本信息处理提供了
数据辅助支持,具有一定的参考性意义。
点评教师:彭小刚博士职称:讲师

Pattern Based Chinese Information
Extraction
【Abstract】N-Gram feature selection is widely used in pattern based text learning
area. Most of the research on N-gram focus on the feature selection in English. Due to
the language specification difference, Pattern Based Chinese Information processing
base on N-Gram model need more research effort. One of the most important issue of
this model is deciding the value of N. Selecting N up to 3 for processing English is
agreed by most published paper. Many Chinese applications take bi-gram or tri-gram
in their research by referencing the work of N-gram selection in English. In order to
test whether 3 is the best choice for N-gram selection in Chinese, this research apply
several experiments on searching the number N in Chinese text. According to
investigate, with tri-gram implementing spell to Chinese transform can get the best
effect. This paper proposes a revised algorithm and implement it in 3 different
databases. Results show that taking N=3 or 4 is a better solution for Chinese.

模式化中文信息提取研究 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数16
  • 收藏数0 收藏
  • 顶次数0
  • 上传人中国课件站
  • 文件大小0 KB
  • 时间2011-10-18