下载此文档

计算机科学与技术学院.ppt


文档分类:研究生考试 | 页数:约15页 举报非法文档有奖
1/15
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/15 下载此文档
文档列表 文档介绍
中文文本分类专题 Chinese Text Classification
苏州大学计算机科学与技术学院
何为文本分类
在给定的分类模型下,根据文本的内容让计算机自动判断文本类别的过程
从数学的角度
是一个映射的过程
将一个未表明类别的文本映射到已有的类别中
可以一对一,也可以一对多
文本分类的类型
根据需要的不同
单类别分类
每个文档必须归属一个类别
多类别分类
一篇文档可以属于多个类夜可以不属于任何类
文本分类的方式
以文档为中心的分类
Document-Pivoted Text Categorization
给定一篇文档,遍历所有类别,判断它属于的类
以类别为中心的分类
Category-Pivoted Text Categorization
假定某个类别,在给定的文档集中找出属于该类的文档子集
中文文本分类系统
自动分词
特征选择与抽取
文本计算模型
文本识别算法
中文文本分类系统结构图
文本分类的发展
可行性研究阶段
1958-1964
试验研究阶段
1965-1974
实用化阶段
1975至今
中文始于20世纪80年代
文本特征的选择
预处理
去除格式标记
去除停用词
自动分词
词性标注
词频统计
文本特征的选择
目的提高分类效率、减少计算复杂度
去除不带分类信息和信息量较少的词
一个特征词条在一个文档中出现的次数越多,它与该文档对应的主题越相关
一个特征词在越过的文档中出现,它对类别区分度的作用越小
用权值来表示一个词的作用
文本分类方法(一)
hio方法
相似度方法
为每类文本集生成中心向量
确定文本向量
计算文本向量与每类文本集中心向量的相似度
取相似度的最大值

计算机科学与技术学院 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数15
  • 收藏数0 收藏
  • 顶次数0
  • 上传人dlmus1
  • 文件大小178 KB
  • 时间2018-11-30