中文文本分类专题Chinese Text Classification
苏州大学计算机科学与技术学院
何为文本分类
在给定的分类模型下,根据文本的内容让计算机自动判断文本类别的过程
从数学的角度
是一个映射的过程
将一个未表明类别的文本映射到已有的类别中
可以一对一,也可以一对多
文本分类的类型
根据需要的不同
单类别分类
每个文档必须归属一个类别
多类别分类
一篇文档可以属于多个类夜可以不属于任何类
文本分类的方式
以文档为中心的分类
Document-Pivoted Text Categorization
给定一篇文档,遍历所有类别,判断它属于的类
以类别为中心的分类
Category-Pivoted Text Categorization
假定某个类别,在给定的文档集中找出属于该类的文档子集
中文文本分类系统
自动分词
特征选择与抽取
文本计算模型
文本识别算法
中文文本分类系统结构图
文本分类的发展
可行性研究阶段
1958-1964
试验研究阶段
1965-1974
实用化阶段
1975至今
中文始于20世纪80年代
文本特征的选择
预处理
去除格式标记
去除停用词
自动分词
词性标注
词频统计
文本特征的选择
目的提高分类效率、减少计算复杂度
去除不带分类信息和信息量较少的词
一个特征词条在一个文档中出现的次数越多,它与该文档对应的主题越相关
一个特征词在越过的文档中出现,它对类别区分度的作用越小
用权值来表示一个词的作用
文本分类方法(一)
hio方法
相似度方法
为每类文本集生成中心向量
确定文本向量
计算文本向量与每类文本集中心向量的相似度
取相似度的最大值
计算机科学与技术学院 来自淘豆网www.taodocs.com转载请标明出处.