下载此文档

改进的C4.5算法在大学生情感素质分析中的研究与应用.pdf


文档分类:办公文档 | 页数:约65页 举报非法文档有奖
1/65
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/65 下载此文档
文档列表 文档介绍
: 1 0 2 7 : P
学校代码 0 分类 号 T 3 0 1 学号 : 1 5 2 2 0 1 1 1 6
硕 士 学 位 论 文
改进 的 C 4 . 5 算法在大 学 生 情 感 素 质
分析 中 的 研究 与 应 用
学 院 : 信 息 与 机 电 工 程 学 院
专 业 : 软 件 工 程

研 究 方 向 : 数 据 挖 掘

研 究 生 姓 名 : 缪 连 芬

指 导 教 师 : 吴 海 涛

完 成 日 期 : 2 0 1 8 年 3 月

上海师范大学硕士学位论文 摘要
摘要
决策树 算法是数据挖掘中的一种分类算法,其算法思想简单、分类规
则提取方便且容易理解,得到了广泛的应用。 然而,传统的 算法在数据集
中各个类别样本相对平衡下分类效果较好,在不平衡数据集中,由于少数类样本
所占比例很小,不能为分类器提供足够的分类信息,并且为了保证算法的整体分
类精度,分类器会更加关注多数类的分类精度而忽视少数类的分类情况。这就导
致了 算法在不平衡数据集分类中,虽然整体的分类精度高但是少数类的分
类精度却很低的现象。
对此,本文分析了目前国内外的研究现状及相关解决方法,同时在借鉴前人
的观点与经验的基础上,提出了一种改进的 算法,称之为 算法。
该算法首先计算少数类在每个属性上的最大值与最小值之间的区间,并把该区间
称为少数类区间。然后以每个属性为分裂点,分别计算其在对应的少数类区间上
的信息增益率。最后通过比较各个分裂点的信息增益率,选择具有最大信息增益
率的分裂点作为真正的分裂点创建决策树。实际上 算法主要通过减少
少数类区间之外的多数类的样本实例来提高少数类在创建决策树时为分类器提
供更多的分类信息,从而增加少数类分类的精度。与此同时,把决策树 算
法引用到大学生情感素质分析中,针对大学生情感素质数据分布不平衡,探讨了
改进后的 算法的分类性能。
此外,考虑到模型的预测准确性、描述的简洁性同时避免过拟合现象,本文
在建立决策树之前,首先对大学生情感素质数据集进行了数据预处理,包括清洗、
变换、规约,把多元线性回归模型的显著性检验和偏回归系数的显著性检验引入
到数据预处理中,对数据进行规约处理。
本文设计了三组实验,探讨了改进后的 算法在大学生情感素质分析中
的应用,结果表明:(1) 算法可以用在大学生情感素质分析中且分类效果较
好,但是对少数类分类效果不佳; (2) 合理的利用数据预处理,可以有效的提升决
策树模型的整体性能; (3) 算法比 算法能够更好的处理不平衡数据
集,在样本容量最少的“A”类分类中,F-measure 平均提升了 9%左右。

改进的C4.5算法在大学生情感素质分析中的研究与应用 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数65
  • 收藏数0 收藏
  • 顶次数0
  • 上传人陈潇睡不醒
  • 文件大小2.61 MB
  • 时间2021-09-28