下载此文档

《数据仓库与数据挖掘》第7章.ppt


文档分类:IT计算机 | 页数:约26页 举报非法文档有奖
1/26
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/26 下载此文档
文档列表 文档介绍
第7章 数据挖掘中的数据预处理
数据预处理的基本功能
数据预处理的主要方法
数据清理
数据采样
数据集成与变换
数据约简
数据的概念分层
1
DM的过程
(1)DW 的步骤:
数据准备:
数据集成
数据选择
预分析
挖掘
表述
评价
(2)DW 系统的结构:
用户界面
结果输出
数据挖掘核心
知识库
数据仓库
数据库
文件系统
其他
数据源
ODBC或其他专用数据库接口
2
数据准备阶段:
数据的选择(选择相关的数据)
净化(消除噪音、冗余数据)
推测(推算缺失数据)
转化(离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等)
数据缩减(减少数据量)
经过处理过的数据一般存储在数据仓库中。数据准备是否做得充分将影响到数据挖掘的效率和准确度以及最终模式的有效性。
数据挖掘的过程
3
数据挖掘的过程
挖掘阶段:该阶段是数据挖掘的核心步骤,也是技术难点所在。根据数据挖掘的目标,采用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,分析数据并通过可视化工具表述所获得的模式或规则。
4
数据挖掘的过程
评价阶段:在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的,也有可能不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。
巩固和运用阶段:用户理解的、并被认为是符合实际和有价值的模式形成了知识。同时还要对知识进行一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩固。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求运用知识对新的数据进行分析,由此可能产生新的问题,而需要对知识作进一步的优化。
5
数据预处理的必要性
数据挖掘要求的数据:干净、准确、简洁、完整。
原始数据存在的问题:
杂乱性:来自多种数据库和文件系统,缺乏统一标准和定义。
冗余性:同一个事务在数据库中可能存在多个相同的物理描述。
不完整性:设计缺陷或人为原因造成数据丢失、不确定、不完整。
6
数据预处理的基本功能
数据清洗
数据集成
数据变换
数据约简
7
数据预处理的基本功能-数据清洗
功能:
去除源数据中的噪声数据和无关数据
重复数据处理
缺值数据处理
数据类型转换
方法:
有监督方法:有领域专家指导
无监督方法:样本数据训练算法
8
数据预处理的基本功能-数据集成
功能:
数据的选择:从多数据源中选择数据
数据冲突处理:如字段同名异义、异名同义、长度不同。
数据不一致处理:如单位、命名、结构、含义不一致。
数据类型的选择
9
数据预处理的基本功能-数据变换
功能:
格式化:将元组集按照格式化条件合并,即对属性值量纲的归一化处理。
归纳:处理元组属性值之间的“is-a”语义关系。
多维数据组织:采用切片、旋转、投影等操作将原始数据按照多维立方体形式组织成为不同层次、不同粒度、不同维度的聚集。
10

《数据仓库与数据挖掘》第7章 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数26
  • 收藏数0 收藏
  • 顶次数0
  • 上传人中国课件站
  • 文件大小0 KB
  • 时间2011-09-06