下载此文档

数据挖掘算法wangye.ppt


文档分类:IT计算机 | 页数:约87页 举报非法文档有奖
1/87
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/87 下载此文档
文档列表 文档介绍
数据挖掘算法wangye20068
工作总结
商务报告
商务展示
工作计划
数据仓库的模型
(1)星形模式:最常见模型;其中数据仓库包括一个大的、包含大批数据、不含冗余的中心表(事实表);一组小的附属表变量所建立的线性回归模型。
泊松回归模型主要是描述数据出现次数的模型,因为它们常常表现为泊松分布。
-3 主成分分析(PCA)
PCA算法搜索c个最能代表数据的k-维正交向量;这里c  k。这样,原来的数据投影到一个较小的空间,导致数据压缩。步骤如下:
(1)对输入数据归一化,使得每个属性都落入相同的区间。
(2)PCA计算c个规范正交向量,作为归一化输入数据的基。这些是单位向量,每一个都垂直于另一个:称为主成分。输入数据是主要成分的线性组合。
(3)对主成分按“意义”或强度降序排列,选择部分主成分充当数据的一组新坐标轴 。
-4 离散小波变换(DWT)
离散小波变换是一种线性信号处理技术。该技术方法可以将一个数据向量转换为另一个数据向量(为小波相关系数);且两个向量具有相同长度。
可以舍弃转换后的数据向量中的一些小波相关系数。保留所有大于用户指定阈值的小波系数,而将其它小波系数置为0,以帮助提高数据处理的运算效率。
这一技术方法可以在保留数据主要特征情况下除去数据中的噪声,因此该方法可以有效地进行数据清洗。
给定一组小波相关系数,利用离散小波变换的逆运算还可以近似恢复原来的数据。
-4 离散小波变换(续)
常用的小波函数包括Haar系列, Daubechies系列,Moret系列,Sym系列,Meyer系列,Coif系列。
-5 潜在语义分析
潜在语义分析将样本映射到语义概念空间以发现样本数据之间的潜在语义联系。
(1)构造“特征-样本”矩阵,“特征-样本”矩阵中的每一列是对应于第i个样本特征向量;
(2)对该矩阵进行奇异值分解(SVD);
(3)用最大的k个奇异值所对应的“特征-语义”矩阵Uk和“样本-语义”矩阵Vk以及最大的k个奇异值重构“特征-样本”矩阵。
下面两式分别代表在语义空间特征与特征之间的距离和在语义空间样本与样本之间的距离
-6 聚类分析
聚类技术将数据元组视为对象。它将对象划分为聚类,使在一个聚类中的对象“类似”,但与其它聚类中的对象“不类似”。
通常,类似性基于距离,用对象在空间中的“接近”程度定义。聚类的“质量”可以用“直径”表示;而直径是一个聚类中两个任意对象的最大距离。
质心距离是聚类质量的另一种度量,它定义为由聚类质心(表示“平均对象”,或聚类空间中的平均点)到每个聚类对象的平均距离。
-6 聚类分析(续)
k-means算法
k-medoids算法
三、数据挖掘算法
数据挖掘算法按挖掘目的可分为:
(1)概念描述(总结,对比等)
(2)关联规则分析
(3)分类与预测
(信息自动分类,信息过滤,图像识别等)
(4)聚类分析
(5)异常分析(入侵检测,金融安全等)
(6)趋势、演化分析(回归,序列模式挖掘)
按训练方式,机器学****可分为:
(1)有监督的学****有训练样本,学****机通过学****获得训练样本包含的知识,并用其作为判断测试样本的类别的依据。
(2)无监督的学****无训练样本,仅根据测试样本的在特征空间分布情况判断其类别。
(3)半监督的学****有少量训练样本,学****机以从训练样本获得的知识为基础,结合测试样本的分布情况逐步修正已有知识,并判断测试样本的类别。
(4)强化学****没有训练样本,但有对学****机每一步是否更接近目标的奖惩措施。
有监督的学****br/>半监督的学****br/>无监督的学****br/> 关联规则挖掘
关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。设I = { i1 , i2 ,..., im }是项的集合。设任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合,使得T  I。设A是一个项集,事务T包含A当且仅当A  T。
关联规则是形如A  B的蕴涵式,其中A  I,B  I,并且A  B = 。规则A  B在事务集D中成立,具有支持度s,其中s是D中事务包含A  B的百分比。即,P(A  B)。规则A  B在事务集D中具有置信度c,如果D中包含A的事务同时也包含B的百分比是c。这是条件概率P(B|A)。即
support (A  B ) = P(A  B)
confidence (A  B ) = P(B|A)
关联规则挖掘(续)
Apriori性质:频繁项集的所有非空子集都必须也是频繁的。
Apriori性质基于如下观察:根据定

数据挖掘算法wangye 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数87
  • 收藏数0 收藏
  • 顶次数0
  • 上传人电离辐射
  • 文件大小2.47 MB
  • 时间2022-07-20
最近更新