下载此文档

数据挖掘算法综述.docx

文档分类：IT计算机 | 页数：约5页举报非法文档有奖

1/5

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/5 下载此文档

文档列表 文档介绍

数据挖掘算法综述.docx数据挖掘方法综述[摘要]数据挖掘(DM,DataMining)乂被称为数据库知识发现(KDD,KnowledgeDiscoveryinDatabases),它的主耍挖掘方法有分类、聚类、关联规则挖掘和序列模式挖掘等。[关键词]数据挖掘分类聚类关联规则序列模式1、数据挖掘的基本概念数据挖掘从技术上说是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。这个定义包括好儿层含义:数据源必须是真实的、大量的、含噪声的、发现的是用户感兴趣的知识,发现的知识要可接受、可理解、可运用,并不要求发现放之四海皆准的知识,仅支持特定的发现问题,数据挖掘技术能从中自动分析数据进行归纳性推理从中发掘出潜在的数据模式或进行预测,建立新的业务模型帮助决策者调整策略做出止确的决策。数据挖掘是是运用统计学、人工智能、机器学****数据库技术等方法发现数据的模型和结构、发现有价值的关系或知识的一门交叉学科。数据挖掘的主要方法有分类、聚类和关联规则挖掘等2、分类分类(Classification)乂称监督学****SupervisedLearning)o监督学****的定义是:给出一个数据集D,监督学****的目标是产生一个联系属性值集合A和类标(一个类属性值称为一个类标)集合C的分类/预测函数,这个函数可以用于预测新的属性集合(数据实例)的类标。这个函数就被称为分类模型(ClassificationModel),或者是分类器(Classifier)。分类的主要算法有:决策树算法、规则推理、朴素贝叶斯分类、支持向量机等算法。决策树算法的核心是Divide-and-Conquer的策略,即采用自顶向下的递归方式构造决策树。在每一步中,决策树评估所有的属性然后选择一个属性把数据分为m个不相交的子集,其中m是被选中的属性的不同值的数冃。一棵决策树可以被转化成一个规则集,规则集用来分类。规则推理算法则直接产生规则集合,规则推理算法的核心是Separate-and-Conquer的策略,它评估所有的属性■值对(条件),然后选择一个。因此,在一步中,Divide-and-Conquer策略产生m条规贝U,而Separate-and-Conquer策略只产生1条规则,效率比决策树要高得多,但就基本的思想而言,两者是和同的。朴素贝叶斯分类的基本思想是:分类的任务可以被看作是给定一个测试样例d后估计它的后验概率,即Pr(C二5|d),然后我们考察哪个类6对应概率最大,便将那个类别赋予样例d。构造朴素贝叶斯分类器所需要的概率值可以经过一次扫描数据得到,所以算法相对训练样本的数量是线性的,效率很高,就分类的准确性而言,尽管算法做出了很强的条件独立假设,但经过实际检验证明,分类的效果还是非常好的。支持向量机(SVM)是另一类的线性学****系统,用最大边距决策边界来分割正例和负例,学****问题用一个二次优化问题來描述。非线性的决策边界可以用原始数据向更高维的特征空间变换得到。支持向量机不仅有扎实的理论基础,而且在许多应用领域比其他算法更准确,尤其是在处理高维数据时。到目前为止它是解决文本分类问题的最准确的算法,也被广泛用于网页分类和生物信息领域。3、聚类聚类(Clustering)又称为监督学****SupervisedLearning),它可以发现数据属性和类别属性之

数据挖掘算法综述来自淘豆网www.taodocs.com转载请标明出处.