下载此文档

数据挖掘期末.pdf

文档分类：IT计算机 | 页数：约8页举报非法文档有奖

1/8

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/8 下载此文档

文档列表 文档介绍

该【数据挖掘期末】是由【青山代下】上传分享，文档一共【8】页，该文档可以免费在线阅读，需要了解更多关于【数据挖掘期末】的内容，可以使用淘豆网的站内搜索功能，选择自己适合的文档，以下文字是截取该文章内的部分文字，如需要获得完整电子版，请下载此文档到您的设备，方便您编辑和打印。什么是数据挖掘?什么是数据仓库?并简述数据挖掘的步骤。数据挖掘是从大量数据中提取和发现(挖掘)知识的过程。具体地说,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据仓库是面向主题的、集成、稳定的、不同时间的数据集合,用于支持经营管理中的决策制定过程步骤:1)数据清理(消除噪声或不一致数据)2)数据集成(多种数据源可以组合在一起)3)数据选择(从数据库中检索与分析任务相关的数据)4)数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作)5)数据挖掘(基本步骤,通过智能方法提取数据模式)6)模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式)7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)什么是数据可视化?数据可视化旨在通过图形表示清晰有效地表达数据。基于像素的可视化技术几何投影可视化技术基于图符的可视化技术层次可视化技术数据的基本形式有数据库数据、数据仓库数据和事务数据数据流、有序/序列数据、图或网络数据、空间数据、文本数据、多媒体数据和万维网数据对象和属性类型数据集由数据对象组成,一个数据对象代表一个实体。属性是一个数据字段,表示数据对象的一个特征。标称属性(与名称相关)二元属性(布尔属性)序数属性数值属性(区间标度属性和比率标度属性)离散属性和连续属性什么是数据清理?数据清洗过程填写缺失值,平滑噪声数据,识别、删除离群点,解决不一致性噪声是被测量的变量的随机误差或方差数据清洗一般包括数据分析,定义和执行清洗规则,,应用相应的技术,如统计学,数据挖掘的方法,分析出数据源中数据的特点,为定义数据清洗规则奠定基础。除手工测查数据或数据样本之外,还可以用专门的分析程序来分析数据源。数据分析的结果是数据源一些数据质量问题的描述,被保存到元数据库中。:*空值的检查和处理*非法值的检测和处理*不一致数据的检测和处理*(duplicate)记录补上不完全的(plete)记录解决不一致的(inconsistent),当不满足清洗要求时要对清洗规则或系统参数进行调整和改进。数据清洗过程中往往需要多次迭代的进行分析,设计和验证。什么是分类?有哪些方法?分类(CategorizationorClassification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。决策树归纳贝叶斯分类什么是聚类?有哪些方法?聚类分析,简称聚类,是把一个数据对象(或观测)划分成子集的过程。每个子集是一个簇,使得簇中的对象彼此相似,但与其他簇中的对象不相似。由聚类分析产生的簇的集合称作一个聚类。基本聚类方法:划分方法(k-均值、k-中心点)层次方法()基于密度的方法(DBSCAN)基于网格的方法聚类和分类的区别分类(CategorizationorClassification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。聚类是指事先没有“标签”而通过某种成因分析找出事物之间存在聚集性原因的过程。区别是,分类是事先定义好类别,类别数不变。分类器需要由人工标注的分类训练语料训练得到,属于有指导学****范畴。聚类则没有事先预定的类别,类别数不确定。聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成。分类适合类别或分类体系已经确定的场合,比如按照国图分类法分类图书;聚类则适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端,比如多文档文摘、搜索引擎结果后聚类(元搜索)等。数据预处理方法和内容数据的预处理包括数据的规范化(即变换后可使数据在任一属性下,性能越优,属性值越大,从而便于比较)非量化、归一化。常见的数据预处理方法有:数据清洗、数据集成、数据变换和数据归约。:数据清洗的目的不只是要消除错误、冗余和数据噪音,还要能将按不同的、不兼容的规则所得的各种数据集一致起来。:将多个数据源中的数据合并,并存放到一个一致的数据存储(如数据仓库)中。这些数据源可能包括多个数据库、数据立方体或一般文件。:找到数据的特征表示,用维度变换来减少有效变量的数目或找到数据的不变式,包括规格化、规约、切换和投影等操作。:是在对发现任务和数据本身内容理解的基础上,寻找依赖于发现目标的表达数据的有用特征,以缩减数据模型,从而在尽可能保持数据原貌的前提下最大限度的精简数据量,主要有两个途径:属性选择和数据抽样,分别针对数据库中的属性和记录。分箱离散化分箱是一种基于指定的箱个数的自顶向下的分裂技术。通过使用等宽或等频分箱,然后用箱均值或中位数替换箱中的每个值,可以将属性值离散化,就像用箱的均值或箱的中位数光滑一样。这些技术可以递归地作用于结果划分,产生概念分层。分箱并不使用类信息,因此是一种非监督的离散化技术。它对用户指定的箱个数很敏感,也容易受离群点的影响。分箱的方法主要有:①统一权重法(又称等深分箱法)②统一区间法(又称等宽分箱法)③最小熵法④自定义区间法数据平滑的方法主要有:平均值法、边界值法和中值法。频繁项集:指满足最小支持度的项集,是挖掘关联规则的基本条件之一。支持度:规则A-B的支持度指的是所有事件中A与B同地发生的的概率,即P(AUB),是AB同时发生的次数与事件总次数之比。支持度是对关联规则重要性的衡量。可信度:规则A-B的可信度指的是包含A项集的同时也包含B项集的条件概率P(B|A),是AB同时发生的次数与A发生的所有次数之比。可信度是对关联规则的准确度的衡量。DBSCAN算法一种基于高密度连通区域的基于密度的聚类算法过程:1、将所有点标记为核心点、边界点和噪声点2、删除噪声点3、为距离在Eps之内的所有核心点之间赋予一条边4、每组联通的核心点形成一个簇5、将每个边界点指派到一个与之关联的核心点的簇中DBSCAN算法的优点是耐噪声、能够处理任意大小和形状的簇DBSCAN算法的缺点是处理高维数据、变密度的数据效果不好K-均值算法(每个簇的中心都用簇中所有对象的均值来表示)K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。输入:K:簇的数目D:包含n个对象的数据集输出:k个簇的集合方法:(1从)D中任意选择k个对象作为初始簇中心(2)Repeat(3根据簇中对象的均值,将每个对象分配到最相似的簇)(4更新簇均值,即重新计算每个簇中对象的均值)(5)Until不再发生变化决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。它是分类规则挖掘的典型方法,可用于对新样本进行分类。决策树构建的基本步骤如下:,,-3步,直到每个节点足够“纯”为止特点:决策树分类器的构造不需要任何领域知识或参数设置因此适合于探测式知识发现;可以处理高维度数据;学****和分类步骤是简单和快速的;具有很好的准确率。贝叶斯算法贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。

数据挖掘期末来自淘豆网www.taodocs.com转载请标明出处.