下载此文档

数据挖掘系统研究报告.ppt


文档分类:IT计算机 | 页数:约15页 举报非法文档有奖
1/15
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/15 下载此文档
文档列表 文档介绍
数据挖掘系统研究报告
报告人:朱建秋
2001年10月08日
提纲
数据挖掘概述
数据挖掘文化
数据挖掘过程
数据挖掘系统
数据挖掘系统的发展趋势
实验室研究方向
数据挖掘概述
本文观点来自Robert Grossman
关于作者:the President of Magnify, Inc. (Chicago, Ill.) and the Director of the National Center for Data Mining at the University of Illinois at Chicago. He has been a leader in the development of high-performance and wide area data mining systems for over 10 years.
数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构
数据挖掘大部分的价值在于利用数据挖掘技术改善预言模型
数据挖掘文化
知识发现文化(KD)
输出的是规则
预言模型文化(PM)
输出的是预言模型
共同点
两种文化输入的都是学****集(learning sets)
目的都是尽可能多的自动化数据挖掘过程
数据挖掘过程并不能完全自动化,只能半自动化
数据挖掘文化
举例说明
假设移动电话用户根据其转换到其他通信公司的风险,被分成低、中、高三组
一个数据挖掘系统可能抽取出一条规则,比如:“一天至少接到两个电话的用户有低的更换率”。
继续这个例子,一个预言模型可能给每个用户分配两个分数:一个分数在0和1之间,表示用户可能更换通信公司的概率,另一个暗示该用户在下一年可能会给公司带来的利润。
数据挖掘过程
步骤
步骤名称
描述
1
数据仓库
Data Warehouse
数据仓库管理用于决策支持的数据。在该步骤内,数据从操作型系统以及第三方的数据源聚集、清洗、以及转换到数据仓库中,供决策分析使用。
2
数据挖掘
Data Mining
在这个步骤中,数据从数据仓库抽取出来,用来产生预言模型或者规则集。该步骤可以自动化。
3
预言模型
Predictive Modeling
在该步骤内,为了产生一个优化的模型,一个或多个预言模型被选择或者联合。这些预言模型可能从数据挖掘系统产生,也可能从统计模型中产生,或者通过第三方购买。
4
预言记分
Predictive Scoring
在这个步骤中,选择的预言模型对操作型数据或者交易数据进行记分(score) 。
数据挖掘系统

特征
数据挖掘算法
集成
分布计算模型
数据模型
第一代
数据挖掘作为一个独立的应用
支持一个或者多个算法
独立的系统
单个机器
向量数据
第二代
和数据库以及数据仓库集成
多个算法:能够挖掘一次不能放进内存的数据
数据管理系统,包括数据库和数据仓库
同质/局部区域的计算机群集
有些系统支持对象、文本、和连续的媒体数据
第三代
和预言模型系统集成
多个算法
数据管理和预言模型系统
/网络计算
支持半结构化数据和web数据
第四代
和移动数据/各种计算数据联合
多个算法
数据管理、预言模型、移动系统
移动和各种计算设备
普遍存在的计算模型
数据挖掘系统
第一代数据挖掘系统
支持一个或少数几个数据挖掘算法,这些算法设计用来挖掘向量数据(vector-valued data),这些数据模型在挖掘时候,一般一次性调进内存进行处理。许多这样的系统已经商业化。
第二代数据挖掘系统
目前的研究,是改善第一代数据挖掘系统,开发第二代数据挖掘系统。第二代数据挖掘系统支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性。例如,第二代系统能够挖掘大数据集、更复杂的数据集、以及高维数据。这一代系统通过支持数据挖掘模式(data mining schema)和数据挖掘查询语言(DMQL)增加系统的灵活性。
数据挖掘系统
第三代数据挖掘系统
/的分布式和高度异质的数据,并且能够有效地和操作型系统集成。这一代数据挖掘系统关键的技术之一是提供对建立在异质系统上的多个预言模型以及管理这些预言模型的元数据提供第一级别(first class)的支持。
第四代数据挖掘系统
第四代数据挖掘系统能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquitous)计算设备产生的各种类型的数据。
数据挖掘系统
接口
第二代数据挖掘系统提供数据仓库和数据挖掘系统之间的有效的接口
第三代系统另外还提供数据挖掘系统和预言模型系统之间的有效的接口
数据管理系统和数据挖掘之间的接口,可以作为如何标记合适的数据挖掘原语的一个研究问题。数据挖掘原语能够在数据仓

数据挖掘系统研究报告 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数15
  • 收藏数0 收藏
  • 顶次数0
  • 上传人管理资源吧
  • 文件大小0 KB
  • 时间2011-08-07