下载此文档

《数据选择》.ppt


文档分类:IT计算机 | 页数:约17页 举报非法文档有奖
1/17
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/17 下载此文档
文档列表 文档介绍
该【《数据选择》 】是由【相惜】上传分享,文档一共【17】页,该文档可以免费在线阅读,需要了解更多关于【《数据选择》 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。〔DBMS〕,由一些相关数据组成,并通过软件程序管理和存储这些数据。DBMS提供数据库结构定义,数据检索语言〔SQL等〕,数据存储,并发、共享和分布式机制,数据访问授权等功能。关系数据库由表组成,每个表有一个唯一的表名,属性〔列或域〕集合组成表结构,表中数据按行存放,每一行称为一个记录。记录间通过键值加以区别。关系表中的一些属性域描述了表间的联系,这种语义模型就是实体关系〔ER〕模型。关系数据库是当前最流行、最常见的数据库之一,为数据挖掘研究工作提供了丰富的数据源。:超大数据量。动态变化的数据。噪声。数据不完整。冗余信息。数据稀疏。〔DataWarehouse〕的一个综合性的定义是:它是一个集成的,面向主题的、设计用语决策支持功能〔DSF〕的数据库的集合,数据中的每一个数据单元在时间上都是和某个时刻相关的。联机操作数据库系统的主要任务是执行联机事务和查询处理。这种系统称为联机事务处理(OLTP)系统。它们涵盖了一个组织的大部分日常操作,如购买、库存、制造、银行、工资、注册、记帐等。。事务型数据库中的数据记录总是被多用户访问和不断更新。相反,数据存在于数据仓库中的局部原因是由于OLTP环境不再使用这些数据。大多数数据仓库中的数据是历史性的,有时间戳的,并且不再改变〔只读〕。粒度是一个用于描述存储信息的详细程度的术语。操作数据代表了最低的粒度,因为每个数据项包含一个单个事务的信息。数据仓库中数据的粒度是一个设计要点,它依赖于客户的需要以及所采集数据的数量。、存储、管理和分析数据的过程〔Gardner,1998〕。数据仓库最有效的数据挖掘工具是多维分析方法〔MultidimensionalDataAnalysis〕,也称为联机分析处理〔OLAP,OnlineAnalyticalProcessing〕。以下图显示了仓储过程的关键组件。外部数据依赖数据ETL例程(提取/变换/加载)数据仓库决策支持系统报告提取/。文本数据库中存放的内容均为文字,这些文字并不是简单的关键词,而是长句、段落甚至全文,文本数据库多数为非结构化的,也有些是半结构化的〔如,题录数据加全文、HTML、Email邮件等〕。Web网页也是文本信息,把众多的Web网页组成数据库就是最大的文本数据库。,内容包括:、网页上挖掘出有用数据和知识的过程。Web上的信息完全可以视为一个异构的数据库环境。对这些数据进行挖掘,首先解决站点之间异构数据的集成问题,为用户提供一个统一的视角来看待Web资源。其次,对于集成的Web数据至少应提供两个方面的挖掘功能:网络信息与数据的查询;Web数据的分析处理和知识发现。精选课件10

《数据选择》 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数17
  • 收藏数0 收藏
  • 顶次数0
  • 上传人相惜
  • 文件大小1.20 MB
  • 时间2024-04-16