下载此文档

ETL流程数据流图及ETL过程解决方案.ppt


文档分类:IT计算机 | 页数:约43页 举报非法文档有奖
1/43
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/43 下载此文档
文档列表 文档介绍
ETL流程数据流图及ETL过程解决方案
可爱卡通创意手绘通用PPT幻灯片演讲
ETL模式及比较
两种模式
异构
同构
模式比较的维度:
特点
环境
ETL模式-同构
ETL模式-异构
两种模式的比较-特点出到文本文件。处理导出过程的存储过程可以在源上,也可以在目标上。
数据转换过程只有一个步骤,一次性地完成导出和装载的工作。简化了设计和测试的过程,但是另一方面也降低了灵活性。
要求具备两套安全控制机制,对于源数据库有读权限,对于目标数据库有写权限。同时还需要有能够在源和目标服务器上有写文件的权限(用于存放中间文本文件和上传文件到目标服务器)。
与异构模式类似,也需要对于源数据库有读权限,对于目标数据库有写权限。但是抽取过程可以不需要源和目标服务器上操作系统级的文件管理权限。
两种模式的比较-环境
条件
异构(Asynchronous)
同构(Synchronous)
数据传输(Data transfer)
大数据量
小数据量
网络连接(Network connectivity)
广域网
局域网或者同一数据中心
源和目标在物理架构上是否属于不同的分布式环境

不是
抽取数据的复杂度(Complexity of data)
源中只包含了文本或数值类型的字段
源数据库中包含了图形类字段
◇ETL定义
◇模式及比较
◇ETL过程
◇问题分析
◇ 现状分析
目录
ETL过程
ETL过程:
数据抽取
数据清洗
数据转换
数据加载
ETL的问题
ETL过程-0层DFD
1层-数据抽取
1层-数据清洗
1层-数据转换
1层-数据加载
ETL过程-数据抽取
数据来源
文件系统,业务系统
抽取方式
根据具体业务进行全量或增量抽取
抽取效率
将数据按一定的规则拆分成几部分进行并行处理
抽取策略
根据具体业务制定抽取的时间、频度,以及抽取的流程
ETL过程-数据清洗
清洗规则:
数据补缺
对空数据、缺失数据进行数据补缺操作,无法处理的作标记
数据替换
对无效数据进行数据的替换
格式规范化
将源数据抽取的数据格式转换成为便于进入仓库处理的目标数据格式
主外键约束
通过建立主外键约束,对非法数据进行替换或导出到错误文件重新处理
转换规则
数据合并
多用表关联实现,大小表关联用lookup,大大表相交用join(每个字段加索引,保证关联查询的效率)
数据拆分
按一定规则进行数据拆分
行列互换
排序/修改序号
去除重复记录
数据验证:lookup,sum,count
实现方式
在ETL引擎中进行(SQL无法实现的)
在数据库中进行(SQL可以实现)
ETL过程-数据加载
实现方式
优点
缺点
时戳方式
在业务表中统一添加字段作为时戳,当OLTP系统更新修改业务数据时,同时修改时戳字段值
源数据抽取相对简单清楚,速度快,适合数据的增量加载
需要修改业务表中的数据结构,业务数据变动时工作量比较大,相对风险较大
日志表方式
在OLTP系统中添加日志表,业务数据发生变化时,更新维护日志表内容
不需要修改业务表中的数据结构。源数据抽取简单清楚,速度快,适合数据的增量加载
业务系统中更新记录日志操作麻烦
全表对比方式
抽取所有源数据,在更新目标表之前先根据主键和字段进行数据比对,有更新的进行update或insert
对系统表结构没有任何影响,管理维护统一,可以实现数据的增量加载
数据比对复杂,设计比较复杂,执行速度慢
全表删除插入方式
删除目标表数据,将源数据全部插入
ETL规则简单,速度快
对维表加代理健不适应,OLTP系统有删除数据时,不能在数据仓库体现被删数据,不能实现增量加载
◇ETL定义
◇模式及比较
◇ETL过程
◇问题分析
◇ 现状分析
目录
ETL执行时的异常处理
数据异常
将错误信息单独输出,继续执行ETL,错误数据修改后再单独加载
中断ETL,修改后重新执行ETL
原则:最大限度接收数据
环境异常
对于网络中断等外部原因造成的异常,设定尝试次数或尝试时间,超数或超时后,由外部人员手工干预
其他异常
例如源数据结构改变、接口改变等异常状况,应进行同步后,再装载数据
ETL设计规范
DI开发规范
ETL开发首要确定的是流程的执行顺序及条件;其次是具体表映射关系的定义,在数据库性能允许的情况下,应该尽可能使用sql语句进行处理
对于具体映射和流程的命名,应该以维护方便为前提:
映射:以目标表名命名
流程:以流程要实现的功能命名
不允许使用临时的SQL语句操纵数据库,必须编写好的SQL脚本或存储过程
限定手工干预只能运行某个流程,不允许运行单个过程
每一项手工操作必须留下记录
设计规范

ETL流程数据流图及ETL过程解决方案 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数43
  • 收藏数0 收藏
  • 顶次数0
  • 上传人核辐射
  • 文件大小1.38 MB
  • 时间2022-03-31