ETL架构

Jam*_* P. 2 java architecture etl

我被要求制作一个ETL风格的应用程序,将信息从一个数据源传输到另一个数据源.目前,我已经决定使用三层架构,但我想了解更多关于此维基百科页面上描述的最佳实践和生命周期:

http://en.wikipedia.org/wiki/Extract,_transform,_load

ETL架构设计的四层方法

  • 功能层:核心功能ETL处理(提取,转换和加载).
  • 运营管理层:作业流定义和管理,参数,调度,监控,通信和警报.
  • 审计,平衡和控制(ABC)层:作业执行统计,平衡和控制,拒绝和错误处理,代码管理.
  • 实用程序层:支持所有其他层的公共组件.

现实生活中的ETL循环

典型的真实ETL循环包括以下执行步骤:

  1. 循环启动
  2. 构建参考数据
  3. 提取物(来源)
  4. 验证
  5. 转换(清理,应用业务规则,检查数据完整性,创建聚合或分解)
  6. 阶段(加载到临时表,如果使用)
  7. 审计报告(例如,遵守业务规则.另外,如果发生故障,有助于诊断/修复)
  8. 发布(到目标表)
  9. 档案
  10. 清理

Wil*_*ung 6

我不知道你的情况是什么或你的要求是什么,但你可能会过度思考这个问题.

仅这个名称就是"架构":

  • 提取
  • 转变
  • 加载

将DB表导出为CSV可以被视为"ET",而加载CSV则为"L".大多数ETL问题根本不复杂.

除此之外,您应该获取Java,免费和商业,图书馆和全船处理系统中已有的1或2百万个ETL和ESB软件包中的任何一个,并且只需采用您最喜欢的其中一个.

获得一块白板,将一些气泡与线条串起来,然后将其转换为代码.