基于可复用构件思想的ETL架构设计

时间:2010-05-08来源:网络


2.3 银联统计分析系统ETL架构设计

基于可复用构件思想银联统计分析系统ETL架构具体包含六个功能模块(如图3所示)包括:元数据抽取模块、可重用构件选择和导入模块、数据仓库架构自动维护模块、ETL过程定义模块、ETL调度模块、ETL构件生成模块。各个模块的具体功能分工如下:

(1)元数据抽取模块。这个模块主要完成两项工作:抽取银联业务数据和维度数据元数据,并在此基础上对系统进行更精确的定义,例如银联各类数据源提供的时间周期、银联数据仓库数据保留的时间和备份频率等信息。

(2)可重用构件的选择和导入模块。在银联统计分析系统的分析和设计阶段,已经识别了抽取层、集成转换层等各层有重用价值的构件。为了管理和重用这些构件,构件选择和导入模块的功能有两个:第一,从银联构件库中抽取已经封装的全流水交易数据抽取构件、集成转换构件、KPI转换构件、维度类数据集成转换构件(包括商户、机构、终端、商户类别、地区信息五类构件)、KPI自动测试类构件,将其导入到ETL过程库,按照ETL架构(见图1)对导人的构件分层组织,生成系统的ETL过程框架(如图4(a)所示),图4(a)中的ETL过程链中三个JOB节点分别对应ETL架构(见图1)中的抽取层、数据集成转换层、特殊处理层,图4(b)~(d)分别对应各导人构件(一个JOB节点代表一个导人构件的处理过程)在这三个层次中的组织形式。第二,模块可根据新项目银联分公司特殊业务规则和指标口径配置每个构件的处理规则,将配置信息加入元数据库中。

(3)数据仓库架构自动维护模块。数据仓库架构自动维护模块主要功能是依据元数据库中的信息,为银联统计分析系统完成数据仓库的创建和初始化工作,完成事实表、维度表创建,完成每个构件需要的配置表、中间表和临时表的建立等工作,而这些原本需要用手工来实现和维护的。

(4)ETL过程定义模块。在初始框架的基础上,可通过ETL定义模块可视化地定义构件库中没有可重用构件的ETL过程,例如手续费和品牌费抽取、商户信息抽取(如图5所示)、终端信息过程等,使整个银联统计分析系统的ETL趋于完善。

(5)ETL调度模块。ETL调度模块可以根据系统的调度设置,执行ETL过程库中的ETL过程,实现数据抽取、转换、加载、换算等工作。

(6)可重用构件生成模块。对于新定义的ETL过程,若可重用价值高,可通过ETL构件生成模块从ETL过程库中抽取相应ETL处理过程包装成可重用构件。可重用构件一般包括以下内容:ETL处理过程、配置过程说明文档、相关表(配置表、中间表和临时表)的信息、初始化数据、特殊规则配置功能界面,构件这些构成部分由ETL构件生成模块分别存入到构件库中相关表中。




3 结 语

这里介绍了一个基于可复用构件思想的ETL架构,以北京银联、江苏银联、浙江银联等10家省级银联统计分析系统为例,介绍了该架构各层构件的识别过程,设计了ETL模块构成以及各模块主要功能。该架构已经在10家省级银联分公司的统计分析系统的ETL构建中应用,实践表明该架构是有效的,它能够在比较短的时间内完成统计分析系统的构建,可有效缩短系统的开发周期,大幅度降低各分公司的时间成本和资金成本,对于推动数据仓库和商业智能在银联各个省级分公司的应用有显著意义和使用价值。
1 2 3

关键词: ETL 可复用 构件 架构设计

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版