1、 数据工厂数据工厂技术白皮书技术白皮书 E EsDataFactory sDataFactory 北京亿信华辰软件责任有限公司北京亿信华辰软件责任有限公司 20162016 年年 4 4 月月 技术白皮书技术白皮书 2 目录 1 前言 . 3 1.1 关于本白皮书 . 3 1.2 背景介绍 . 3 1.3 产品定位 . 3 2 产品架构 . 4 2.1 产品总线 . 4 2.2 数据工厂架构 . 5 3 产品功能特色. 6 3.1 工厂分层 . 7 3.2 模型定义 . 8 3.3 批量建模 . 10 3.4 扩展属性维护 . 10 3.5 模型鸟瞰图 . 11 3.6 模型资源查询 . 12
2、 3.7 模型说明书生成 . 12 3.8 建模快捷方式 . 13 3.9 ETL 过程创建 . 13 3.10 输入输出组件 . 14 3.11 转换组件 . 16 3.12 数仓组件 . 17 3.13 脚本组件 . 17 3.14 ETL 过程流 . 18 3.15 ETL 过程发布 . 19 3.16 调度管理 . 20 3.17 导入导出. 21 3.18 运行监控 . 22 3.19 Ukey 登录认证 . 23 4 产品优势 . 24 4.1 通用性 . 24 4.2 可扩展性 . 24 4.3 易用性 . 24 4.4 安全性 . 25 4.5 高性能 . 25 4.6 可靠性
3、 . 25 5 硬软件环境 . 25 5.1 硬件环境 . 25 5.2 软件环境 . 26 技术白皮书技术白皮书 3 1 前言前言 1.1 关于本白皮书关于本白皮书 本白皮书对应产品版本为:EsDataFactory V1.1 。 最后修订日期:2016年04月。 本白皮书将在阐述数据工厂产品的背景和意义的基础上,详细介绍ESDataFactory在技术和功能上的特点。 1.2 背景介绍背景介绍 商业智能和数据仓库技术引入国内有了二十多年的发展历程, 早期的数据集成和数据融合解决方案通常会选用一些传统的国际厂商的产品。 经过多年国内项目的实践检验,有一定的成效,但缺陷也较为显著。 其一、 产
4、品价格相当昂贵, 动辙成百上千万, 一般的中小企业很难负担的起; 其二、产品捆绑力度大,通常想要获得完整的解决方案,除了在购买主产品外,另外还得购置配套辅助产品; 其三、周期长,无论是专项技能人才的培养和解决方案的实施,都需要较长的磨合期; 其四、灵活性不强,项目的实施必须在既定模式下完成,可定制性差。 随着商业智能技术的演变和发展, 越来越多的中小型企业和单位意识到商业智能技术在指导和支撑企业运营中的重要性, 这些企业很多单位在开展数据整合和集成工作项目时,通常面临着实施周期较短、资金短缺、专项人才匮乏、可变性大等因数, 传统的厚重型的数据融合产品无论是在产品价格、应用匹配度和使用便利性上都
5、很难满足需要。 1.3 产品定位产品定位 “EsDataFactory是一款专业面向数仓实施的、智能、敏捷的数据全生命周期 技术白皮书技术白皮书 4 处理的应用平台, 全方位满足用户对数据管理和数据服务应用时效性和准确性需求”。 EsDataFactory是由我公司经过十多年的数据仓库和商业智能项目管理和实施经验总结、知识沉淀,全力打造的一款同时满足大中小型数据集成和数据管控的实施利器。很大程度上能降低数据集成实施技术门槛,使复杂的工作简单化、重复的工作智能化。 EsDataFactory具有如下特性: B/S 架构,基于 web 应用,升级便利,免客户端安装 完全自主知识产权,区别于其它国产
6、软件套壳式的研发模式 敏捷开发模式,集数据建模和 ETL 设计于一体,能快速响应开发,灵活应对需求变动 开发者与应用者视角隔离,支持多人协同定义,共享资料库 内置数仓分层结构,提供数仓全局一体化视图,可视化管理和可视化定义 内置丰富的数据安全脱敏算法 ETL 定义支持数据抽样,转换过程支持边设置边预览 基于时间或事件的调度触发模式 批量加载和并行计算机制 2 产品架构产品架构 2.1 产品总线产品总线 底层公共开发平台是所有产品的技术框架层,提供了产品线的通用功能和二次开发接口,是新产品版本的快速迭代、产品集成和互联互通的基础;数据处理环节包括采集平台 IReport 和数据工厂产品;数据应用