《2017年恒丰银行基于大数据技术重塑数据仓库及应用的探索.pdf》由会员分享,可在线阅读,更多相关《2017年恒丰银行基于大数据技术重塑数据仓库及应用的探索.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、?1?2?3?4?01?04?03?02?1?1.?1/3-1/5?2.?2?1.?SSD?2.?3?1.?2.?1.?2.?3.?GC?4.?1.?SQL2003?2.?ODBC/JDBC?1.?2.?3.?1.?2.?3.?24.11.2015?01?03?02?04?,?A B?D?C 1.?2.?3.?1.?2.?1.?2.?3.?1.CPU/GPU?2.?3.?T+1?1?2?3?4?历史数据平台数据运维体系文件交换区FSA历史数据服务接口非结构化数据接入半结构化/非结构化数据源系统结构化数据非结构数据区社交媒体信息第三方数据.统一调度平台大数据管理平台在线数据平台源数据数据接入数据
2、存储公共数据模型层CDM源数据历史层HDM公共数据模型层CDM基础数据模型层FDM源数据历史层HDM基础数据模型层FDM源数据缓冲区ODM/结构化数据接入数据服务数据集市客户关系管理集市综合监管集市数据分析集市审计、反洗钱等其他数据服务接口DSI?Far far away,behind the word mountains,far from the countries Vokalia and Consonantia,there live the blind texts.Separated they live in Bookmarksgrove right at the coast of the
3、 Semantics,a large language ocean.Sign?Akka MQ-Kafka?Redis Skyline?Discover/Midas?Tableau?Waterdrop?Spark?/?Hadoop+Spark TDH?Voltdb?SDB?ESB?CRM?“?”?.?Single Source,Single View?分布式计算任务带来的调度协调成本 技术支持工具?SQL?包括规避存储过程内游标使用,尽可能用聚合成复合SQL语句或拆分成若干批量数据更新处理步骤?SQL?跨节点的数据网络传输带来的IO成本 避免复杂的SQL编写?SQL?IO?SQL?IO?1.?2
4、.?1.?2.SQL执行成本、执行时间、排队时间等多维?管控策略?1.?2.?3.?实时获取 数据,缩短数据 获取路径?1.?2.?3.?4.?在线数据平台 在线数据平台 历史数据平台 历史数据平台 灾备在线数据平台 灾备在线数据平台 灾备历史数据平台 灾备历史数据平台 1.?2.?1.?2.?1.?2.?同步 同步 同步 集群间日常增量同步 数据同步 1.针对ORC类型表,从在线数据平台每日获取增量数据,同步到其他三套数据平台 2.针对Hbase表类型,使用Hbase表同步功能进行准实时同步 集群间全表同步 集群间区间同步 1.从在线数据同步获取需同步区间的增量数据,同步到其他三套数据平台
5、1.针对ORC类型表,从在线数据平台获取表结构及全表数据,同步到其他三套数据平台,并保留历史平台的授权情况 2.针对Hbase表类型,使用Hbase表同步功能进行整表数据同步?01 02 03 04 1.?2.?3.?1.?2.?3.?1.?2.?3.?1.?2.?1?2?3?4?-?1.需要准确财报数据才能判断企业经营状况 2.选取合适的变量和模型,通过对历史数据的拟合验证,可以预测客户是否将出现信用违约 3.评审与贷后环节对人的判断能力非常依赖 4.外部环境复杂多变,系统性风险难以防范 1.?2.?3.?4.?1?2?3?4?1?2?3?1?2?3?1?2?3?1?2?3?1.?2.?3.?4.?1.?2.?3.?1.?2.?3.?1.?2.?3.?4.?5.?1.?1.?1.?2.?3.?4.?5.?-?Inceptor?Inceptor?Y?N?1?2?3?4?VS?400?T?2300?6T?1500?13?2?p?p?p?-?3?30?p?-?39?-?01.13?18?26?380TB?200?02.?110?200?03.?26?80?8?23?200?01.32?1100?02.?2500?6?03.335?6000?04.?60?5?01.?30?02.300?8000?03.?23?5?04.196?4500