1、兴业银行基于Alluxio的数据加速缓存应用场景兴业数金 大数据技术负责人 罗煜辉中国银保监会关于银行业保险业数字化转型指导意见到2025年对银行保险业的数字化转型提出了明确的要求,尤其对数据治理和数据资产管理提出了明确的细化。习近平总书记指出“没有信息化就没有现代化”,“十四五”规划和2035年远景目标纲要提出“坚持创新在现代化建设全局中的核心地位,把科技自立自强作为国家发展的战略支撑”。这些论述都为坚定金融科技自立自强的信心和决心以及服务金融高质量发展指明了方向中国银保监会主席郭树清在2020金融街论坛上强调“所有金融机构都要抓紧数字化转型,唯有如此,才能切实提高我们服务大众的本领。”数字
2、化转型就是新一轮五年规划金融科技工作的核心要务和主战场。不断加大科技资源投入,全力推动技术转型升级和完善机制保障一、大力推进云化转型二、持续优化科技与业务融合机制三、夯实数据基础,加大数据治理和数据资产体系的建设四、深化敏捷转型五、强化人才和文化保障70%当前底层基础数据服务主要的挑战在针对数据文件在集成过程中需要多次反复从HDFS或GPFS读取文件,对于大文件多次重复读取对存储的IO性能和网络带宽带来巨大的压力。对于跨机房的数据加载场景,存在直接通过Spark进行数据加载对网络带宽消耗过大的情况。面对信创压力,需要选择新的文件存储系统,但为了保证切换过渡稳定推进,需要同时满足不同类型数据的存
3、储要求,需要屏蔽底层不同文件存储系统的差异,并兼容多种文件存储系统(分布式文件系统和对象存储)v准实时准使用alluxio建设缓存服务层的历程当前数据缓存层应用情况GPFSHDFSDC-ADC-B数据交换数据入湖数据计算数据查询HDFS数据缓存应用场景xxx.dat.gz解压xxx.dat数据集成任务数据集成任务数据集成任务GPFSAlluxioSpark数据缓存分层结构热数据温数据冷数据RAMSSDHDD对应用透明的读写缓存机制数据持久化层计算缓存层大数据ETL大数据查询跨机房数据加载/dataGPFSDC-A/dc_1_dataDC-BHive通过设置TTL、Pin等实现缓存管理策略统一数
4、据生命周期Java文件APIHDFS 接口S3 接口REST APIPOSIX 接口HDFS驱动NFS驱动S3驱动定制驱动接口GPFS信创文件系统对象存储HDFS01030405数据采集/边缘计算数据工程数据仓库数据运营数据科学02采集加工报表服务预测大数据架构存算分离Hadoop8 nodesHadoop12 nodesHadoop15 nodesHadoop11 nodesHadoop10 nodesHadoop20 nodes弹性计算资源与环境计算集群计算集群统一HDFS/对象存储Alluxio数据中台搭集群 满意的租户噪音租户不满意的租户HDFS计算集群计算集群缓存平台带来的读写效率提
5、升00.20.40.60.811.2HDFSAlluxio 冷读Alluxio 热读Alluxio/HDFS数据访问时间对比数据访问模式:一次写入,多次读取相比HDFS读数据,缓存命中后的效率提升将近1倍降低HDFS的NameNode压力,提高底层文件系统的稳定性Alluxio 平台带来的网络带宽压力降低在为对系统网络架构进行重大调整的情况下,快速实现将网络带宽使用峰值从原来的30Gb/s,降低到2Gb/s左右。未来的数据编排优化与展望Cache缓存的优化与监控数据中台集群存算分离架构的演进与技术方案迁移,实现更好的租户隔离与SLA控管文件缓存系统与计算引擎结合的深度优化,与kubernetes集成总行与分行之间基于数据缓存系统的数据共享方案的设计与优化谢谢