1、DataFunSummit#2023泰康人寿针对大健康领域特征构建湖仓一体数据平台的设计实施、改良优化与应用实践演讲人:田昕峣 泰康人寿总公司 数据研发工程师致谢本次技术分享的汇报离不开多方支持,故演讲人在此一并表示郑重且真诚地感谢。首先,感谢泰康保险集团、泰康人寿的领导层,特别是泰康人寿科技创新中心 周雄志 总、付刚 总对于本次汇报的鼎力支持与提供的各项帮助,并给予内容创作者极大的创作自由和多方面的指导与鼓励;其次,感谢泰康人寿数据架构资深专家工程师 王可 老师作为直接技术指导对本次分享内容脉络和宏观与微观技术进行的全面总体把控,以及泰康人寿高级总监 周勇 经理对汇报内容进行多次精心的审核与
2、指导并提出宝贵的整改意见,使得汇报内容在技术性与专业性上尽可能地做到全面且细致;最后,本次技术分享的成功汇报还离不开平安人寿大数据架构师 杜天敏 前辈的引荐,以及此次 DataFun Summit2023 线上湖仓论坛的组织者 洪飞 老师对于整体流程的统筹与协调。在他们以及 DataFun 社区提供的优质平台及其相关人员的共同努力下,方才使本次分享的各个环节均做到了尽善尽美;此外,对于其他对本次技术分享作出贡献的老师与同仁们,以及使用宝贵周末时间来聆听此次汇报的听众朋友们,演讲人在此一并表示感谢。演讲人:泰康人寿 数据研发工程师 田昕峣01数据平台建设背景Introduction&Backgr
3、ounds02相关技术概念Related Technical Concepts目录 CONTENT03数据湖技术选型Datalake Selection Methodology04湖仓一体架构设计与实施Lakehouse Architecture05数据湖功能扩展与优化Datalake Feature ImprovementsBased on Apache Hudi06落地场景与应用成果Application Secnarios&Achievements07后续工作Further Works08讨论与问答Questions&AnswersDataFunSummit#202301数据平台建设背景
4、大健康领域核心板块示意图注:图片绘制参考自中商产业研究院:2021年“十四五”中国大健康产业市场前景及投资研究报告https:/ IT 成本;然而,公司规模的不断扩大和业务的持续发展,导致的“数据孤岛”现象亦愈发明显。企业级数据资产被妥善管理的难度呈增大趋势企业决策层与管理层对企业整体的数据资产产生宏观认知并决策的难度较大。企业级数据价值被有效发掘的成本呈指数增加的趋势面对行业内的新机遇和新挑战时,数据的潜在价值被及时发掘的成本较高。数据工具零散分布,数据处理各环节形成合力的愿景面临挑战数据采集、数据注入、数据治理、数据处理与加工、数据分析等工具分布零散,使用和开发效率有待通过集中的方式进一步
5、提高。DataFunSummit#202302相关技术概念湖仓一体架构相关技术概念数据湖(Data Lake)数据湖是一个集中式的数据存储,以原始形式摄取和存储大量数据。进入数据湖后,数据便可以被加工处理并被用作各种分析需求的原材料。由于其开放、可扩展的架构,数据湖可以容纳来自任何来源的所有类型的数据,从结构化(数据库表、Excel 工作表)到半结构化(XML 文件、网页)再到非结构化(图像、音频文件、推文),所有这些都不会牺牲保真度 1(翻译自演讲者,定义由 Microsoft 给出)。数据仓库(Data Warehouse)数据仓库或企业数据仓库(EDW)是一种将来自不同源的数据聚合到单个
6、集中式一致数据存储中的系统,以支持数据分析、数据挖掘、人工智能和机器学习。数据仓库系统使组织能够以标准数据库无法做到的方式对大量(TB 和PB 级别)的历史数据进行强大的分析 2(翻译自演讲者,定义由 IBM 给出)。湖仓一体(Data Lakehouse)数据湖仓是一个数据平台,它将数据仓库和数据湖的最佳方面合并到一个数据管理解决方案中。数据湖仓寻求解决数据仓库和数据湖的核心挑战,为组织提供更理想的数据管理解决方案 3(翻译自演讲者,定义由 IBM 给出)。1 https:/ https:/ https:/ Consider Dimensions社区相关情况(发展态势)Community M