《AICon上海站-江岚-0523.pdf》由会员分享,可在线阅读,更多相关《AICon上海站-江岚-0523.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、构建下一代数据架构构建下一代数据架构释放释放 AI AI 的的“数据智慧数据智慧”演讲人:江岚瓴羊/Dataphin建设平台技术负责人十年磨一剑,源自阿里巴巴最佳实践2012201520182021One DataOne DataOne ProductOne ProductOne PlatformOne PlatformOne CompanyOne Company个性化推荐个性化搜索88VIP数据中台数据中台消费者消费者商家商家集团内部集团内部1NN决策体系业务中台业务中台服务中台服务中台统一统一IDID统一建模统一建模统一服务统一服务生意参谋数据银行从阿里巴巴最佳实践,到服务千行百业从阿里巴
2、巴最佳实践,到服务千行百业资产建设基础研发平台数据来源数据消费智能数仓标签平台隐私计算资产消费资产上架打通BI即席分析API调用资产治理资产目录资产质量资产安全资源治理数据标准资产盘点/元数据管理架构规划数据集成数据研发测试发布作业调度监控运维Dataphin智能数据建设与治理目录目录01WHY:AIAI时代数据架构的挑战时代数据架构的挑战02WHAT:现代数据架构的设计现代数据架构的设计03HOW:现代数据架构在产品中的落地现代数据架构在产品中的落地04TODO:Data for AIData for AI的总结与展望的总结与展望AIAI时代数据架构的挑战时代数据架构的挑战AI在企业中得到广
3、泛使用来源:The State of AI The State of AI by McKinsey数据是AI投产的重要影响因素来源:20242024 Global Trends in AI Global Trends in AI by S&P Global构建AI-ready DataAI-ready DataAI-ready Data:经过处理后的、高质量且适合用于人工智能模型训练、推理或决策支持的数据。Garbage in,Garbage out通过质量、标准等治理手段,提升训练数据的准确性、完整性,减少噪音影响,从而提升AI的准确度。数据质量整合各部门的数据,避免数据孤岛,促进跨团队协作
4、;便捷访问多个来源的数据,确保数据的多样性,推动模型快速迭代。数据可访问性技术手段(如加密、脱敏)和管理策略(如访问控制、合规框架)相结合,保护数据安全,规避隐私数据的泄漏风险。数据隐私安全给数据赋予更多的属性,丰富数据集的元数据信息,让AI能够更好地“理解”数据,从而提升AI输出的准确度。元数据丰富度现代数据架构的设计现代数据架构的设计新兴数据架构 Data Lakehouse来源:data-新兴数据架构 Data Fabric来源:GartnerLakehouse与Fabric的协同业务人员自助访问业务数据,无需长链路的同步加工,打破数据孤岛。数据民主化数据民主化Data FabricDa
5、ta FabricData LakehouseData Lakehouse技术底座技术底座相互协同相互协同开放的湖表格式开放的湖表格式湖表支持不同场景的引擎访问,无需复制数据。并且支持ACID、TimeTravel等特性。降本提效,释放数据价值,助力业务增长降本提效,释放数据价值,助力业务增长流批融合计算流批融合计算基于同一份存储,同时支持流批的读写,流批计算不再有清晰的边界。技术视角技术视角架构理念架构理念产品视角产品视角存算分离存算分离存储与计算完全分离,可以在低廉的存储上,运行任意的计算引擎。统一访问入口统一访问入口数据虚拟化数据虚拟化用户通过单一接口查询分散在本地、云端的数据,无需物理
6、迁移。通过数据虚拟化技术屏蔽物理层,为用户提供统一的逻辑数据视图。多云、多引擎的现代数据架构LakehouseOLTPHMSUnity CatalogEvent/LogExternal CatalogManaged CatalogDLF统一资产目录统一资产目录业务库业务库Use EverywhereUse EverywhereOne CatalogOne CatalogOneOne PlatformPlatform灵活入湖高效建设全链路治理多渠道消费统一资产建设与治理统一资产建设与治理数据研发数据研发离线研发实时研发交互分析BI报表数据分析数据分析OpenAPIJDBC数据应用数据应用OLAP