1、AIGC AIGC 在在 DataLeap DataLeap 大数据研发治理套件的实践大数据研发治理套件的实践火山引擎 DataLeap 资深架构师/王慧祥火山引擎 DataLeap 技术专家/丁桂涛目录DataLeap整体介绍AIGC在DataLeap数据资产方向的实践 找数助手AIGC在DataLeap数据研发方向的实践 研发助手 未来规划DataLeapDataLeap整体介绍整体介绍DataLeap DataLeap 大大数据研发治理数据研发治理套件套件数据研发全链路管理数据研发全链路管理整合全域数据,支持20+多源异构数据集成,灵活对接各类业务系统。敏捷开发CI/CD,覆盖需求、开发
2、、测试、发布、运维等研发全链路管理。数据全生命周期治理数据全生命周期治理结合基线监控、数据质量、SLA治理等能力,提供事前预警、事中处理、事后复盘及推荐优化的全生命周期的数据治理能力沉淀数据规范沉淀数据规范统一数据标准及数据查询出口,沉淀数仓建设规范的最佳实践,提升数据开发效率,保证数据质量,快速精准为业务赋能保障数据安全保障数据安全更细粒度的行、列权限控制,表及字段级别的血缘管理,加上行为监控等功能,构成真正意义上的数据安全屏障多云多引擎多云多引擎提供公有云PaaS服务及灵活的私有化部署方案。可低成本、高效适配客户已有大数据平台,控制迁移成本,降低业务影响DataLeapDataLeap智能
3、助手智能助手火山引擎大数据研发治理套件DataLeap智能助手基于自研方舟MAAS,经过海量代码和语料训练,支持根据自然语言理解,提供拟人化的逻辑推理总结、自动生成代码构建优化和管理。资产知识库经过对话式语义检索,高效聚焦全链路的搜索过程,以低门槛、自助式的数据探索,极大提升企业数据研发和数据消费能力找数助手找数助手对话式的数据检索能力,解决用户找数据与用数据诉求。通过AI加持推动让搜索过程更聚焦。同时伴随模型语义理解能力的逐步提升,其全链路的检索效率更高,使得资产以低成本管理、促进自助式数据消费研发助手研发助手实现通过自然语言描述,自动生成代码,针对已有的代码可以自动实现自动生成、修复,优化
4、、解释与注释等。对话式方式进行文档搜索、函数使用、代码示例等问题咨询。助力平台用户减少基础开发工作量、提升开发效率。更便捷地生产数据、应用数据,实现更普惠的数据消费,为数字化提供现实基础。打破了语言障碍,极大程度降低了数据开发的准入门槛,同时让专业数据研发人员更聚焦复杂场景的需求AIGC AIGC 在在 DataLeap DataLeap 数据数据资产资产方向的实践方向的实践-找数找数助手助手数据资产数据消费问题数据消费问题 数据资产建设的核心目的是促进数据消费,使数据价值最大化 在海量数据场景下,如何准确、高效的找到数据是数据消费的前提 数据的查找和使用强依赖于业务知识业务知识的处理 结构化
5、组织数据表达能力有限,在数据管理侧信息丢失 基于关键词的检索能力受限,在数据消费侧信息丢失结构化数据非结构化数据数据消费数据研发数据分析数据运营数据管理数据决策数据采集数据编目数据认证数据发布找数据问口径咨询含义关键词检索结构化组织?LLMLLM在找数场景能做什么在找数场景能做什么 LLM的特性:理解、推断、生成 找数场景有如下复杂点:问题理解(理解)意图判断(推断)结构化元数据描述不足(生成)大量非结构化元数据沉淀于文档(生成)关键信息提取(生成)用户问题:帮我看看商家GMV用哪张表?LLM用户是要找一张表还是问业务的含义?是找包含什么信息的表?哪些表包含这些信息?这些表中有没有适合回答用户
6、问题的?使用哪些信息能更好的回答用户问题?DataLeapDataLeap找数助手整体架构找数助手整体架构对话框架LLMQuery分析文档搜索元数据搜索LLM:问题理解与筛选LLM:问题理解与总结语义召回排序垂类搜索-Hive语义召回匹配召回多路召回融合排序垂类搜索-数据集语义召回匹配召回多路召回融合排序垂类搜索多轮会话问题合并意图识别找数据用数据业务问答问题排查其他意图判断数据增强答案总结总结按意图搜索Query分析用户问题问题答案问题理解问题理解 核心关键词提取核心关键词提取 识别query中核心的term,提升找数准确性,提升用户体验 多轮对话问题合并多轮对话问题合并 判断用户新问题是否