《LLM时代下的指标平台建设实践终版.pdf》由会员分享,可在线阅读,更多相关《LLM时代下的指标平台建设实践终版.pdf(28页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunCon#2024LLM时代下的指标平台建设实践刘豹-数势科技-标品研发负责人数势科技数势科技数势科技数势科技数势科技数势科技数势科技数势科技数势科技Contents目录LLM拉开数据普惠序幕数据普惠实现路径指标平台相关创新点未来展望案例分享数势科技数势科技数势科技数势科技数势科技数势科技数势科技数势科技数势科技01 LLM拉开数据普惠序幕数势科技数势科技数势科技数势科技数势科技数势科技数势科技数势科技数势科技LLM Agent 在 ToB行业常见落地场景内容创作安全与风控企业级知识库智能分析与决策广告与销售智能客服数势科技数势科技数势科技数势科技数势科技数势科技数势科技数势科技数
2、势科技未来管理者/一线业务员直达数据,用数门槛降低,提升企业经营决策与日常业务流中数据参与度(普惠化)LLM Agent管理者/业务人员数据管理者/业务人员数据分析师数据工程师数据BI现在数据产品经理智能分析LLM Agent 与 数据普惠数势科技数势科技数势科技数势科技数势科技数势科技数势科技数势科技数势科技02 数据普惠实现路径数势科技数势科技数势科技数势科技数势科技数势科技数势科技数势科技数势科技NL2SQLNL2APISemanticLayer智能分析LLM Agent常见方案对比数势科技数势科技数势科技数势科技数势科技数势科技数势科技数势科技数势科技统一语义层是现代数据栈中的一个独立
3、且可互操作的部分,它位于数据源与数据使用者之间。统一语义层使得所有的数据端点,无论是BI(商业智能)工具、嵌入式分析,还是AI Agent和聊天机器人,都能使用相同的语义和底层数据,从而得到一致且可信赖的洞察。统一语义层-提高准确率、降低成本数势科技数势科技数势科技数势科技数势科技数势科技数势科技数势科技数势科技数据湖数据应用数据仓库集市层数据仓库DW层指标呈现数据集存储及加工原始数据表1原始数据表3原始数据表n数据应用表1事实维度宽表 V2.0数据应用表n维度表维度表事实明细表事实明细表原始数据表2维度宽表带有维度的轻度汇总表数据应用表2数据应用表3带有维度的轻度汇总表BI工具数据集1数据集
4、2支付人数22,000数据上传维度数据大屏数据集3借款人数25,000数据同步借款人数22,000访问人数100,000ODS-DWD-DWS-ADS,语义建在哪一层?数据产品经理、数据开发、终端数据使用者,谁来建数据语义?仓内语义-繁琐复杂、业务指向性差数势科技数势科技数势科技数势科技数势科技数势科技数势科技数势科技数势科技 准准确确率率低低 企业级(千/万张表)数据查询 准准确确率率约约6 60 0-7 70 0%即使是GPT也难有一个直接可用的准确效果 成成本本高高 预训练大模型未掌握企业客户数据与数据格式定义,当数据源过大时,大模型对表的结构学学习习成成本本高高(增量预训练、长窗口、f
5、unctioncall等)性性能能差差 大模型写出的SQL未经优化,可能导致长查询的占比较多,性能不好甚至导致查询服务异常,多表关联的真实查询 性性能能不不可可控控 数数据据安安全全风风险险 大模型直接对接数据查询,缺少数据权限管控,隐隐私私与与安安全全性性风风险险较较高高,用户可通过问询获取非用户权限内的数据 能能力力单单一一 很多高级的分析问题依赖底层引擎能力,无法靠大模型生成SQL 数据查询任务大语言模型生成SQL语句(TEXT2SQL)SQL服务企业数据中台查询结果输出用户标标准准 N NL L2 2s se em ma an nt ti ic c2 2S SQ QL L 方方案案意图
6、理解&结构化生成生成的SQL做数据库查询对话式数据查询数仓语义层仓内语义LLM Agent方案-NL2SQL数势科技数势科技数势科技数势科技数势科技数势科技数势科技数势科技数势科技仓外语义-灵活便捷、贴近业务数据湖数据应用指标平台数据仓库DWD原始数据表1原始数据表3原始数据表n维维度度表表维维度度表表事实明细表事实明细表原始数据表2数据大屏BI工具借款人数原子指标渠道维度期限月至今统计周期昨日规范化加工原子指标、维度等积木式组装派生和衍生指标昨日A渠道借款人数昨日A渠道贷款页访问人数昨日借款转化率借款转化率周环比指标API服务贷款页浏览人数指标语义层:指标字段所需维度统计周期聚合方式约束条件