1、DataFunSummitDataFunSummit#20242024融合融合 ChatBIChatBI 与与 HeadlessBIHeadlessBI 新新一代数据分析平台实践一代数据分析平台实践罗雷 腾讯音乐架构师数据分析平台现状架构演进思考ChatBI与HeadlessBI融合实践未来展望01数据分析平台现状 SQL学习门槛高 业务难以理解复杂的库、表、字段信息业务团队痛点 数据分析场景有限,难以支撑复杂需求 学习门槛较高 缺乏数据解读,业务需导出数据自行解读 看板不灵活,难以满足复杂、灵活的需求 开发效率低SQL探索式拖拽式看板式业务团队诉求业务团队数据团队按业务需求制作报表业务团队提
2、需求当前报表不支持某个纬度下钻这个指标口径是啥业务方主导数据分析平台查找业务数据或报表方便支持对话式查询业务数据并展现支持自行分析数据方主导数据分析平台本质上:元数据+SQL +报表展示简单模式当前模式:数据团队保姆式服务期望模式:业务团队自助式分析数据团队智能化模型标准化将数据主动权交到业务团队中;业务方可以自由、灵活的进行可视化分析取数后自行解读由业务团队向数据团队提需求;数据团队排期、写SQL、制作报表;业务方再从报表中取数;纬度表事实表纬度表事实表DNMND1,D2M1,M2D1,D3,D4M2,M4,M5事实宽表纬度宽表事实宽表数据集1数据集2数据集N 口径无法统一:指标定义散落在各
3、数据集,逻辑不一致 指标无法复用:指标重复且分散,无法统一对接应用系统 指标治理困难:无法统一治理,定义大量数据集、权限冗余等数据团队痛点BI平台业务系统其他系统应用层应用层.业务数据日志数据第三方数据原始数据层原始数据层数据加工层数据加工层02架构演进思考原始数据层原始数据层纬度表事实表纬度表事实表引入Headless BI:解决数据治理问题BI平台业务系统其他系统应用层应用层指标(原子)指标(衍生)纬度1纬度2Headless semantic layer semantic model指标口径统一、指标可复用、权限可控、易于治理业务数据日志数据第三方数据数据加工层数据加工层Semantic
4、 LayerSemantic ModelHeadless BI架构设计纬度管理自定义纬度纬度值设置指标管理指标市场纬度市场原子指标衍生指标权限管理主题域/模型行列权限指标/纬度缓存加速层SQL解析SQL优化元数据术语管理主题域/模型管理物化/血缘管理DashBord其他BI系统业务系统JDBCS2SQLApplication Layer-基于库表字段定义语义模型定义纬度、指标、模型等语义对象-引入语义查询语言S2SQLSELECT 纬度名,SUM(指标名)FROM 模型名WHERE 纬度名1=xx GROUP BY 纬度名2-将S2SQL翻译成物理SQLSELECT field1,SUM(fi
5、led2)FROM table1WHERE field2=xx GROUP BY field1HeadlessDatabase LayerRest API引入Chat BI:解决业务易用性问题自然语言自然语言零门槛,支持语音、快速上手自由探索自由探索个性化,灵活表达界面统一界面统一集中式,多端统一随问随答随问随答7x24小时,秒级回复问答模问答模式式基于大模型问答交互带来全新的服务模式当前基于Chat BI 查询存在的问题数据安全涉及元数据(库、表、字段)以及业务数据泄漏复杂SQL生成难多表join、引擎方言、计算公式、SQL生成难度高,容易产生幻觉私域知识识别难私域实体对象无法有效识别权限无
6、法管控数据行列权限无法有效管控问题Physics SQL LLM Chat BIQuestion+Prompt来源:DIN-SQL-Decomposed In-Context Learning of Text-to-SQL with Self-Correction发现创新点:融合chat BI+headless BILLMSemantic LayerS2SQLPhysics SQLPhysics SQLChat BIHeadless BI行业现状,独自发展Physics SQLChat BI +Headless BI取长补短,融合互补Natural languageNatural langua