《从数据整合到决策提效:B站数据知识库与增强分析协同的端到端实践.pdf》由会员分享,可在线阅读,更多相关《从数据整合到决策提效:B站数据知识库与增强分析协同的端到端实践.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、 从数据整合到决策提效:B站数据知识库与增强分析协同的端到端实践演讲人:胡天伟从RAG原型到智能体协同决策的演进工程化实践中的系统挑战与突破创新全场景数据工作流重构:AI提效规模化落地下一代AI与数据融合布局展望01从RAG原型到智能体协同决策的全栈升级第一章节早期痛点与技术选型数据分散与知识检索低效作为传统的数据平台,平台内各种数据、知识分散,不仅找表、取数用数效率低下,知识检索效率也不高,难以满足企业内部快速获取知识的需求。并且在这个提效越来越被重视的AI时代,有一套快速检索数据解决问题的能力尤为重要。0102RAG架构选择原因数据平台凭借天然的数据接入优势,成为解决这一痛点的关键角色。R
2、AG架构能够对数据有效整合,并提供检索与生成能力,适配企业知识管理与问答需求。早期采用开源框架llamaIndex,配合B站自研的Index大模型,构建知识库平台,实现企业微信对话机器人的一键发布。03初期成果检索准确率显著提升,效率大幅提高,为后续平台的发展和AI场景化提效奠定基础。利用数据平台先天优势,知识库接入几十种不同的数据源,接入知识库数量300+。早期痛点与技术选型引入Agent的驱动力仅靠检索无法满足复杂业务决策、落地需求,引入Agent成为必然选择。Agent能够基于检索结果进行深度分析与决策,提升业务智能化水平。从检索到决策的转变在SQL生成、多维归因、稿件智能研判等场景中,
3、Agent发挥关键作用,大大提升工具的智能化水平。智能数据客服、数据开发与查询智能诊断等场景,充分展现Agent的强大功能,改变了重人力运营的困境。典型应用场景剖析实现基于MCP协议的动态工作流编排能力,可根据业务需求灵活调整工作流程。Agent在不同场景下的工作流程定向开发与优化,也解决了以往开发效率低下的痛点。技术突破与流程优化端到端AI解决方案业务价值闭环构建实现从需求到决策的全链路覆盖,形成业务价值闭环。通过自反馈的机制,持续优化AI解决方案,提升业务价值。整体架构全景展示呈现整体架构全景图,数据流与AI组件有机结合。数据从源头到消费的全链路清晰可见,各AI组件协同工作。02工程化实践
4、中的系统挑战与突破创新第二章节数据预处理攻坚战01低质量元信息问题低质量的元信息导致各种智能体(如textTosql)的效果衰减,影响智能体应用的落地速度。以具体案例说明元信息问题对业务的实际影响。02创新方案实施实现自动元信息打分、开发自动元数据补全框架,进一步提升数据质量。在数据预处理阶段,基于业务语义进行数据预打标。配合KAG知识图谱构建,增强数据语义理解。成果与效益数据可用率显著提升,预训练的小模型效果更加优异。(对20w+的业务sql进行反向标注,并且引入相关的高质量元信息,进行预训练)通过数据质量提升,推动智能业务流程的高效运行。03数据预处理攻坚战14个评价标准:更新策略、存储策
5、略、主键、字段含义、时间格式、维度归一、字段枚举值说明、指标单位、时间范围、归属业务线、细分业务范围、表owner、字段有效时间、指标归一基于MCP的Multi-Agent智能协作架构MCP联网搜索、知识库检索、企业应用接口等按照协议注册成Tool提供基础能力,通过prompt用户可以在Server端进行调试、控制Multi-AgentAgent节点支持引入工作流,提供特定领域的智能,并实现Agent间的协作定制化多模态突破企业内部文档包含图片、复杂表格、公式等,存在数据安全风险,数据内容理解困难。传统OCR工具无法满足需求,需定制化解决方案。场景特殊性分析定制化的数据预处理与Paddle O
6、CR改造,适配企业内部文档的特殊场景。通过技术优化,提升OCR识别的准确率与效率。技术方案探索在客服场景,能处理各种系统截图与用户截图,提升知识库召回准确度。在埋点场景,通过描述与图片轻松找到埋点,显著提升工作效率。效果对比与应用定制化多模态突破多模型协同架构单一模型在面对复杂业务需求时,能力存在天花板。多模型协同成为突破瓶颈的关键方向。单一模型能力瓶颈设计出模型路由策略,平衡成本、精度与时延,在各个场景给出最优的模型调用组合。实现模型热切换机制,根据业务需求灵活切换模型。链式组合设计在SQL生成场景,构建模型组合