1、丁瑞雪 通义实验室高级搜索算法专家目前主要负责通义百炼产品RAG算法架构与通义实验室其他多个产品RAG的离线算法技术。7年NLP&AI算法研发以及落地经验。曾在ACL、EMNLP、NAACL、SIGIR等顶级会议上发表多篇论文,研究领域涉及NLP传统任务、多模态预训练、RAG。曾提出业界第一个地理多模态预训练模型MGeo,下载量过百万。目前致力于流程化、模块化的可落地RAG技术方案建设,开源了CQDA RAG数据集以及CoFE-RAG全链路RAG评估框架。演讲主题:通义百炼RAG应用落地实践与挑战!#$%&()*+,-./0!#$%&()*+,-./0!#$%&()*+,-./$%&01$%&
2、23$%&45678!#$%&()*!#$%!#$%RAG出现背景幻觉问题长尾问题知识受限时效性知识:今天天气怎么样?2024云栖大会举办时间长尾知识:fishier rc4 2019的板腰长度是多少?ATOMIC CS SKI BOOT硬度是多少?私域知识:我入职3年,今年有多少天年假?空调买了三年坏了,还在保修期吗?!#$!%#Retrieval Augmented*Generative modelREALMDialogue systemRaNERRaRLRa-imagenRetrieval Augmented Generation!#$!%#搜前搜中搜后RewriteRetrievalR
3、erank异源知识路由长文本压缩搜索规划反思!#&()*+,Nave RAGAdvance RAG用户Query知识库向量索引查询召回输出结果PELLM用户Query知识库Query改写查询检索意图Query路由文本向量多模态向量稀疏向量索引查询召回PELLM输出结果ReRank 丨 长期记忆 丨 安全策略FinetunePERAGALL-./!#01痛点业务know how注入系统级调优模型幻觉控制badcase快速定位领域数据解析领域应用定制管理运营百炼RAG挑战多模态文档管理可控RAG生成RAG全链路评估企业知识管理复杂文件格式众多文档模态多样!#$%&(!#$&!#$&23456多模态
4、多模态文档理解文档理解表格理解KV信息抽取公式识别Chart DerenderingLayout分析阅读顺序理解Text SpottingChemical Structure Recognition截图解析文件格式众多文件格式众多多模态版面元素多模态版面元素文本/表格/图片版面层级结构多样版面层级结构多样论文/图书/财报/说明书多页长文档多页长文档1-unlimited23456789:01.PPT阅读顺序理解不同于word、PDF等顺序理解文档,PPT文档通常具有二维的空间理解顺序。阅读顺序的正确理解对文档内容理解起到重要作用复杂的表头关系、无线表格分割、表格合并、表格跨页等表格绘制方式均会
5、对表格解析造成困难03.图表数据理解传统的依赖OCR的解析方式难以将饼图、折线图、柱状图等多模态数据信息准确地传达出来之百分比佔本公司已發行股份女性20%男性80%13%9%78%02.复杂表格理解按性别划分的雇佣情况按级别划分的雇佣情况股東姓名/名稱實益擁有人於受控法團之權益權益性質權益合計(股份)(股份)(股份)(%);?ABCDEFGHIDJKFhttps:/arxiv.org/pdf/2306.00526LAMAAN23456=OPQ多模态文本多路解析结果融合离线解析路由表格PPTOCR离线VL规则解析layout prompt在线VL混合OCR、规则解析、离线VL、在线VL、layo
6、ut pompt等多种理解方式解决复杂文档理解问题RSTUPPTPDF持平Text+58%Chart+6%中文+35%英文+4%TableDOCX+3%Chart+7%Table)*&(+,!#$!#$.VWXDYGZDY行业行业FAQ话术FAQ干预FAQ知识补充FAQ行业黑话行业黑话讲师-医生上上签-电子签中文简称-英文原名知识体系知识体系行业知识通过知识库类别体系体现多知识库编排&agent3模型自有知识知识库知识互联网知识知识未包含 拒答能力知识冲突 知识优先级编排能力知识正确 减小无关知识误导_aRAG全链路指令遵循处理较短行业know how知