《【王楠】基于LangChain和LangChain-serve的智能文档问答系统.pdf》由会员分享,可在线阅读,更多相关《【王楠】基于LangChain和LangChain-serve的智能文档问答系统.pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、L LL LMM在在智智能能文文档档问问答答的的应应用用基基于于L La an ng gc ch ha ai in n和和L La an ng gc ch ha ai in n-s se er rv ve e的的解解决决方方案案王王楠楠Jina 联合创始人兼 CTO2020-至今 JINA AI联合创始人兼CTO2017-2020 腾讯高级研究员2015-2017 德国知名电商ZALANDO高级数据科学家2014 博士毕业于德国波鸿鲁尔大学神经信息研究所王王楠楠背背景景介介绍绍来来自自开开源源社社区区的的大大量量问问题题及时回答耗费开发者的时间问题反复重复用户很难通过网站的搜索框解决问题问问题
2、题定定义义:文文档档问问答答系系统统输输出出 A:答案 Q:What is Jina??文档问答系统A:Jina is an MLOps frameworkD:docs.jina.ai输输入入 Q:问题 D:文档集合 文文档档问问答答系系统统的的算算法法范范式式召召回回阶阶段段阅阅读读理理解解阶阶段段 Q:What is Jina??D:docs.jina.aiA:Jina is an MLOps framework两两阶阶段段方方法法召召回回阶阶段段 获取候选文档阅阅读读理理解解阶阶段段 抽取答案文文档档问问答答系系统统的的算算法法范范式式端端到到端端方方法法召召回回阶阶段段 使用向量表示召
3、回文档 使用两个BERT模型对问题和文档分别计算向量表示召召回回阶阶段段阅阅读读理理解解阶阶段段 Q:What is Jina?D:docs.jina.aiA:Jina is an MLOps framework问题相相关关文文档档文文档档问问答答系系统统的的算算法法范范式式 预训练语言模型可以记忆知识 使用以 GPT 为代表的生成式模型生生成成模模型型 Q:What is Jina?A:Jina is an MLOps framework生生成成式式方方法法文文档档网网站站问问答答系系统统的的难难点点模模型型开开发发成成本本高高预训练模型不达标微调模型缺少语料模模型型部部署署开开销销高高运算
4、资源要求高微调模型成本高低低频频应应用用场场景景突发性能要求高算算法法解解决决方方案案算算法法设设计计避避免免使使用用微微调调模模型型:使用传统检索和向量检索保证召回率 使用生成模型保证准确率用用户户的的问问题题问问答答库库问题-问题匹配文文档档问题-段落匹配+答案生成匹配问题匹配段落识别意图合合理理拒拒绝绝回回答答无无关关问问题题节节省省L LL LMM调调用用费费用用算算法法解解决决方方案案算算法法设设计计:从从问问答答库库召召回回答答案案用用户户的的问问题题问问答答库库问题-问题匹配Q1:How to deploy jina with docker?(0.9)Q:How to deplo
5、y jina?文档问题-段落匹配+答案生成+排序匹配段落识别意图匹配问题匹匹配配问问答答库库中中的的已已有有问问题题 准确率高 依赖于问答库 适合于高频问题算算法法解解决决方方案案算算法法设设计计:从从文文档档召召回回答答案案用用户户的的问问题题文文档档问题-段落匹配+答案生成+排序问答库问题-问题匹配匹配问题识别意图匹配段落匹匹配配文文档档内内容容 覆盖面广,通用性强 准确率有限 适合于长尾问题算算法法解解决决方方案案算算法法设设计计:从从文文档档召召回回答答案案 关键词匹配+向量匹配 使用 GPT-3.5生成答案匹配关键词TF-IDF/BM25匹配语义OpenAI生成答案GPT-3.5关键
6、词索引准确率高,召回率低向量索引准确率低,召回率高Q:How to deploy jina?A:How-TonJina is the framework for helping you to build cross-modal and multi-modal systems on the cloud.(0.4)A:Deploying with KubernetesnDeploying a Flow in Kubernetes is the recommended way of using Jina in production.(0.9)A:Deploying a Flow in Kuberne