当前位置:首页 > 报告详情

RAG 系统中的关键技术:从 Embedding 到 Reranker-王峰.pdf

上传人: 张** 编号:164023 2024-05-31 35页 3.27MB

1、Berlin Beijing Shenzhen王峰 Jina AI 2024年05月18日 felix.wangjina.aiRAG 系统中的关键技术:从 Embedding 到 Reranker2021-now,研发总监,Jina AI2020-21,高级研究员,虎牙2018-19,高级研究员,腾讯2011 -18,博士,香港浸会大学王峰,王峰,本科毕业于山东大学,并于2016年获得香港浸会大学计算机博士学位。曾就职于腾讯和虎牙科技工作,目前担任 Jina AI 研发总监,主要负责向量 Embedding 和重排 Reranker 模型的训练和开发工作。此外,王峰博士具有非常丰富的开源项目开

2、发和运营经验,对开源事业充满热情,是 Jina、clip-as-service、rungpt 等开源项目的核心贡献者或管理者。About Me为什么需要检索增强生成(为什么需要检索增强生成(RAG)?LLM 大语言模型目前存在的问题大语言模型目前存在的问题 幻觉:幻觉:简而言之就是“胡说八道”在专业领域后果严重 知识更新:知识更新:训练数据过时而产生的知识更新问题 私域数据私域数据 各种各种 limit包括Token长度大海捞针(needle in a haystack)RAG是一种结合了大语言模型和外部知识库的技术,通过在生成答案之前从外部知识库中检索相关信息,来提高答案的准确性。RAG 是

3、如何工作的?是如何工作的?通用通用 Embedding 模型模型jina-embeddings-v2:8K 向量模型向量模型 融合ALiBi,使用 750Gb 语料,训练 jina-bert-v2 基于步骤 1 的 jina-bert-v2,使用3.8亿无标签的文本对数据,训练向量模型 基于步骤 2 的向量表示模型,使用300万有标签的正负样本构成文本三元组数据,微调向量模型Jina BERTPairwise DataWeb TextPairs+Hard NegativesJina Embedding PairsJina Embedding FullJina BERT v2 模型框架模型框架A

4、ttention with Linear Biases(ALiBi)Positional Embeddings Relative BiasesSource:Vaswani et al.“Attention is all you need”.NeurIPS 2017.arXiv:1706.03762(2017).Jina BERT v2 模型框架模型框架Attention with Linear Biases(ALiBi)Positional Embeddings Relative Biases ALiBi is able to maintain language modeling perple

5、xity when inferencing on sequences that are longer than the training dataTrain short,Test LongSource:Press,Ofir et al.“Train Short,Test Long:Attention with Linear Biases Enables Input Length Extrapolation”.ICLR 2022.arXiv:2108.12409(2021).训练训练Embedding模型模型弱监督数据训练弱监督数据训练Jina BERTPairwise DataWeb Text

6、Pairs+Hard NegativesJina Embedding PairsJina Embedding Full弱监督数据训练弱监督数据训练Bi-Encoder(Two-Tower)ArchitectureJina BERTMean PoolingSource:https:/ 3阶段数据清理,得到3.8亿条高质量文本对,1700亿个token 去重 语种过滤 一致性过滤 根据数据集质量重采样强强监督数据训练监督数据训练Jina BERTPairwise DataWeb TextPairs+Hard NegativesJina Embedding P

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了Jina AI公司的研发总监王峰博士,他在向量Embedding和重排Reranker模型方面的研发工作。王峰博士有丰富的开源项目经验,是多个开源项目的核心贡献者或管理者。文章详细解释了检索增强生成(RAG)技术,以及Jina Embedding模型和Jina Reranker模型的原理和应用。RAG结合了大语言模型和外部知识库,通过检索相关信息来提高答案的准确性。Jina Embedding模型是一个8K向量模型,支持多语言和代码向量。Jina Reranker模型则是对检索结果进行重新排序,以提高搜索准确性。Jina AI提供了官方API服务和开源地址,支持长文本任务评估和多任务精调。
"RAG系统如何提高搜索准确性?" "Jina Embedding模型支持哪些语言?" "如何使用Jina Reranker模型提高搜索效率?"
客服
商务合作
小程序
服务号
折叠