廖子寒--生成式大语言模型在搜索领域的突破与应用.pdf-在线下载-三个皮匠报告

1、例：支撑海量数据的大数据平台与架构例：茹炳晟例：腾讯Tech Lead，腾讯研究院特约研究员正文要求：微软雅黑：最小字号 8号宋体：最小字号 10号等线：最小字号 12号生成式大语言模型在搜索领域的突破与应用廖子寒蚂蚁集团，算法工程师廖子寒蚂蚁集团，算法工程师目前是华东师范大学计算机科学与技术博士在读生，主要研究方向为自然语言处理、大语言模型以及推荐系统。我在顶级学术会议和期刊上发表了多篇论文，包括ACL、TKDE、PAKDD等，研究课题涵盖语义搜索、长上下文建模、代码检索和推荐系统去偏等多个领域。我的研究工作致力于推动大语言模型在实际应用中的表现，解决模型精度和效率的问题。我曾在蚂蚁集团担任

2、研究型实习生，负责优化大语言模型在语义搜索和代码检索中的应用。实习期间，我参与了大语言模型的设计和调优，推动了多项技术落地应用，并成功将相关模型提升至行业领先水平。CONTENTS目录1.研究背景与动机2.D2LLM模型设计与优化3.CGE模型在代码嵌入中的应用4.总结与未来展望研究背景与技术贡献LLM应用需求与挑战生成任务 vs 搜索任务生成任务：基于上下文生成后续的文本片段搜索任务：需要紧凑、特征丰富的向量表示，以便能够在大量文档或代码片段中快速匹配查询和候选项的相似度生成式模型每次生成对下一token的预测无法获取上下文句子级语义ChatGPT今天天气晴朗，我们一起出去散

3、步吧散步吧现有方法的局限性Bert式双编码器优点：效率高、可预计算缺点：准确性低、泛化能力弱LLM式交叉编码器优点：准确性高、快速适配新领域缺点：效率低、难以应用如何将两者结合起来？研究目标与贡献目标1：将生成式LLM适配搜索任务，来更准确地理解语义目标2：利用LLM的预训练知识，更高效地处理多样化的搜索需求目标3：有效压缩LLM对文档与代码的嵌入维度，减轻存储压力D2LLM模型设计与优化方法架构Zihan Liao et.al,2024.D2LLM:Decomposed and Distilled Large Language Models for Semantic Sea

4、rch.教师模型我们为对称与非对称搜索任务设计prompting策略（和和）计算LLM回复的嵌入表示%&以及“yes”词元的概率（分数）%&.%&=LLM(%,&,)%&=“”,“”%&%&=softmax%&学生模型PMA 模块将查询%和段落&中的词元信息通过交叉注意力（Cross-Attention）的方式聚合起来，从而生成句子级嵌入向量。%&()=PMA*Y%=LN(+FFN()=LN(MHA,Y%,Y%+)可学习的query向量学生模型IEM 模块隐式地对提示语（Prompts）编码，并捕获查询与段落间的联系。%&=,(-(%(),&()轻量级MLP知识蒸馏对比模仿（CI）损失与传统的

5、对比损失不同，它利用教师的分数来指示样本间不同的相关性。./=1|0|L&!logexp(%&%&/)3exp(1%3)%3/)知识蒸馏排序模仿（RI）RI 专注于区分正例和难负例，以及辨别简单负例和难负例。对应设计两个损失：456/=1 corr(%,%)576/=15878L&#L3$&3log(%&%3)知识蒸馏特征模仿（FI）FI 通过利用教师 LLM 中包含的丰富特征信息来实现知识迁移：%&3=sim%&,%3,0 58,9/=%,实验结果自然语言推理D2LLM 相比最佳基线方法提高了 10%21%。我们的蒸馏方法成功地将知识从教师模型转移到学生模型。实验结果语义相似性对 0.3M

6、数据进行微调后，教师模型的平均性能提升了 7.17%。D2LLM-ft 比原始 D2LLM 提高了 1.69%，平均比其他方法高出 17.42%。考虑到教师 LLM-ce 并未专门针对 STS 进行微调。我们使用相同的训练集对 STS 域的教师模型进行了微调（得到了 LLM-ce-ft）。实验结果信息检索由于采用交叉编码器设计，教师模型 LLM-ce 对于 IR 任务来说速度太慢。D2LLM 在大多数情况下比其他方法高出 1.65%。实验结果运行速度基于T2Retrieval数据集进行实验，约10w条段落与双编码器