当前位置:首页 > 报告详情

大语言模型对检索公平性与无偏性的挑战.pdf

上传人: 哆哆 编号:186289 2024-11-01 23页 4.18MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文探讨了大语言模型(LLMs)在信息检索(IR)中引发的公平性与无偏性挑战。作者指出,检索中的偏差和不公平性源于目标真实分布与预测分布的不一致,其中真实分布代表客观事实,而预测分布反映了人类价值观和社会契约,并随时间进步而演变。研究特别关注了源偏差问题,即在文档检索中,模型可能对由LLM生成的内容有偏向。实验表明,神经检索模型在领域内数据集上表现较好,而在零样本数据集上较差;重排序模型虽有更好的泛化能力,但仍存在源偏差。此外,检索阶段的偏差可能会在重排序阶段被放大。作者提出了一种压缩文本嵌入的方法,分析了人类和LLM生成文本的复杂性,指出人类在理解语义上优于BERT,而LLM生成的文本在语义上更聚焦,导致在BERT中的复杂度较低。文章还讨论了将LLM融入推荐系统时可能出现的三阶段现象,并提出了模型不可知的方法来减轻源偏差。参考文献包括KDD 2024的教程和调查、KDD 2024的一篇论文、ACL 2024的一篇论文以及ArXiv 2024的一篇论文。
大语言模型如何影响信息检索的公平性与无偏性? LLM时代,如何评估和缓解文档检索中的源偏见? 结合AI生成内容,如何构建更公平的信息检索基准?
客服
商务合作
小程序
服务号
折叠