1、大模型技术在快手搜索的应用快手搜索大模型负责人许坤目录Contents01大模型落地场景介绍0203产品实践:AI搜&角色聊天技术探索:多模态大模型目录Contents01大模型落地场景介绍0203产品实践:AI搜&角色聊天技术探索:多模态大模型快意大模型快手大模型落地场景(评论区、商业化)评论区AI小快智能客服商业化文案创作利用大模型提升搜索效率、补充搜索供给GPTGPT卡片卡片AIAI搜索搜索GPTGPT多轮对话多轮对话角色聊天角色聊天目录Contents01大模型落地场景介绍0203产品实践:AI搜&角色聊天技术探索:多模态大模型搜索智能问答提升搜索效率、补充搜索供给指令集动成+过滤标注
2、指令集 K W-Q AK W-Q Adatasetdataset爬 增强标注指令集基座模型微调微调布偶猫多少钱只档检索强化学习布偶猫价格参考如下:布偶猫海豹重点,般价格在5000元以上。布偶猫海豹套,般价格在7000元以上。布偶猫蓝重点,般价格在8000元以上。布偶猫海豹双的,般价格在10000元以上。C hatG PTRew ard视频检索相关视频相关档指令检索根据以上的章将答案做个摘要摘要式成式布偶猫海豹重点,般价格在5000元以上(视频13)。布偶猫海豹套,般价格在7000元以上(视频23)。布偶猫蓝重点,般价格在8000元以上(视频4)。布偶猫海豹双的,般价格在10000元以上。Rew
3、 ard搜索智能问答三大挑战挑战#1:大模型幻象检测挑战#2:低质索引资源影响答案准确率挑战#3:回答Multi-Hop事实类问题Query:坚如磐石坚如磐石中饰演黎志田的演员在中饰演黎志田的演员在三体三体中扮演什么角色中扮演什么角色难点:难点:1.只有只有30%的新增的新增Query可以检索到合适的网页内容,如何回答剩下的可以检索到合适的网页内容,如何回答剩下的70%的新增的新增Query2.越复杂的问题越难检索到准确可用的网页越复杂的问题越难检索到准确可用的网页/视频内容视频内容挑战2:低质索引资源影响答案准确率挑战3:如何利用大模型推理寻找多跳问题答案角色聊天提供情绪价值基座语言模型升级
4、到角色聊天模型基座模型角色模型预训练书籍、网页、清洗以后的互联网公开数据(大而全大而全)剧本、对话数据(少而精少而精)指令微调几十万上百万单指令数据不同角色多轮对话数据不同角色多轮对话数据+通用能力数据+通用角通用角色多轮对话数据色多轮对话数据强化学习GPT4+人工对齐用户模拟器+人工对齐挑战一:如何构建不同角色多轮对话数据挑战二:如何增强模型的上下文理解能力目录Contents01大模型落地场景介绍0203产品实践:AI搜&角色聊天技术探索:多模态大模型Pipeline of Existing Multi-Modal LLMsExisting Multi-Modal LLMs The exi
5、sting models mostly leverage an adapter architecture to map the visual features encoded by a pre-trained vision backbone.visual parts are merely regarded as prompts without any pletely delegate the responsibility of vision-language modeling to the newly added adapter.Drawbacks:Our MotivationVision a
6、s foreign language:A unified training objective for two modalities:Predicting the next image/text token in an auto-regressive manner.The key components:Visual Tokenizer Discrete visual token.Dynamic token allocation.TokenizeLaVIT:Unified Language-Vision pretraining with dynamic discrete visual token