当前位置:首页 > 报告详情

刘广-Infinity Instruct 合成指令技术的探索.pdf

上传人: 哆哆 编号:630932 2025-04-19 53页 17.24MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了北京智源人工智能研究院基础数据研究组负责人刘广关于合成指令技术的探索。文中首先分析了高质量指令数据的重要性,指出指令数据是多模态模型能力的基石,并提出了Infinity Instruct指令数据集。Infinity Instruct包含两级标签系统,刻画完成指令所需的能力与知识,方便检索任意类别指令,指导数据配比。文中还介绍了Infinity Instruct的整体构建流程,包括种子指令对话能力指令指令数据合成等步骤。此外,文中还探讨了如何应对指令数据的“数据墙”问题,提出了Infinity-Preference偏好指令数据集,通过任务粒度建模偏好权重,提升模型性能。最后,文中介绍了Infinity-MM多模态指令数据集的构建目标、核心方法和实验结果,展示了Infinity-MM在训练SOTA效果的2B级别模型Aquila-VL-2B中的作用。
高质量指令数据如何助力模型性能提升? Infinity-Instruct系列模型性能如何? Infinity-MM数据集如何构建?
客服
商务合作
小程序
服务号
折叠