当前位置:首页 >英文主页 >中英对照 > 报告详情

月之暗面: Kimi-k1.5技术报告(英文版)(25页).pdf

上传人: 淘*** 编号:650878 2025-04-07 25页 927.30KB

下载:
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了KIMI K1.5,一种使用强化学习(RL)训练的多模态语言模型。主要内容包括: 1. KIMI K1.5通过RL训练,包括RL训练技术、多模态数据配方和基础设施优化。 2. 文章提出了长上下文缩放和改进策略优化方法,建立了一个简单有效的RL框架,无需依赖更复杂的技巧。 3. KIMI K1.5在多个基准测试和模态上实现了最先进的推理性能,例如在AIME上达到77.5,在MATH500上达到96.2,在Codeforces上达到94百分位,在MathVista上达到74.9。 4. 文章还提出了有效的长2短方法,使用长CoT技术改进短CoT模型,例如在AIME上达到60.8,在MATH500上达到94.6,在LiveCodeBench上达到47.3。 5. KIMI K1.5在文本、视觉和推理挑战中表现出色,在自然语言理解、数学、编码和逻辑推理方面具有显著优势。
如何通过强化学习训练大规模语言模型? 长序列强化学习在多模态AI中的应用有哪些? 如何将长序列思维模型转化为短序列模型?
客服
商务合作
小程序
服务号
折叠