当前位置:首页 >英文主页 >中英对照 > 中译版报告详情

月之暗面:Kimi-VL技术报告(中译版)(23页).pdf

上传人: 淘*** 编号:650875 2025-04-07 23页 10.67MB

下载:
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了Kimi-VL,一种高效的开源混合专家(MoE)视觉语言模型(VLM),它具有先进的多元模态推理能力、长上下文理解能力和强大的代理能力,同时仅在语言解码器中激活2.8B参数(Kimi-VL-A3B)。Kimi-VL在各种挑战性领域表现出色,包括多轮代理任务(如OSWorld)、匹配旗舰模型。此外,它在各种具有挑战性的视觉语言任务中表现出非凡的能力,包括大学级别的图像和视频理解、OCR、数学推理、多图像理解。在比较评估中,它在多个关键领域超越了GPT-4o,与最先进的有效VLMs(如GPT-4o-mini、Qwen2.5-VL-7B和Gemma-3-12B-IT)竞争。Kimi-VL还在处理长上下文和清晰感知方面取得了进展。通过128K扩展上下文窗口,Kimi-VL可以处理各种长输入,在LongVideoBench和MMLongBench-Doc上取得了令人印象深刻的分数。它的原生分辨率视觉编码器MoonViT进一步允许它看到并理解超高清视觉输入,同时在常见任务上保持较低的计算成本。
"Kimi-VL模型如何实现高效的多模态推理?" "Kimi-VL模型在处理长文本和长视频方面有何优势?" "Kimi-VL模型在视觉感知和视觉世界知识方面表现如何?"
客服
商务合作
小程序
服务号
折叠