当前位置:首页 >英文主页 >中英对照 > 报告详情

阿里云:2025 Ovis2.5技术报告(英文版)(30页).pdf

上传人: 1****1 编号:870497 2025-08-21 30页 16.15MB

下载:
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,本文主要介绍了Ovis2.5,这是Ovis系列的最新版本,具有以下关键特点: 1. **原生分辨率感知**:Ovis2.5采用原生分辨率视觉编码器(NaViT),能够直接处理图像的原生分辨率,避免了图像分块带来的信息损失,并保留了复杂视觉内容所需的细节和全局结构。 2. **深度推理能力**:通过训练,Ovis2.5获得了深度推理能力,能够进行自我检查和修正,从而在复杂任务中提供更深入和可靠的解决方案。 3. **最先进的性能**:在OpenCompass多模态排行榜上,Ovis2.5-9B取得了78.3的平均分,在40B参数范围内的开源多模态大模型中取得了最先进的结果。Ovis2.5-2B也取得了73.9的分数,在同等规模的开源模型中取得了最先进的结果。 4. **高效训练**:Ovis2.5采用了高效的多模态数据打包和混合并行训练框架,实现了3-4倍的整体训练速度提升。 5. **广泛的能力**:Ovis2.5在STEM基准测试中取得了领先的结果,在OCR和图表分析、视觉定位和视频理解方面也表现出强大的能力。特别是在复杂图表分析基准测试中,Ovis2.5取得了最先进的结果。 综上所述,Ovis2.5通过原生分辨率感知和深度推理能力的增强,在多模态理解方面取得了最先进的性能,并在多个领域展现了广泛的能力。
Ovis2.5有哪些关键升级? Ovis2.5的训练策略是怎样的? Ovis2.5在哪些任务上表现突出?
客服
商务合作
小程序
服务号
折叠