当前位置:首页 > 报告详情

徐海洋-多模态文档大模型mPLUG-DocOwl.pdf

上传人: 鲁** 编号:615364 2025-03-03 61页 13.45MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了多模态文档大模型mPLUG-DocOwl,由阿里巴巴通义实验室的高级算法专家徐海洋负责。mPLUG-DocOwl是mPLUG系列工作的一部分,包括基础多模态模型mPLUG/mPLUG-2,多模态对话大模型mPLUG-Owl,以及多模态智能体Mobile-Agent等。mPLUG工作在VQA榜单上首次超过人类成绩。徐海洋在国际顶级期刊和会议上发表了40多篇论文,并担任多个顶级会议的AC/PC/Reviewer。他还主导参与了开源项目mPLUG,X-PLUG,AliceMind,DELTA。文章提出了mPLUG-DocOwl的模型结构,训练任务和实验结果,并讨论了多模态文档大模型的挑战和发展方向。
"多模态文档大模型mPLUG-DocOwl有哪些创新之处?" "如何通过mPLUG-DocOwl实现文档图片的智能理解?" "mPLUG-DocOwl在实际应用中面临哪些挑战和前景展望?"
客服
商务合作
小程序
服务号
折叠