吴凌翔-多模态大模型的实践与思考.pdf

编号:630900 PDF 57页 23.97MB 下载积分:VIP专享
下载报告请您先登录!

吴凌翔-多模态大模型的实践与思考.pdf

1、吴凌翔 中科院自动化所副研究员、武汉人工智能研究院算法总监博士,中科院自动化所副研究员、武汉人工智能研究院算法总监。计算机视觉与自然语言处理方向,毕业于悉尼科技大学。主要研究大规模预训练模型、多模态理解与生成等人工智能应用关键技术。拥有学术界及工业界背景,参与多项大型项目并完成上线。团队工作基于昇腾AI的全球首个三模态大模型“紫东太初”获得2022年世界人工智能大会SAIL奖。演讲主题:多模态大模型的实践与思考多模态大模型的实践与思考吴凌翔中国科学院自动化研究所 副研究员武汉人工智能研究院 算法总监紫东太初多模态大模型技术发展紫东太初多模态大模型应用落地3人工智能指数基准技术性能V VS S人

2、类表现2021-2035发展路径:机器学习-深度学习-生成式智能4AI 1.01956-19701970-20102010-2020机器学习计算机视觉语音、语义分析智能控制机器人博弈对抗混沌初开,类脑为始进展受阻,独立探索融汇贯通,万象归一AlphaGoAI化学家AlphaFold196020102020“如何用机器模拟人的智能”达特茅斯会议会看会听会说会学习会行动大数据+大算力+大模型+多任务认知理解,智慧涌现全世界顶尖人才集聚AI领域;三个月一小变,一年一大变;八年左右产生颠覆性技术或产品潜艇识别飞机检测模型能力单一人脸识别训练数据:2.6亿,每人20-50张图依赖大量标注泛化能力差新一代

3、人工智能研究体系已经形成p AI基础研究范式转变:传统数据智能人工智能五大形态p 新一代人工智能基础研究框架,推动人工智能基础理论创新p数据驱动与知识引导、视觉知识、群智涌现、混合增强智能、多学科交叉科学发现大数据智能跨媒体智能群体智能混合增强智能自主智能数据智能p 我国人工智能创新水平已经进入世界第一梯队p美国总体领先(44.6分)p中国持续追赶(32.0分)n2020年,全球AI期刊论文中国引用比例(20.7%)首次超过美国(19.8%)数据来源:美国信息技术与创新基金会 谁将在人工智能角逐中胜出:中国、欧盟或美国?,中国工程院知识中心和浙江大学图书馆情报分析中心全球人工智能研究发展现状5

4、传统对话系统无法像人一样自然流畅地说话n 智能对话系统:在各种智能算法的支撑下,使机器理解人类语言的意图并通过有效的人机交互执行特定任务或做出回答。n 传统对话系统主要分为两类:任务导向型、数据驱动型。理解(NLU)状态跟踪器对话策略生成(NLG)DB统计模型(如深度学习等)DB输入x输出y数据库、外部知识任务导向型对话系统输入x输出y数据驱动型对话系统6婴儿阶段的早期概念习得过程(from Emmanuel Dupoux)感知习得各类模态的示例:自然语言(说/写)视觉(图像/视频)听觉(声音/语音/音乐等)触觉嗅觉/味觉生理信号(心电图ECG,皮肤电传导等)其他(红外图像,深度图,核磁共振图

5、像)应用和行为方面:心理学医学声学视觉语言多媒体机器人学习人类的学习和交互过程充满了多模态信息紫东太初大模型攻关历程不同场景对应不同小模型一个场景一个模型 模型参数量小,泛化性差多模态大模型吸收海量知识多个场景一个模型 模型参数大,泛化性强预训练微调从0开始独立调优 艰难迭代推倒重来 算力中心(北京-武汉)1000100001000亿2000010000紫东太初2.0参数参数海量弱关联数据图像语音在照片的前半部分,我们可以看到一个干草区,那里有一个女人站着,穿着浅蓝色牛仔裤和灰白色长袖衬衫。文本21年9月集团式攻关21年1月百亿模型21年7月完成千亿参数模型调试全球HC大会发布“紫东太初”20

6、年1月22年10月23年6月“紫东太初”服务平台图文音单独攻关08年-20年同时知识的构建也使得“紫东太初”可以一个模型实现图像识别、语言翻译、图像描述、语音合成等50余种功能,并初步具备了人机交互、认知推理、艺术创作等创新能力。例如我们可以以音生图、可以理解图像含义。语言语音视觉领域应用多样化数据模态多样化摘要、续写、问答.声纹识别端点检测语种识别.图像识别目标检测语义分割.视频分类视频生成跨模态检索.语音合成语音识别.图像描述图像生成视觉问答.语言翻译以图生音一个模型实现5 50 0余种功能以音生图以文搜图输入:桌子上的蓝色小碗里盛着水果和坚果“紫紫东东太太初初”大大模模型型1 1.0 0

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(吴凌翔-多模态大模型的实践与思考.pdf)为本站 (哆哆) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠