当前位置:首页 > 报告详情

鲍凡-生数科技在多模态大模型的探索与实践.pdf

上传人: 哆哆 编号:631153 2025-04-19 46页 16.85MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了生数科技在多模态大模型领域的探索与实践。生数科技联合创始人兼CTO鲍凡生数科技CTO入选2023 M I T T R 3 5 ( 中 国 ) 榜 单 , 曾 荣 获 国 家 奖 学 金 、 清 华 大 学 计 算 机 系 最高 荣 誉 钟 士 模 奖 学 金 在 内 的 多 项 殊 荣 。 在 顶 会 I C M L 、 N e u r I P S 、 I C L R 、 C V P R 上 发 表 十 余 篇 论 文 。 其 中 发 表 的 论 文 《 A n a l y t i c - D P M : a n A n a l y t i c E s t i m a t e o f t h e O p t i m a l R e v e r s e V a r i a n c e i n D i f f u s i o n P r o b a b i l i s t i c M o d e l s 》 获 得 世 界 级 学 术 奖 项 I C L R 2 0 2 2 杰 出 论 文 奖 。 发 布 了 全球 首 个 Diffusion Transformer 架构 U-ViT 网 络 结 构 , 并 开 源 地址 : h t t p s // g i t h u b . c o m / t h u - m l / u n i d i f f u s e r 。 发 布 了 中国 首 个 长 时 间 、 高 一 致 性 、 高 动 态 性 视 频 大 模 型 Vidu2024年4月Vidu 视频大模型的多次突破ML-SummitML-SummitVidu 视频大模型的多次突破2024年7月2024年6月 Vidu 模型升级一键 32 秒、Vidu4DVidu 全球上线2024年9月 Vidu 全球首发单主体一致性角色一致性ML-SummitML-SummitVidu 视频大模型的多次突破2024年9月2024年7月 Vidu 全球上线角色一致性2024年11月 Vidu 1.5 智能涌现多主体一致性Vidu 全球首发单主体一致性ML-SummitML-SummitVidu 视频大模型的多次突破2024年11月2024年9月 Vidu 全球首发单主体一致性Vidu 1.5 智能涌现2025年1月 Vidu 2.0 上线推进视频生成多主体一致性“进入秒时代”ML-SummitML-SummitVidu 视频大模型的多次突破2025年1月 Vidu 2.0 上线2024年11月 Vidu 1.5 智能涌现多主体一致性推进视频生成“进入秒时代”2025年4月极速生成10秒生成4秒时长视频 每秒单价成本降至最低 4 分钱人人可用 更多功能主体库、模版库ML-SummitML-Summit随机性 vs 高可控ML-SummitML-SummitVidu Q1 模型ML-SummitML-Summit可控升级 —— 位置角色参考 场景参考 道具参考 位置参考精确控制两个角色的相对位置角色道具的位置难以控制行业现状 Vidu Q1 模型ML-SummitML-Summit可控升级 —— 运动布局精确控制机器人从画外向右进入画内机器人的运动轨迹难以控制人物参考 场景参考 道具参考角色参考 运动轨迹参考行业现状 Vidu Q1 模型ML-SummitML-Summit可控升级 —— 可控主体数量多个主体均可精确生成主体数量过多时,无法精确生成角色 1 角色 2 场景角色 3 角色 4 角色 5行业现状 Vidu Q1 模型ML-SummitML-Summit可控升级 —— 音频可控Vidu Q1 精准控制音频生成1-2s时出现汽笛声、2-5s行人在嘈杂街道复合音效、6-8s时车辆驶过1-2s时出现打字声音、2秒时出现打字、打印的复合音效
"生数科技如何引领多模态大模型探索与实践?" 如何实现高一致性、高动态性视频生成?" 它是如何改变图像生成的概率建模?"
客服
商务合作
小程序
服务号
折叠