鲍凡-生数科技在多模态大模型的探索与实践.pdf

上传人：哆哆

编号：631153

2025-04-19

PDF 46页 16.85MB

《鲍凡-生数科技在多模态大模型的探索与实践.pdf》由会员分享，可在线阅读，更多相关《鲍凡-生数科技在多模态大模型的探索与实践.pdf（46页珍藏版）》请在三个皮匠报告上搜索。

1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit鲍鲍凡凡生生数数科科技技C CT TO O入选2023 MIT TR35（中国）榜单，曾荣获国家奖学金、清华大学计算机系最高荣誉钟士模奖学金在内的多项殊荣。在顶会ICML、NeurIPS、ICLR、CVPR上发表十余篇论文，其中发表的论文 A n a l y t i c-D P M:a n A n a l y t i

2、 c Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models获得世界级学术奖项ICLR 2022杰出论文奖，是该机器学习顶会首篇由中国大陆单位独立完成的获奖论文。演演讲讲主主题题：生生数数科科技技在在多多模模态态大大模模型型的的探探索索与与实实践践ML-SummitML-Summit生数科技在多模态大模型领域的探索与实践生数科技联合创始人兼CTO演讲人鲍凡ML-SummitML-Summit生数科技在多模态大模型领域的C CH HA AP PT TE ER R 1 11.1关关键键技技术术突突破破M

3、L-SummitML-Summit全球首个 Diffusion Transformer 架构 U-ViT以扩散模型（Diffusion Model）为底座Transformer 替代传统 U-Net 网络模拟物理学中的“扩散现象”，先加噪再通过去噪来生成图像天然更适合视觉数据的处理在噪音预测环节用 Transformer 替换常用的 U-Net天然可扩展性更强参数规模扩展计算开销可控最优生成质量出现涌现能力ML-SummitML-Summit*All are Worth Words:A ViT Backbone for Diffusion Models(CVPR 2023)将所有输入统一为序列

4、把图片、时间、条件等所有输入都转化为 token，形成统一的序列统一图文的输入和生成可在文字和图像模态上实现任意输入与生成更快的训练收敛速度使用“长链接”技术，训练速度比 Stable Diffusion 提升7倍以上极强的涌现能力在千万至百亿参数量级上验证其具备极强的 Scale Up 能力全球首个 Diffusion Transformer 架构 U-ViTML-SummitML-Summit*One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale(ICML 2023)开源地址：https:/ 10亿

5、级别开源模型、多模态统一概率建模，基于大规模图文数据集 LAION-5BU Un ni iD Di if ff fu us se er r多模态扩散模型 UniDiffuserML-SummitML-Summit历时2年迭代出新架构2023年3月U-ViT9.5亿24亿Image-2-TextText-2-Image2022年4月U-NetText-2-Image8.9亿24亿Stable Diffusion 1.02024年2月DiTText-2-ImageNANAStable Diffusion 3.0首次将 ViT 架构成功应用于大规模训练推出时间网络架构参数量训练数据量跨模态任务Un

6、iDiffuserML-SummitML-Summit图像生成：一个通用模型支持多元化风格 ML-SummitML-Summit图像生成：一个通用模型支持多元化风格 ML-SummitML-Summit图像生成：支持中国特有元素生成 ML-SummitML-Summit安迪沃霍尔奥斯卡-克劳德莫奈巴洛克风格保罗塞尚图像生成：具备艺术级美学水准 ML-SummitML-Summit风格产品摄影、光影并置多元素红苹果放在一块粗糙的希腊柱子上细节纹理清晰、装饰繁复色调浅色柔和数量一个红苹果、一块柱子描述词：一个红苹果放在一块粗糙的白色光泽希腊柱子上，纹理清晰，装饰繁复，产品摄影，光影并置的风格，简约

鲍凡-生数科技在多模态大模型的探索与实践.pdf

相关报告