通义万相：视觉生成大模型的进化与应用.pdf-三个皮匠报告

1、通义万相：视觉生成大模型的进化与应用刘宇通义实验室通义万相负责人深度可控，能够根据任务自我规划和创作，大幅提升内容生成生成力视频和3D生成技术效果向实际应用靠拢视觉生成成为普惠化的信息生产和传播方式 ControlNet面世，初探可控生成之道 LLM驱动视觉生成，渐显精准语义理解与多模生成行业落地，AI原生应用百花齐放，崭露头角视觉生成大模型的进化曲线阶阶段段特特征征阶段阶段核心核心能力能力第一阶段第一阶段阶段阶段萌芽萌芽第二阶段第二阶段逐步渗透逐步渗透第三阶段第三阶段逐步成熟逐步成熟第四阶段第四阶段全面发展全面发展目前所处阶段目前所处阶段技术萌芽到开源生态的繁荣技术萌芽到开源生态的繁

2、荣初步初步可控的可控的生成生成技术能力技术能力深度可控，成为普惠化能力深度可控，成为普惠化能力 GAN 技术热度逐渐达峰，但效果依旧单一自回归和扩散模型技术萌芽，生成能力逐渐凸显 OpenAI和Google分别输出自研方案，Midjourney v1上线 Stable Diffusion开源，成本可控生成 WebUI上线，插件多样层出 Dreambooth、Lora定制生成，训练方式灵活通义万相基础模型通义万相基础模型通义万相主站通义万相主站文生图通义万相-图像生成大模型模型下载通义万相-视频生成大模型模型训练模型训练模型评测模型评测模型资产库模型资产库模型推理模型推理高效微调多概念定制化规

3、模化Finetune评测体系建立Prompt评测集人类偏好打分资产管理推理优化通义万相-视觉表征大模型电商等行业解决方案电商等行业解决方案魔搭开源社区魔搭开源社区相似图风格迁移涂鸦作画虚拟模特商品展示图创意文字生成创空间模型服务DashScope通义万相：从模型到应用生态写真馆模型模型工具工具应用应用微调定制化微调定制化零样本定制化零样本定制化高效微调框架高效微调框架深度挖掘数据价值和用户需求通义万相图像生成基础大模型：Composer系列通义万相：图像生成组合生成知识先验高度可控组合式多概念定制Cones 2相似图、风格迁移、X-painting、任意分辨率超分等视觉AI任意门 Anydoo

4、r高效多概念定制化Cones 1轻量级微调推理框架Swift高效微调算法Res-Tuning基础模型：Composer 1.0 组合式生成框架，提供高度可控性和极大创作自由度,ICML ICML 20232023文生图文生图风格迁移风格迁移相似图生成相似图生成累计用户数500,000+500,000+累计生成图片数10 Million10 Million2023.7.7通义万相发布以来*截止2023.10.30通义万相统计数据基础模型：Composer 1.X 基于大语言模型、细粒度图文对齐的图像生成新范式，Coming soonComing soon精确语义理解精确语义理解桌子上有10个苹果

5、属性绑定属性绑定一只麻雀、一只鸽子、一只鹦鹉和一只猫头鹰空间关系空间关系一只戴着白色VR眼镜的大猫走在上海的城市街道上。背景中，左边是东方明珠电视塔，右边是城皇庙复杂场景复杂场景一只大猩猩坐在办公室桌子前，手里拿着一杯葡萄酒，后面的墙上挂着一个鹿头宇航员骑马马骑宇航员戴着蓝色贝雷帽、黄色太阳镜和红色围巾的金毛犬一只金属小鸟站在木制金字塔上文本图像实体属性布局AI生成AI生成AI生成AI生成AI生成AI生成AI生成AI生成微调定制化：多概念定制化Cones Cones 2Cones 2 定制化生成示例定制化生成示例首个做到超多概念同时定制化生成的方法，支持定制化概念数量超过此前SOTA一倍；与现

6、有方法进行对比，从训练的计算复杂度，以及生成效果，均有显著提升，NeurIPSNeurIPS 20232023，已在ModelScope、GitHub开源。AI生成 Cones 1Cones 1高度轻量化、高质量、可扩展、鲁棒性的多概念定制化生成，ICML 2023 OralICML 2023 Oral。零样本定制化：视觉AI任意门 AnyDoorAnyDoor 框架图框架图单目标合成单目标合成零样本物体级图像合成技术，将目标传送至特定场景、特定位置，无需微调，轻松生成高质量、高保真的合成图像。广泛应用于图像定制化、多目标组合、虚拟试衣、物体移动换位等

通义万相：视觉生成大模型的进化与应用.pdf

相关报告