《基于语境学习的图像扩散模型 In-context Diffusion Model.pdf》由会员分享,可在线阅读,更多相关《基于语境学习的图像扩散模型 In-context Diffusion Model.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummit#2023基于语境学习的图像成陈 滑铁卢学-助理教授 Google Deepmind01背景知识本图像成的现状02动机为何需要语境学习的图像成模型03设计如何让现有的模型能够做语境学习04结果和展望实验结果和未来的展望录 CONTENTDataFunSummit#202301背景知识本图像成模型(Imagen,Dalle2,)现有的本图像成模型已经取得令骄傲的成绩 成的图很符合本 极具想象能 图清晰度 然,前的图像成模型的可控性较差 通过字法描述视觉的信息 位置/度/姿势 如何让成模型个性化 成指定的物品 成指定的场景成模型的个性化 如何让成模型能够成更加个性化的内容
2、 基于主体的图像成模型 DreamBooth:Fine Tuning Text-to-Image Diffusion Models for Subject-Driven GenerationDreamBooth 如何让成模型能够成更加个性化的内容 先微调整个模型在3-5张关于制定物品的图1000步,然后把模型存下来。微调过的模型进新的图成。Textual Inversion 如何让成模型能够成更加个性化的内容 先微调某个embedding在3-5张关于制定物品的图1000步,把embedding存下来。微调过的模型加上新的embedding进新的图成。memory的要求降低很多,但是效果明显差
3、于DreamBooth。当前模型的问题 需要微调整个模型才可以得到较满意的效果 1000 step的微调常耗费时间和GPU内存 存储额外的checkpoint需要量CPU内存 前的法扩展性较弱DiffusionDiffusionDiffusionDiffusion论Subject-driven Text-to-Image Generation via Apprenticeship Learning Wenhu Chen,Hexiang Hu,Yandong Li,Nataniel Ruiz,Xuhui Jia,Ming-Wei Chang,William W.Cohen ManuscriptR
4、e-Imagen:Retrieval-Augmented Text-to-Image Generator Wenhu Chen,Hexiang Hu,Chitwan Saharia,William W.Cohen Proceedings of ICLR 2023,Kigali,RwandaWebsite:https:/open-vision-language.github.io/suti/DataFunSummit#202302动机语境学习 当前的个性化图像成通过传统的微调学习 微调学习仍然需要做梯度下降 然语处理的语境学习 语境学习仅仅需要些示例样本 需梯度下降,单个模型可以不断适应到新的环
5、境X dogDiffusionX dog swimming语境学习 然语模型的语境学习来源于预训练 通过量本的next work prediction 语模型可以动获取语境学习的能 图像成模型前的预训练是仅仅基于单个(本,图像)的pair 图像成模型并不是连续多个图像本起训练 预训练的图像成模型并不具有任何语境学习的能 因此,我们需要专适配图像成模型来获取这种能 络架构需要获取示例本图像信息 训练数据也需要通过多个相似图像本起放置DataFunSummit#202303设计-络架构模型架构UNet UNet的图像成架构复模型架构UNet的Encoder 如何最效的把demonstration的
6、信息输?复UNet的Downstack Encoder demonstration的信息被编码到同个空间Exemplar:(image,text)pairs额外的Attention LayerDataFunSummit#202303设计-训练数据语境学习的图数据 较理想的图ICL数据应该的较像 (text_1,Image_1),(text_2,image_2),(text_t,image_t)这些图数据相互较类似 模型能够通过In-Context的exemplar理解如何成text_t的图 然,前public和internal都不存在这样的数据 现有的图