基于语境学习的图像扩散模型 In-context Diffusion Model.pdf

上传人：张**

编号：155353

2024-02-15

PDF 31页 26.58MB

《基于语境学习的图像扩散模型 In-context Diffusion Model.pdf》由会员分享，可在线阅读，更多相关《基于语境学习的图像扩散模型 In-context Diffusion Model.pdf（31页珍藏版）》请在三个皮匠报告上搜索。

1、DataFunSummit#2023基于语境学习的图像成陈滑铁卢学-助理教授 Google Deepmind01背景知识本图像成的现状02动机为何需要语境学习的图像成模型03设计如何让现有的模型能够做语境学习04结果和展望实验结果和未来的展望录 CONTENTDataFunSummit#202301背景知识本图像成模型(Imagen,Dalle2,)现有的本图像成模型已经取得令骄傲的成绩成的图很符合本极具想象能图清晰度然，前的图像成模型的可控性较差通过字法描述视觉的信息位置/度/姿势如何让成模型个性化成指定的物品成指定的场景成模型的个性化如何让成模型能够成更加个性化的内容

2、基于主体的图像成模型 DreamBooth:Fine Tuning Text-to-Image Diffusion Models for Subject-Driven GenerationDreamBooth 如何让成模型能够成更加个性化的内容先微调整个模型在3-5张关于制定物品的图1000步，然后把模型存下来。微调过的模型进新的图成。Textual Inversion 如何让成模型能够成更加个性化的内容先微调某个embedding在3-5张关于制定物品的图1000步，把embedding存下来。微调过的模型加上新的embedding进新的图成。memory的要求降低很多，但是效果明显差

3、于DreamBooth。当前模型的问题需要微调整个模型才可以得到较满意的效果 1000 step的微调常耗费时间和GPU内存存储额外的checkpoint需要量CPU内存前的法扩展性较弱DiffusionDiffusionDiffusionDiffusion论Subject-driven Text-to-Image Generation via Apprenticeship Learning Wenhu Chen,Hexiang Hu,Yandong Li,Nataniel Ruiz,Xuhui Jia,Ming-Wei Chang,William W.Cohen ManuscriptR

4、e-Imagen:Retrieval-Augmented Text-to-Image Generator Wenhu Chen,Hexiang Hu,Chitwan Saharia,William W.Cohen Proceedings of ICLR 2023,Kigali,RwandaWebsite:https:/open-vision-language.github.io/suti/DataFunSummit#202302动机语境学习当前的个性化图像成通过传统的微调学习微调学习仍然需要做梯度下降然语处理的语境学习语境学习仅仅需要些示例样本需梯度下降，单个模型可以不断适应到新的环

5、境X dogDiffusionX dog swimming语境学习然语模型的语境学习来源于预训练通过量本的next work prediction 语模型可以动获取语境学习的能图像成模型前的预训练是仅仅基于单个(本，图像)的pair 图像成模型并不是连续多个图像本起训练预训练的图像成模型并不具有任何语境学习的能因此，我们需要专适配图像成模型来获取这种能络架构需要获取示例本图像信息训练数据也需要通过多个相似图像本起放置DataFunSummit#202303设计-络架构模型架构UNet UNet的图像成架构复模型架构UNet的Encoder 如何最效的把demonstration的

6、信息输？复UNet的Downstack Encoder demonstration的信息被编码到同个空间Exemplar:(image,text)pairs额外的Attention LayerDataFunSummit#202303设计-训练数据语境学习的图数据较理想的图ICL数据应该的较像 (text_1,Image_1),(text_2,image_2),(text_t,image_t)这些图数据相互较类似模型能够通过In-Context的exemplar理解如何成text_t的图然，前public和internal都不存在这样的数据现有的图

基于语境学习的图像扩散模型 In-context Diffusion Model.pdf

相关报告