基于语境学习的图像扩散模型 In-context Diffusion Model.pdf

编号:155353 PDF 31页 26.58MB 下载积分:VIP专享
下载报告请您先登录!

基于语境学习的图像扩散模型 In-context Diffusion Model.pdf

1、DataFunSummit#2023基于语境学习的图像成陈 滑铁卢学-助理教授 Google Deepmind01背景知识本图像成的现状02动机为何需要语境学习的图像成模型03设计如何让现有的模型能够做语境学习04结果和展望实验结果和未来的展望录 CONTENTDataFunSummit#202301背景知识本图像成模型(Imagen,Dalle2,)现有的本图像成模型已经取得令骄傲的成绩 成的图很符合本 极具想象能 图清晰度 然,前的图像成模型的可控性较差 通过字法描述视觉的信息 位置/度/姿势 如何让成模型个性化 成指定的物品 成指定的场景成模型的个性化 如何让成模型能够成更加个性化的内容

2、 基于主体的图像成模型 DreamBooth:Fine Tuning Text-to-Image Diffusion Models for Subject-Driven GenerationDreamBooth 如何让成模型能够成更加个性化的内容 先微调整个模型在3-5张关于制定物品的图1000步,然后把模型存下来。微调过的模型进新的图成。Textual Inversion 如何让成模型能够成更加个性化的内容 先微调某个embedding在3-5张关于制定物品的图1000步,把embedding存下来。微调过的模型加上新的embedding进新的图成。memory的要求降低很多,但是效果明显差

3、于DreamBooth。当前模型的问题 需要微调整个模型才可以得到较满意的效果 1000 step的微调常耗费时间和GPU内存 存储额外的checkpoint需要量CPU内存 前的法扩展性较弱DiffusionDiffusionDiffusionDiffusion论Subject-driven Text-to-Image Generation via Apprenticeship Learning Wenhu Chen,Hexiang Hu,Yandong Li,Nataniel Ruiz,Xuhui Jia,Ming-Wei Chang,William W.Cohen ManuscriptR

4、e-Imagen:Retrieval-Augmented Text-to-Image Generator Wenhu Chen,Hexiang Hu,Chitwan Saharia,William W.Cohen Proceedings of ICLR 2023,Kigali,RwandaWebsite:https:/open-vision-language.github.io/suti/DataFunSummit#202302动机语境学习 当前的个性化图像成通过传统的微调学习 微调学习仍然需要做梯度下降 然语处理的语境学习 语境学习仅仅需要些示例样本 需梯度下降,单个模型可以不断适应到新的环

5、境X dogDiffusionX dog swimming语境学习 然语模型的语境学习来源于预训练 通过量本的next work prediction 语模型可以动获取语境学习的能 图像成模型前的预训练是仅仅基于单个(本,图像)的pair 图像成模型并不是连续多个图像本起训练 预训练的图像成模型并不具有任何语境学习的能 因此,我们需要专适配图像成模型来获取这种能 络架构需要获取示例本图像信息 训练数据也需要通过多个相似图像本起放置DataFunSummit#202303设计-络架构模型架构UNet UNet的图像成架构复模型架构UNet的Encoder 如何最效的把demonstration的

6、信息输?复UNet的Downstack Encoder demonstration的信息被编码到同个空间Exemplar:(image,text)pairs额外的Attention LayerDataFunSummit#202303设计-训练数据语境学习的图数据 较理想的图ICL数据应该的较像 (text_1,Image_1),(text_2,image_2),(text_t,image_t)这些图数据相互较类似 模型能够通过In-Context的exemplar理解如何成text_t的图 然,前public和internal都不存在这样的数据 现有的图

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(基于语境学习的图像扩散模型 In-context Diffusion Model.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠