报告预览

基于语境学习的图像扩散模型 In-context Diffusion Model.pdf

编号：155353

PDF 31页 26.58MB 下载积分：VIP专享

下载报告请您先登录！

基于语境学习的图像扩散模型 In-context Diffusion Model.pdf

1、DataFunSummit#2023基于语境学习的图像成陈滑铁卢学-助理教授 Google Deepmind01背景知识本图像成的现状02动机为何需要语境学习的图像成模型03设计如何让现有的模型能够做语境学习04结果和展望实验结果和未来的展望录 CONTENTDataFunSummit#202301背景知识本图像成模型(Imagen,Dalle2,)现有的本图像成模型已经取得令骄傲的成绩成的图很符合本极具想象能图清晰度然，前的图像成模型的可控性较差通过字法描述视觉的信息位置/度/姿势如何让成模型个性化成指定的物品成指定的场景成模型的个性化如何让成模型能够成更加个性化的内容

2、基于主体的图像成模型 DreamBooth:Fine Tuning Text-to-Image Diffusion Models for Subject-Driven GenerationDreamBooth 如何让成模型能够成更加个性化的内容先微调整个模型在3-5张关于制定物品的图1000步，然后把模型存下来。微调过的模型进新的图成。Textual Inversion 如何让成模型能够成更加个性化的内容先微调某个embedding在3-5张关于制定物品的图1000步，把embedding存下来。微调过的模型加上新的embedding进新的图成。memory的要求降低很多，但是效果明显差

3、于DreamBooth。当前模型的问题需要微调整个模型才可以得到较满意的效果 1000 step的微调常耗费时间和GPU内存存储额外的checkpoint需要量CPU内存前的法扩展性较弱DiffusionDiffusionDiffusionDiffusion论Subject-driven Text-to-Image Generation via Apprenticeship Learning Wenhu Chen,Hexiang Hu,Yandong Li,Nataniel Ruiz,Xuhui Jia,Ming-Wei Chang,William W.Cohen ManuscriptR

4、e-Imagen:Retrieval-Augmented Text-to-Image Generator Wenhu Chen,Hexiang Hu,Chitwan Saharia,William W.Cohen Proceedings of ICLR 2023,Kigali,RwandaWebsite:https:/open-vision-language.github.io/suti/DataFunSummit#202302动机语境学习当前的个性化图像成通过传统的微调学习微调学习仍然需要做梯度下降然语处理的语境学习语境学习仅仅需要些示例样本需梯度下降，单个模型可以不断适应到新的环

5、境X dogDiffusionX dog swimming语境学习然语模型的语境学习来源于预训练通过量本的next work prediction 语模型可以动获取语境学习的能图像成模型前的预训练是仅仅基于单个(本，图像)的pair 图像成模型并不是连续多个图像本起训练预训练的图像成模型并不具有任何语境学习的能因此，我们需要专适配图像成模型来获取这种能络架构需要获取示例本图像信息训练数据也需要通过多个相似图像本起放置DataFunSummit#202303设计-络架构模型架构UNet UNet的图像成架构复模型架构UNet的Encoder 如何最效的把demonstration的

6、信息输？复UNet的Downstack Encoder demonstration的信息被编码到同个空间Exemplar:(image,text)pairs额外的Attention LayerDataFunSummit#202303设计-训练数据语境学习的图数据较理想的图ICL数据应该的较像 (text_1,Image_1),(text_2,image_2),(text_t,image_t)这些图数据相互较类似模型能够通过In-Context的exemplar理解如何成text_t的图然，前public和internal都不存在这样的数据现有的图

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（基于语境学习的图像扩散模型 In-context Diffusion Model.pdf）为本站（张5G）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。