《A3--范昊天--文生图效果评估体系设计与实践.pdf》由会员分享,可在线阅读,更多相关《A3--范昊天--文生图效果评估体系设计与实践.pdf(48页珍藏版)》请在三个皮匠报告上搜索。
1、文生图效果智能化评估体系设计与实践范昊天字节跳动范昊天字节跳动 抖音智能评测实验室算法工程师硕士毕业于伦敦大学,先后就职于华为和创业公司,长期负责多模态、图像算法方向的研究工作。20年加入字节跳动,先后参与抖音音画质评估体系建设、多模态内容理解、图像算法工程化、AIGC生成算法评估等方向。目前在抖音智能评测实验室负责大模型算法相关工作。抖音智能评测实验室,基于丰富多样的物料、测试集,评测算法,主客观评测方案及便捷的模型管理能力组成的大模型评测体系,旨在为抖音系各业务的效果和安全提供专业的大模型评测能力。目录C O N T E N T S1.文生图算法简介2.文生图效果评估方法综述3.T2IEV
2、AL-40K Benchmark4.抖音文生图评测链路建设5.未来展望文生图算法简介01色彩绚丽而简约的现代中国风,极具美学的平面风格,中国时尚女性的面部特写,中国元素背景,简单的平面构图,充满艺术气息,对比色,高纯度色,插画作品国风倒计时2天超现实主义,电影特效,真实质感,高清,8K,东方美学,中式怪诞美学,中国神话传说中的神兽,山海妖怪,一座巨大的鬼城,雾气弥漫,一个巨大的人形羊头的山海妖精立在中间月球,表面坑洼的月球,灰色地带,1个宇航员在沙滩上,喝着西瓜汁,晒太阳,悠闲度日星空,宇宙,星球,画面中心是一个巨大的黄色“抖音logo”,by Gustav Klimt,by Shaun Ta
3、n,梵高星空风格,莫奈的梦幻颜色AlignDRAWStackGANDALL-EGAN Based MethodAutoregressive Stable DiffusionDALL-E2Diffusion BasedMJv6FLUX豆包文生图可图混元什么是图像生成模型生成模型的实质是估计训练数据的真实分布生成网络需要从隐空间(latent space)中随机采样作为输入,其输出结果需要尽量模仿训练集中的真实样本。=(0,)生成网络简单的图像退化过程慢慢的将数据映射到噪声Frozen text encoderPrompt:一个吐着舌头的金毛狗embeddingsDiffusion modelDD
4、PM一名男子站在果园的梯子上,左手拿着一些苹果文生图效果评估方法介绍02文生图模型效果的评估维度bird with white,black,and brown incolor,with a brown beak文本模态图像模态图文模态 满意度(总分)图文匹配度 多样性 清晰度 美观度 结构完整性Prompt实义prompt无实义prompt蕴含类prompt图文匹配度的评价方法Question Based核心是将图文匹配度转换成VQA问题,通过多模态大模型的问答能力来完成图文匹配度的打分工作。例:DA-Score 评分流程Question Based 评估方法存在的缺陷1.存在维度,GPT打分
5、准确率较低数量关系、人物年龄、位置关系、相似关系、文字,部分风格描述等,多模态大模型打分效果基本不可用2.总分相关性存在缺陷,VQA模型打分结果聚合成总分后与人工的打分相关系数较低3.部署大模型的资源成本相对较高图文匹配度的评价方法Score BasedGoogle-Reward model CVPR 2024 Best Paper1.Score based模型相比question based,可解释性稍差2.一般score based model跟主观打分的相关性会更高3.可做多任务学习,同时评价图文匹配、结构等指标画面质量评价方法结构完整性基于MLLM进行结构问题分析A-Bench:Are
6、 LMMs Masters at Evaluating AI-generated Images?MLLM在生成图像的结构问题判断上效果很差画面质量评价方法结构完整性基于图像异常检索方法进行评测未知结构问题的挖掘能力:画面质量评价方法结构完整性对于训练数据中不存在的结构问题,我们希望模型也可以很好的感知到。即模型可以具备挖掘未知结构问题的能力。UperNet 语义分割网络结构画面质量评价方法清晰度AIGC生成图像需要着重关注的一些问题:清晰度图像中物体边缘和细节的清晰程度伪像图像中出现的不真实、失真的视觉效果色彩图像中色彩的准确性和饱和度,色彩之间的平和和