AIoT解决方案提供商

米乐M6官网登录正版下载·中科院等万字详解:最前沿图像扩散模型综述

 定制案例 63
发表时间:2024-03-22 03:38:55作者: M6米乐官网登录来源:米乐M6网页版登录入口

  除了在图像生成、恢复和增强方面取得的重大进步外,扩散模型在图像编辑方面也实现了显著突破,相比之前占主导地位的生成对抗网络(GANs),前者具有更强的可控性。

  不同于“从零开始”的图像生成,以及旨在修复模糊图像、提高质量的图像恢复和增强,图像编辑涉及对现有图像外观、结构或内容的修改,包括添加对象、替换背景和改变纹理等任务。

  在这项调查中,作者根据学习策略将图像编辑论文分为三个主要组别:基于训练的方法、测试时微调方法和无需训练和微调的方法。

  此外,作者还探讨了控制编辑过程使用的10种输入条件,包括文本、掩码、参考图像、类别、布局、姿势、草图、分割图、音频和拖动点。

  进一步地,作者调查了这些方法可以完成的12种最常见的编辑类型,它们被组织成以下三个广泛的类别:

  语义编辑:此类别包括对图像内容和叙述的更改,影响所描绘场景的故事、背景或主题元素。这一类别内的任务包括对象添加、对象移除、对象替换、背景更改和情感表达修改。

  风格编辑:此类别侧重于增强或转换图像的视觉风格和审美元素,而不改变其叙述内容。这一类别内的任务包括颜色更改、纹理更改和整体风格更改,涵盖艺术性和现实性风格。

  结构编辑:此类别涉及图像内元素的空间布局、定位、视角和特征的变化,强调场景内对象的组织和展示。这一类别内的任务包括对象移动、对象大小和形状更改、对象动作和姿势更改以及视角/视点更改。

  这些方法不仅因其稳定的扩散模型训练和有效的数据分布建模而著名,而且在各种编辑任务中表现可靠。

  为了彻底分析这些方法,作者根据它们的应用范围、训练所需条件和监督类型将它们分类为四个主要组别。

  下图展示了两种有代表性的CLIP指导方法——DiffusionCLIP和Asyrp的框架图。

  在图像生成和编辑中,还会采用微调策略来增强图像编辑能力,测试时微调带来了精确性和可控制性的重要提升。

  在图像编辑领域,无需训练和微调的方法起点是它们快速且成本低,因为在整个编辑过程中不需要任何形式的训练(在数据集上)或微调(在源图像上)。

  图像补全和外扩通常被视为图像编辑的子任务,可以分为两大类型——上下文驱动的补全(上排)与多模态条件补全(下排)。

  除了分析各种方法的实现原理,评估这些方法在不同编辑任务中的能力也至关重要,但现有的图像编辑测试标准存在局限。

  例如,EditBench主要针对文本和掩码引导的补全,但忽略了涉及全局编辑的任务(如风格转换);TedBench虽然扩展了任务范围,但缺乏详细指导;EditVal试图提供更全面的任务和方法覆盖范围,但图像通常分辨率低且模糊……

  为了解决这些问题,作者提出了EditEval基准,包括一个50张高质量图像的数据集,且每张图像都附有文本提示,可以评估模型在7个常见编辑任务的性能。

  此外,作者还提出了LMM分数,利用多模态大模型(LMMs)评估不同任务上的编辑性能,并进行了真人用户研究以纳入主观评估。

  作者认为,尽管在使用扩散模型进行图像编辑方面取得了成功,但仍有一些不足需要在未来的工作中加以解决。

  大多数基于扩散的模型在推理过程中需要大量的步骤来获取最终图像,这既耗时又耗费计算资源,给模型部署和用户体验带来挑战。

  近期的方法通过从预训练的强扩散模型中提取知识来减少步骤数,以便少步骤模型能够模仿强模型的行为。

  此外,另一个重要方向是只训练部分参数,或者冻结原始参数并在预训练的扩散模型之上添加一些新层。

  现有的工作可以在编辑图像时合成逼真的颜色、风格或纹理,但处理复杂结构时仍然会产生明显的修改痕迹,例如手指、标志和文字。

  研究者已经在尝试解决这些问题,常用的策略是把“六个手指”等常见问题作为负面提示,以使模型避免生成此类图像,这在某些情况下是有效的,但不够稳健。

  以前的工作(如Total Relighting)使用网络组合来估计前景对象的法线、反照率和阴影,以获得逼真的重新照明效果。

  最近,也由有团队提出将扩散模型用于编辑面部的光照,ShadowDiffusion也探索了基于扩散模型的阴影合成,可以生成合理的对象阴影。

  现有基于扩散的图像编辑模型能够为给定的一部分条件合成逼真的视觉内容,但在许多现实世界场景中仍然会失败。

  首先是扩大训练数据规模,以覆盖具有挑战性的场景,这种方式效果显著,但成本较高,如在医学图像、视觉检测等领域数据难以收集。

  第二种方法是调整模型以接受更多条件,如结构引导、3D感知引导和文本引导,以实现更可控和确定性的内容创作。

  尽管有如FID、KID、LPIPS、CLIP得分、PSNR和SSIM等定量指标,但大多数现有评估工作仍然严重依赖于用户研究,这既不高效也不可扩展。

  可靠的定量评估指标仍然是一个待解决的问题。最近,已经有团队提出了更准确的指标来量化对象的感知相似性。

  DreamSim测量了两幅图像的中等级别相似性,考虑了布局、姿态和语义内容,并且优于LPIPS。

  更多有关用于图像编辑的扩散模型的详细信息,可以阅读原作,同时作者也在GitHub上发布了附带资源库。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。


米乐M6官网登录正版下载 上一篇:电子半导体图像法颗粒度分析系统 下一篇:图像处理算法有哪些_图像处理十大经典算法
分享到:
联系我们
服务热线:029-81021990
                 周一至周五(9:00-18:00)
联系人:    高经理
联系方式:15398083318
公司地址:陕西省西安市雁塔区沣惠南路16号
                 泰华金贸国际9号楼2503
客服邮箱:services@munrocn.com
关注微信