米乐M6官网登录正版下载·Light 深度学习赋能下的光学计量 定制案例
71
2016年3月,谷歌旗下人工智能(AI)公司DeepMind凭借其开发的AlphaGo人工智能系统以总比分4:1战胜围棋世界冠军李世石,引发了全人类对新一轮人工智能浪潮——深度学习技术的广泛关注和持续热议。从那刻起,人们见证了深度学习技术的快速崛起和广泛应用——它以前所未有的性能解决了计算机视觉、计算成像和计算机辅助诊断等领域的诸多难题与挑战。与此同时,Google、Facebook、微软、苹果和亚马逊这五大科技巨头无一例外投入越来越多资源抢占人工智能市场,甚至整体转型为人工智能驱动的公司。它们开始“点燃”数据挖掘的“艺术”,并开发出易于使用的开源深度学习框架。这些深度学习框架使我们能够使用预先构建和优化的组件集合,以更清晰、简明和用户友好的方式构建复杂、大规模的深度学习模型,而无需深入了解底层算法的细节。国内“BAT”也将深度学习技术作为重点战略方向,凭借自身优势积极布局人工智能领域。深度学习已经迅速地离开了学术界的殿堂并开始重塑工业界。 另一方面,光学计量学(Optical Metrology)是一类以光信号为标准/信息载体的测量科学和技术。它是一门古老的学科,因为物理学的发展从一开始就由光学计量技术所驱动的。但反过来,光学计量学也因激光、电荷耦合器件(CCD)和计算机的发明而发产生了重大变革。现如今已发展成为一个涵盖广泛的跨学科领域,并与光测力学、光学工程、计算机视觉和计算成像等学科紧密相关。鉴于深度学习在这些相关领域所取得的巨大成功,光学计量学的研究人员也无法抑制他们的好奇心,也开始积极投身到这一快速发展的新兴领域中。不同于传统的基于“物理先验”方法,基于“数据驱动”的深度学习技术为解决光学计量领域的诸多挑战性问题提供了新的可能,并展现出了巨大的应用潜力。 在此背景下,2022年3月,南京理工大学与新加坡南洋理工大学的研究团队在国际光学期刊《Light: Science & Applications》上联合发表了题为Deep learning in optical metrology: a review的综述文章,文章第一作者为南京理工大学左超教授,南京理工大学博士研究生钱佳铭为共同第一作者,南京理工大学左超、陈钱教授、新加坡南洋理工大学钱克矛教授为论文的共同通讯作者,南京理工大学为论文的第一单位。 文章系统总结了光学计量学中经典技术与图像处理算法,简述了深度学习的发展历史、网络结构及技术优势,并对其在各种光学计量任务中(如条纹去噪、相位解调和相位展开)的具体应用进行了全面综述。通过对比深度学习方法与传统图像处理算法的原理与思想上的异同,展示了深度学习在解决各种光学计量任务中“问题重构”和“实际性能”方面的独特优势。最后文章指出了深度学习技术在光学计量领域所面临的挑战,并展望了其未来潜在的发展方向。 光学计量技术将光的基本属性(如振幅、相位、波长、方向、频率、速度、偏振和相干性等)巧妙地用作被测物的信息载体,以实现对被测物的各种特征数据(如距离、位移、尺寸、形貌、粗糙度、应变和应力等)的获取¹。光学计量因其非接触、高速、高灵敏度、高分辨率、高精度等优势,在CAD /CAE、逆向工程、在线检测、质量控制、医疗诊断、文物保护、人机交互等领域得到了日益广泛的应用。在光学计量技术中,最常见信息载体为“条纹”与“散斑”。如大多数干涉测量法(经典干涉、光弹、数字散斑、数字全息等)所处理的图像是由物光和参考光相干叠加而成的干涉条纹,被测物理量被调制于干涉条纹的相位信息中²⁻⁵;此外,条纹图案还可以非干涉的方式生成,如条纹投影轮廓术(FPP)直接投影结构光条纹图案至被测物表面以测量物体的三维面型⁶。而在数字图像相关(DIC)中,所拍摄的图像则是样品表面形变前后的散斑图案,从中可获得被测物全场位移和形变分布⁷;将DIC与立体视觉或摄影测量相结合,基于多视散斑图像还可获取被测场景的深度信息⁸。图1总结了这些技术的图像生成过程及其对应的数学模型。 传统光学计量离不开图像处理技术,对条纹/散斑的图像处理可以理解为由捕获的原始强度图像反演出所需的待测物理量的过程。通常情况下,该过程并非“一步到位”,而是由三个具有逻辑层次的图像处理步骤所构成——预处理、分析和后处理。每个步骤都包含一系列图像处理算法,这些算法层层叠加,形成一个“流水线],其中每个算法对应于一个“映射”运算,其将图像/类似图像的矩阵输入转化为相应维度(或重采样的)的输出。 (1)预处理:图像预处理通过抑制或最小化不必要的干扰信号(如噪声、混叠、畸变等)来提高图像质量,光学计量中代表性的图像预处理算法包括图像去噪⁹、图像增强¹⁰、颜色通道分离¹¹、图像配准与校正¹²等。 (2)分析:图像分析是图像处理算法的核心步骤,用于从输入图像中提取与待测物理量相关的重要信息载体。在相位测量技术中,图像分析的主要任务是从条纹图像中重建相位信息,其基本算法包括相位解调¹³与相位展开¹⁴;对于立体匹配技术,图像分析是指确定散斑图像(样品表面形变前后的散斑图案/多视散斑图像)对应点间的位移向量,一般包括子集匹配和亚像素优化两个步骤¹⁵。 (3)后处理:图像后处理的目的是进一步优化测量得到的相位数据或散斑位移场,并最终将它们转化为待测物理量。光学计量中常见的后处理算法包括去噪¹⁶、误差补偿¹⁷、数字重聚焦¹⁸、参量转换¹⁹等。图3给出了光学计量图像处理层次结构的概貌以及不同层中分布的各种图像处理算法。 图2 光学计量的典型图像处理过程(如条纹投影轮廓术)可分为三个主要步骤:预处理(如去噪、图像增强)、分析(如相位解调、相位展开)和后处理(如相位—深度映射) 深度学习是机器学习领域的一个重要分支,它通过构建模拟人脑信息处理神经结构的人工神经网络(ANN),使机器能够从大量历史数据中进行自底向上的特征提取,从而实现对未来/未知样本的智能决策。ANN起源于McCulloch和Pitts在1943年建立的生物神经元的简化数学模型²⁰[图4a]。1958年,Rosenblatt等²¹受生物神经元模型的启发首次提出了可模拟人类感知能力的机器——单层感知机。如图4b所示,单层感知机由单个神经元构成,神经元以偏置(b)和权重(w)为参数,通过非线性激活函数将输入映射到输出。感知器的提出激发了大量研究人员对ANN的兴趣,对神经网络的发展具有里程碑式意义。然而,单层感知器只能处理线性分类问题的局限致使随后神经网络的发展停滞了近20年。80 年代,反向传播(BP)算法的提出使多层神经网络的高效训练成为了可能。其基于链式法则不断调节神经元间的权值以减小多层网络的输出误差,有效解决了非线性分类和学习的问题,引发了“浅层学习”的繁荣²²。1989年,LeCun等²³受哺乳动物视觉皮层结构启发提出了卷积神经网络(CNN)的思想,为现代计算机视觉与图像处理奠定了深度学习的基础。随后随着神经网络层数的增加,BP算法的梯度消失/爆炸问题日益凸显,致使90年代中期ANN的发展又陷入了停滞。2006年,Hinton等²⁴提出了一种深度置信网络(DBN)的训练方法来应对梯度消失问题;同时伴随着计算机硬件性能、GPU加速技术的发展以及大量标记数据集的出现,神经网络步入了第三次发展,从“浅层学习”阶段迈入了“深度学习”阶段。2012年,基于CNN构架的AlexNet于ImageNet图像识别比赛中一举夺魁,使得沉寂20余年的CNN成为深度学习的主流框架之一²⁵。与此同时,一些新的深度学习网络架构及训练方法(如ReLU²⁶和Dropout²⁷)被提出以进一步解决梯度消失问题,促使了深度学习的爆炸式增长。2016 年,谷歌旗下AI公司DeepMind所开发的人工智能系统AlphaGo击败围棋世界冠军李世石,引发了全人类对深度学习技术的广泛关注²⁸。图4给出了人工神经网络和深度学习技术的发展历程与典型神经网络的结构示意图。 上述单层感知机是最简单的ANN结构,仅由单个神经元构成[图4b]。深度神经网络(DNN)由多层神经元相互连接而成,相邻层间的神经元通常以全连接形式堆叠[图4g]。在网络训练期间,神经元将相应的输入乘以一个权重系数并与偏置值相加,通过非线性激活函数输出至下一层,同时网络损失被计算并反向传播以更新网络参数。不同于常规的全连接层,CNN使用卷积层对输入数据进行特征提取²⁹[图5a]。在每一层中,输入图像与一组卷积滤波器和添加的偏置进行卷积以生成一个新的输出图像[图5b]。CNN中的池化层利用图像的局部相关性原理对图像进行子抽样,在减少数据处理量的同时保留了有用信息[图5c]。这些特征使得CNN广泛应用于计算机视觉的任务中,如目标检测³⁰和运动跟踪³¹等。传统的CNN构架大多面向“分类”任务,在输出端舍弃了空间信息并产生了“向量”形式的输出。然而,对于光学计量技术中的图像处理任务,神经网络必须能够产生一个与输入相同的(甚至更高)全分辨率输出。为此应该使用没有全连接层的全卷积网络结构,这样的网络构架接受任意尺寸的输入,用回归损失进行训练,并产生像素级的矩阵输出。具有此类特征的网络称为“全卷积网络结构”的CNN,其网络架构主要包括以下三类: (1)SRCNN:Dong等³²跳过传统CNN结构中的池化层,采用几个卷积层简单堆叠的方式在输出端保留了输入维度[图6a]。利用该思想构建的SRCNN成为用于图像超分辨任务的主流网络框架之一。 (2)FCN:全卷积网络(FCN)是由Long等提出的用于语义分割任务的网络框架³³。如图6b所示,FCN使用传统CNN[图5]的卷积层作为网络编码模块,将全连接层替换为反卷积层作为解码模块。反卷积层能够对最后一个卷积层的特征图进行上采样使其恢复到与输入图像相同尺寸的输出。此外,FCN通过跳级结构将粗糙的高层特征与细致的低层特征相结合,使网络在保留像素级输出的同时更好地恢复了细节信息。 (3)U-Net:Ronneberger等对FCN作出改进并提出U-Net网络³⁴。如图6c所示,U-Net的基本结构包括一个压缩路径和一个扩展路径。压缩路径作为网络的编码器,使用四个卷积块(每个卷积块由三个卷积层和一个池化层构成)对输入图像进行降采样并获得压缩特征表示;扩展路径作为网络使用转置卷积的上采样方法来输出与输入相同尺寸的预测结果。U-Net采用跳跃连接对压缩路径和扩展路径进行特征融合,使得网络可以在浅层特征和深层特征中自由选择,对语义分割任务来说更有优势。 上述全卷积网络结构的CNN能够将任意大小的输入图像转化为像素级的矩阵输出,这与光学计量任务中图像处理算法所对应的“映射”运算的输入输出特征完全吻合,因此可以非常方便地对传统图像处理任务进行“深度学习替换”,这为深度学习在光学计量领域的快速崛起奠定了基石。 在光学计量技术中,原始条纹/散斑图像与被测物理量间的映射可描述为从参数空间到图像空间的正向物理模型和测量噪声的组合,这可以解释光学计量中几乎所有原始图像的生成过程。但从原始图像中提取待测物理量是一个典型的“逆问题”。求解这样的逆问题面临着诸多挑战,如:未知或不精确的正向物理模型、误差累积和局部最优解以及逆问题的病态性等。在计算机视觉和计算成像领域,解决逆问题的经典方法是通过引入被测物的先验作为正则化手段限定解空间以使其良态化[图7]。而在光学计量领域,解决逆问题的思路则与之大相径庭。根本原因在于光学计量通常是在一个“高度可控”的环境中进行的,因此更倾向于通过一系列“主动策略”,如照明调制、物体调控、多次曝光等来“主动调整”图像的采集过程,这就可将原先的“病态逆问题”重塑为一个“良态且足够稳定的回归问题”。例如由单幅条纹图像解调绝对相位:由于正向物理模型中缺乏足够的信息可以用来唯一稳定地求解相应的逆问。 米乐M6官网登录正版下载 上一篇:机器视觉中常用的光源影响机器视觉技术速度的因素 下一篇:泛滥停蓄 深博无涯——赵启斌及其美术史论研究 |