米乐M6官网登录正版下载·学术分享数字病理图像分析方法的开发 定制案例
84
尽管任何特定的应用场景都需要两者结合,但通常一种方法占主导地位。这种区分有助于阐明算法开发和验证的问题,以及阐明如何把病理学家的知识真正应用于数字系统。 历史上,病理图像分析一直专注于检测、分类、计数和/或量化图像中可见的特定“物体”。这些物体可能是不同的种类,不同的识别规模。例如,确定切片是否包含侵袭性原发肿瘤,转移性肿瘤,或幽门螺杆菌感染,都是主要的检测任务。通常来说,检测到的东西也需要分类。例如,可以根据不同的细胞类型对细胞核进行分类,这可用于确定治疗反应的预测指标,如淋巴细胞和肿瘤细胞的相对比例。或者,我们可以避开细胞检测,而通过影像图素直接归类为肿瘤上皮、基质或其他组织类型,并以此来量化每种组织类型所占的区域 (例如,评估脂肪比例,或肿瘤基质比例)。根据我们想要解决的问题,不同的分析方法可以应用于组织切片的同一次全视野数字切片扫描。 这种定量分析的共同特征是,它关注于评估定义明确且可见的东西。原则上,它复现了病理学家通过看切片就能确定的东西。有经验的观察者可以通过可视化所检测到的、分类的和量化的内容来确定是否正确进行了分析。 通过定量分析解决的问题可能往往是我们真正想知道的,包括从图像中确定诊断或预后信息,不同患者的不同治疗方案问题。 数字病理学最近大多集中于如何更直接地解决这些问题——而不是明确地检测或量化特定的特征。一个早期的例子表明,人工智能可以预测肺腺癌中6个常见突变基因的突变。此后,类似的策略也被用于预测各种组织类型中基因的突变。其他研究表明,人工智能可以通过苏木精和伊红[H&E]切片扫描直接预测患者的预后。 在这些情况下,输出的的是不基于直接测量任何特定特征或结构的预测。这使得验证结果变得更加困难,至少基于每个图像是这样的。可信度需要通过以下途径来获得: (1) 使用不同数据集的大规模验证研究 (2) 能够可视化对结果有重要贡献的切片区域。这样的可视化表示人工智能已经学会如何基于已知的临床相关的图像区域来进行预测。 虽然上述两类并不能归纳所有的数字病理学应用,但我们仍可以区分哪些输出是可接受视觉验证的,哪些是不可接受的。例如,已开发出许多基于人工智能的格里森评分方法。其中一些包含了人工智能应用前的目标检测和量化元素,而另一些则更直接地对图像进行处理,没有明确的检测;不管怎样,病理学家可以通过比较人工智能最终的评定与自己的评估来评估该算法的性能。这与基于人工智能的前列腺癌风险分层或癌症复发预测方法不同,这种方法没有任何既定的分级系统,不太容易接受视觉验证,因此在病理学家对这种方法不太有兴趣。 无论采用何种方法,数字病理学的基本挑战仍然是相同的:在图像中发现特定模式。这需要对输入图像中的数字进行数算,通常采用将图像逐步转换为其他形式的方式,将关键特征分离出来。虽然每个单独的操作可能比较简单直接,但当数百甚至数千个这样的操作组合成一个数十亿像素应用于算法时,复杂性就随之而来。尽管如此,认识到构建数字病理算法本质上的简单性是理解其优势和预测其局限性的核心。在某些情况下,复杂分析的成功或失败可以归因于关键步骤中应用的单个截止阈值。 传统的图像处理要明确地定义所涉及的处理操作,这通常从广泛的既定技术中选取。例如,处理H&E图像通常从颜色反卷积分离染色开始;这有效地重新组合了每个像素的红色、绿色和蓝色值,使用以染色颜色为特征的加权和。随后可以进行卷积:一种图像滤波操作,该操作用相邻像素的加权和替换每个像素;权值由卷积核定义,不同的核会导致输出图像在不同的尺度上突出不同种类的特征 (如丝状结构、边缘、不同大小的斑点) 。 卷积通常应用于使用不同核的图像副本,然后通过添加或减去相应的像素重新组合。最终,生成一幅图像,其中可以通过应用阈值,把与感兴趣的结构相对应的像素值从所有其他像素中分离出来,从而生成表示可测量的不同对象的二值图像。可能需要一些额外的操作 (例如非线性滤波、距离或分水岭变换) 来充分分割聚类对象或重新定义边界。在“数据可用性声明”部分提供了这些技术概述的链接。 数字病理学文献中有许多各级图像处理文献:描述单个操作 (例如染色分离的新方法) ,通用任务的操作组合 (例如核检测) ,以及为特定应用设计的完整算法 (例如乳腺癌的Ki67评估) 。在每种情况下,处理都是人工操作的、确定的。核心操作可以不断调整和重组,构建不同的算法,以满足不同的目的。 研发强大的图像处理算法需要大量的工作和对数据的良好理解。它还需要想象力:开发人员需要注意算法可能会在不可见的图像、人工制品和异常上失败。事实上,这永远不可能完全不出错:因为不是每个可能出错的地方都可能被考虑到,而且即使认识到了问题,也很难克服。 如果计算机能通过实例和经验展现出类似人类的智慧,这就会容易得多。这种人工智能 (在一定程度上) 可以通过机器学习来训练一个能对新数据做出有效预测的模型。在这里,我们将专注于监督机器学习,该模型通过使用带有明确目标的标注数据进行训练,从而进行预测。这与无监督方法相反,无监督方法可用于在无标注数据中找到集群。 开发数字病理的监督机器学习算法需要相关标注数据的输入,需要一个能够从输入进行预测的模型,以及一个计算预测和标注之间误差的损失函数。训练期间的目标是迭代地改进模型,直到预测和标注之间的损失最小化。这个概念非常通用,标注根据手头的任务采取不同的形式。例如,病理学家标注的区域可能用于为图像的每个图块导出标注数据,并用于训练新图像模型,我们将这些新图像转换为对象进行定量分析。或者,一张图像可能有一个单独的相关标签——可能是基于病理学家的评估,或其他可用的数据——模型也应该做出单一的预测,例如突变状态或患者结果。 传统上来说,机器学习模型基于随机森林,其支持向量机和逻辑回归等技术。算法开发人员从图像中选择与预测相关的特征,并将其作为模型输入。这些特征通常是常见的图像处理操作的结果 (例如,带有预定义核的卷积滤波器) ,尽管它们也可能是由之前在图像中检测到的物体确定的 (例如,核的大小、形状和密度) 。因此,虽然仍涉及图像处理,但开发人员没有明确定义所有操作;相反,它们通过选择训练数据、特征和模型间接地调整算法。 深度学习是指在多个领域中特别强大的机器学习方法的子集。对于成像应用,深度学习模型通常是一种卷积神经网络 (CNN) 。顾名思义,卷积神经网络也依赖于卷积来生成特征——然而,核本身是在训练过程中学习的。这对所能取得的成就有着深远的影响。通过学习数百个这样的卷积滤波器,并将它们与其他非线性变换和调整大小相结合,深度学习有效地为定义输入特征打开思路。在实践中,这使得识别更复杂或微妙的模式成为可能——以需要更多的计算能力为代价。 这篇非常简短的概述旨在展示图像处理、机器学习和数字病理分析的深度学习方法之间的重叠。最后,所有这些都应用于图像的像素值。卷积——缩放和求和相邻像素值——在每种情况下都扮演着重要的角色。 专门使用传统图像处理来开发算法的一个优点是,这些方法定义明确、易于处理。开发人员通过设置关键参数 (如过滤器大小和阈值) 来调整性能。优点是简单:使用少量直观参数的算法很容易应用适应新图像,而一个复杂的、手工调整的算法很可能是脆弱的,并过度拟合某个数据集。然而,简单性同时也是一个限制因素:病理数据的复杂性意味着仅靠图像处理往往是不够的。 传统机器学习的一个好处是,开发人员可以专注于更高层次的问题:他们可以提供训练数据和表示应该处理的图像的标注,而不是指定固定的规则。开发和应用传统的机器学习模型也可以非常快:在交互式标注图像时,可以在几秒钟内训练一个模型,并在需要时逐步细化,尽管更结构化的多图模型训练方法通常更好。然而,即使经过大量的训练,成功与否最终还是取决于输入特征的有用性和信息量。由于关键参数被包裹在模型中,所以它们不能很容易地调优用于处理新图像。所以当算法失败时,我们需要训练一个新的模型。 关于传统机器学习的大多数观点也适用于深度学习,但有两点需要注意。首先,从头开始训练深度学习模型通常要慢得多:通常需要几个小时或更长时间,这取决于模型、训练数据和可用的计算资源——不过,如果可以将训练应用于现有模型,进行微调,则可以大大减少训练时间。其次,模型性能不太受可用特征的限制,尽管它仍然受可用训练数据和损失函数定义的限制。 在实践中,所有的技术都有优缺点。复杂的分析问题通常需要将它们中的所有元素组合起来 (图1) 。 任何寻求开发或应用数字病理的人都会遇到许多相同的挑战。这里我将讨论一些主要困难,并考虑如何解决它们。 有限的泛化影响了所有的数字病理分析,并被描述为“可能是在临床中大规模实施[计算病理学]技术的唯一最主要的障碍”。一个看似成功的算法在遇到与用于开发的数据有明显差异的数据时,可能会以不同的 (通常是微妙的)方式受到阻挠。例如,据报道,在CAMEYLON17大挑战中,用于检测淋巴结转移的排名最高的深度学习算法,仍在训练集中很少出现的良性区域受到阻挠。 另一项研究报告称,通过使用更大的训练数据集和更弱的标注 (即切片级标注,而不是勾画单个转移瘤的轮廓) 提高了算法强大性,但其仍然承认,当用于训练和测试的切片来自不同来源或使用不同的扫描仪时,算法性能有所下降。不同的深度学习方法,输入图像中细微的、视觉下的变化也可能导致截然不同的预测,这种方法甚至可以被用作一种“攻击”,通过故意操纵图像来引起不同的预测。 解决这一问题的一个策略是涵盖来自不同来源、使用不同扫描仪获得的更多样化的训练图像。然而,问题在于,这可能会引入可学习的隐藏变量,从而产生批次效应。例如,一项将深度学习应用于五家机构的黑色素瘤幻灯片的研究表明,可以了解切片来源、扫描仪类型、患者年龄,甚至 (在较小程度上) 切片制备日期的信息。一项类似的研究表明,在癌症基因组图谱(TCGA)的图像中可以识别特定位点的特征,而这些特征与种族有关。如果模型学习到与训练标注相关的特征 (由于队列构成而不是疾病) ,那么这种效应可能会提供一个夸大的准确性估计或系统偏差。 另一种扩展训练数据的方法是有意引入随机变化 (如分辨率、旋转、颜色和清晰度) 的图像处理操作来增强它,从而推动模型学习更多的信息特征。或者,也可以采取相反的方法,通过染色归一化使模型输入在预测阶段更加标准化。这些方法不是唯一的,最好的结果可能是通过扩大模型训练与多样化和增强数据,然后缩小输入变化与染色归一化。 在精确检测细胞的持续斗争中,泛化的问题尤其明显。这是许多病理分析工作流程的基本部分。尽管在生物图像分析中很少有像细胞核分割那样受到如此多的关注,2012年的一篇综述描述了它是如何在半个多世纪的努力后仍然没有解决的。在过去的十年中,深度学习技术取得了长足的进步,有迹象表明,一种统一的解决方案可以实现大多数组织、染色和扫描变化。然而,还需要进行更多的工作,设计出准确、稳健和计算效率高的细胞检测方法,并将其纳入广泛使用的软件中。这一点尤为重要,因为细胞分割的失败不是随机分布的,而是倾向于随着特定形态的增加而增加。 图像分析的一个好处是,它使我们能够定量地解决图像更详细的问题。一个不便之处是,我们摆脱了人类视觉估计的不精确性,但是缺少了专家的直觉,而对本应受评估的东西作出更精确的定义。这意味着在可能不存在边界的地方强加了严格的边界。例如,肿瘤区域的面积可能是精确确定的,但只有在人们接受肿瘤边界可以被精确确定的情况下。病理学家在标注肿瘤区域时画出了不同的轮廓,每一个都可能有特定的目的,每一种都有不同的区域。接受真理确定性缺乏的事。 米乐M6官网登录正版下载 上一篇:不用开刀活检 “显微镜+算法”高效追踪癌症转移 下一篇:机器视觉中常用的光源影响机器视觉技术速度的因素 |