PaperReading-BPGAN-使用光谱归一化和定位的多生成多对抗网络进行CT-MRI双向预测

BPGAN: Bidirectional CT-to-MRI prediction using multi-generative multi-adversarial nets with spectral normalization and localization

1.摘要

  磁共振成像(MRI)和计算机断层扫描(CT)是广泛应用于临床和研究的筛查、诊断和图像引导治疗的检测技术。然而,CT在采集过程中对患者施加电离辐射。与CT相比,MRI更安全,没有任何辐射,但更昂贵,采集时间更长。因此,在放疗规划的情况下,有必要从同一受试者的另一个给定的模态图像中估计一个模态图像。考虑到目前MRI和CT图像之间没有双向预测模型,我们提出了一种双向预测方法,即使用多生成多对抗网络(BPGAN)以成对和非成对的方式从另一模态图像中预测任意模态。在BPGAN中,采用循环一致性策略,通过将相同的病理特征从一个域投射到另一个域来学习两个非线性映射。在技术上,引入病理先验信息来约束特征生成,以攻击病理变异的潜在风险,并采用边缘保留度量来保留几何畸变和解剖结构。在算法上,设计了谱归一化来控制鉴别器的性能,使预测器更好更快地学习;提出了局部化来对预测器施加正则化,以减少泛化误差。实验结果表明,BPGAN比目前最先进的方法产生更好的预测。其中,BPGAN在两个基线数据集上的MAE和SSIM的平均增量分别为33.2%和37.4%,SSIM分别为24.5%和44.6%

2.引言

  1. MRI和CT在各种医疗病例中都是重要的和广泛应用的技术。与MRI相比,CT的成像时间更短,空间分辨率更高,适用于骨骼和胸部的检测。但CT软组织信息对比度较低。考虑到电离辐射和CT的不同耐受性,MRI更适合正电子发射断层扫描(PET)中的衰减校正(AC)和现代放疗治疗计划中的剂量计算,MRI优越的软组织对比度有助于精确描绘肿瘤和危险器官。但MRI价格昂贵,且出于患者舒适度和依从性的考虑,采集时间较长,而标准的MRI引导临床治疗包括CT和MRI图像的采集。因此,由相应的和真实的MRI/CT图像准确合成的无偏伪CT/MRI图像(pCT/pMRI),在无法获得真实CT/MRI信息的情况下,在临床应用中是非常有用的。

  2. 为了减少不必要的电离剂量和患者的额外费用,临床上需要从另一个模态图像中估计一个模态图像。在这一需求的启发下,人们提出了许多创新性的单向预测方法,但实现这一目标仍然存在两个主要挑战
    1)几乎所有的预测算法都只能进行单向预测,即从给定的MRI预测pCT或从给定的CT预测pMRI
    2)在双向预测中,预测器可能产生目标图像中未显示的特征,这是一个潜在的风险。

  3. 为了解决这两个具有挑战性的问题,需要解决两个子问题:首先,学习MRI和CT域之间的双向映射;其次,预测的伪MRI和CT所描述的病理信息应与原始图像所描述的病理信息相同。CycleGAN和conditional GAN在这两个子问题上取得了巨大进展。然而,CycleGAN在几何变换方面存在固有的模糊性。

  4. 基于以上分析,我们提出了一种基于多生成多对抗网络(BPGAN)的双向预测方法:
    (1) 提出了一种新的双向预测方法,以配对和不配对的方式从另一个给定模态中预测任意模态图像,这是跨模态预测的第一个端到端双向预测模型。
    (2) 引入病理辅助信息约束特征生成,打击病理变异的潜在风险,采用局部预测器消除预测器反求的约束,搜索给定模态图像对应的全局坐标,降低泛化误差;
    (3) 设计了谱归一化来控制鉴别器的性能,保证了在控制Lipschitz界方面的理论论证,在稳定性和收敛性方面做出了重大贡献;
    (4) 更全面的评价,包括对pCT/pMRI影像的客观评价和对诊断质量的主观评价。大量实验表明,该方法在主观上和客观上都取得了令人满意的预测结果。

  5. 本文的其余部分组织如下:…

3.总结

  提出了一种基于高斯的交叉模态医学图像双向预测方案,该方案采用多生成多对抗网络进行光谱归一化和定位。为了消除病理变异的潜在风险,在同一类中加入辅助信息来生成特征,并采用局部定位来直接访问局部几何,而不是在全局GAN中反转预测器。然后利用光谱归一化控制鉴别器的性能,间接提高了预测图像的质量。此外,边缘保留度量用于保留解剖结构,总变异损失用于抑制训练过程中的噪声。总的来说,所提出的BPGAN产生了有希望的交叉模态预测结果。特别的是,它在基准上优于30% MAE, 20% SSIM, 20% FSIM, 50% MSIM, 15% GAN-train和10% GAN-test的平均增量。然后,主任医师的专业评估进一步证明BPGAN产生了令人信服的诊断质量,这与广泛的定量评估是一致的。

4.文章笔记

病理不变性:
在临床上,同一患者的同一器官的病理信息在预测时应该是相同的,本文称之为病理不变性。

CycleGAN的缺点
CycleGAN (Zhu et al ., 2017)在几何变换方面存在固有的模糊性。具体来说,CycleGAN中循环一致性的核心是保证GA(GB(x))→x和GB(GA(y))→y,但GB(x)→y和GA(y)→x不能保证几何畸变,它们是完全预期的。

谱归一化
归一化(Spectral Normalization)是一种在神经网络中常用的正则化技术,旨在稳定和改进生成对抗网络(GANs)和其他深度学习模型的训练过程。在谱归一化中,权重矩阵的每一行都被约束在单位球(L2 范数为1的球)上。这样做的目的是通过限制权重的范围来控制模型的复杂度,并提高模型的泛化性能。谱归一化的主要步骤是通过计算权重矩阵的特征值分解来估计权重矩阵的最大奇异值(spectral norm)。然后将权重矩阵除以最大奇异值以进行归一化。这可以通过迭代幂法(power iteration)来实现,迭代幂法通过多次迭代权重矩阵和其转置矩阵的乘积来逐渐逼近最大奇异值。谱归一化的优点包括:
(1)改善模型的稳定性:通过限制权重矩阵的范围,谱归一化可以降低模型训练过程中的梯度爆炸和梯度消失问题,从而提高模型的稳定性。
(2)提高生成对抗网络(GANs)的训练效果:谱归一化在生成器和判别器网络中应用广泛,可以使GANs的训练更加稳定,生成的样本质量更高。
(3)不增加额外的模型参数:与其他正则化方法(如权重衰减)相比,谱归一化不需要引入额外的超参数或调整权重衰减系数,因此更易于使用。
总之,谱归一化是一种用于正则化神经网络的技术,通过限制权重矩阵的谱范数来提高模型的稳定性和泛化性能。它在生成对抗网络和其他深度学习模型中具有重要的应用价值。

几种损失:
双向条件对抗性损失(Bidirectional conditional adversarial loss):
边缘保持损失(Edge retention loss):Edge retention loss是一种用于保留医学图像中边缘信息的损失函数,它被用于这篇论文中的医学图像配准任务。在医学图像配准任务中,保留边缘信息对于保持图像的解剖结构非常重要,因为它可以帮助医生更准确地诊断和治疗疾病。具体来说,Edge retention loss的计算方式是通过计算生成的图像与真实图像之间的边缘信息的差异来实现的。边缘信息可以通过计算图像的梯度来获得,因为梯度可以反映图像中像素值的变化。在这篇论文中,Matting Laplacian矩阵被用于计算图像的梯度,因为它可以帮助保留图像中的边缘信息。通过计算生成的图像与真实图像之间的边缘信息的差异。
内容损失(Content Loss)
在CNN网络中,一般认为较低层的特征描述了图像的具体视觉特征(即纹理、颜色等),较高层的特征则是较为抽象的图像内容描述。所以要比较两幅图像的内容相似性,可以比较两幅图像在CNN网络中高层特征的相似性(欧式距离)。
风格损失(Style Loss)
而要比较两幅图像的风格相似性,则可以比较它们在CNN网络中较低层特征的相似性。不过值得注意的是,不能像内容相似性计算一样,简单的采用欧式距离度量,因为低层特征包含较多的图像局部特征(即空间信息过于显著),比如两幅风格相似但内容完全不同的图像,若直接计算它们的欧式距离,则可能会产生较大的误差,认为它们风格不相似。论文中使用了Gram矩阵,用于计算不同响应层之间的联系,即在保留低层特征的同时去除图像内容的影响,只比较风格的相似性。
感知损失perceptual loss(VGG损失)
对于图像风格化,图像超分辨率重建等任务来说,早期都使用了图像像素空间的L2 loss,但是L2 loss与人眼感知的图像质量并不匹配,恢复出来的图像往往细节表现不好。
现在的研究中,L2 loss逐步被人眼感知loss所取代。人眼感知loss也被称为perceptual loss(感知损失),它与MSE(L2损失)采用图像像素进行求差的不同之处在于所计算的空间不再是图像空间。
研究者们常使用VGG等网络的特征,令φ来表示损失网络,Cj表示网络的第j层,CjHjWj表示第j层的特征图的大小,感知损失的定义与L2 loss同样的形式,只是计算的空间被转换到了特征空间。
TV Loss(Total Variation Loss)
全名为总变分损失函数,TV Loss作为一种正则项配合损失函数去调节网络学习。
即求每一个像素与其下方像素和右方像素的差的平方相加再开根号的和。
TV值和噪声是线性相关的,噪声越大TV值也会越大,所以TV值可以作为在图像复原或超分辨等任务中的一种指导正侧项,TVloss越小则图像噪声越小,图像更加平滑。