[MICCAI2019] Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement and Gated Fusion

mac2025-12-08  10

Cheng chen,CUHK


Intro

针对分割问题中的模态缺失现象。利用 disentanglement的思路,将多模态的输入影像特征,解耦为modality-specific 以及 modality-invariant。在Brats15上进行实验。

Method

网络框架如下: E c E^c Ec编码脑影像的内容信息,得到content code, E a E^a Ea编码模态信息,得到appearance code。图中绿色部分为分割网络, δ \delta δ的作用是在训练中随机让某一模态得到的content code无效,使得在测试中,输入模态缺失时,网络仍鲁棒;蓝色部分为重建网络。因为最终目的是分割,所以重建网络的作用主要是让 z z z能重建出原始模态影像;黄色部分为fusion模块,为每个模态的content code分配权重相加,类似于attention模块。 对文中提到的disentanglement有一定的异议。首先是重建部分,我认为这 E a E^a Ea并不一定只编码了appearance 信息。单独来看,重建部分网络就相当于VAE,即使不加入 z z z,也能进行很好地重建 相应地,分割部分也不一定只编码了content 信息。问题关键在于文章因为应用场景的要求(分割),输入的是成对的数据,这就限制了网络将不对应的content code与appearance code进行交叉重建,因此所谓的disentanglement也只是强加上去的;这样看来,其实本文与Brats18第一名的NVIDIA方案 segment+VAE 大同小异了,重建任务相当于对分割任务起一个正则作用

网络损失函数:

分割损失使用dice以及加权交叉熵; L r e c L_{rec} Lrec为重建误差; appearance code为8bit向量,文中让其尽可能接近 N ( 0 , 1 ) N(0,1) N(0,1)分布, L K L L_{KL} LKL为两分布之间的距离误差; 网络总误差如下:

Results

1、在15年的官方验证集上进行测试,与MICCAI2018的OM-Net比较 2、下表比较详细,对模态缺失的16种情况都进行了实验;

Ablation study

可以看到disentanglement,fusion模块都对分割网络有精度加成。 我的理解baseline就是去除网络框图重建部分,并将fusion模块换成简单的average fusion。

我的笔记

1、一个长期的疑惑就是,Brats18,Brats19 的数据都有了,为什么现在还是有论文倾向于用13,15年的数据集来发论文。 2、appearance code 的KL散度损失是否可以去掉。因为最终目的只是分割,重建部分用AE就够了,不需要用VAE。为什么使用KL,文章没有给出合理详细的说明

最新回复(0)