在二分类分割任务上表现优异,参数量少的情况下仍然有超强表现的网络。
Key Word:
(资料图)
multi-axis Hadamard Product Attention module (GHPA):对每一组做一次HPA,获得不同视角的信息
Aggregation Bridge module (GAB):融合多尺度特征虽然大模型的准确度在皮肤病分割上表现足够好,但是参数量太大,提出的UNext等模型虽然参数少但是表现不够好,所以提出了HPA方法来减少注意力机制的参数量,根据multi-head mode又提出了GHPA,还可以融合多视角信息。
参数量和MIoU:
网络结构:
该网络的encoder由六个阶段组成,channel分别为{8,16,24,32,48,64},前三阶段使用普通卷积,后三阶段使用提出的GHPA来提取不同层级的信息,使用GAB来代替普通的skip connection,进而连接encoder和decoder部分,与此同时,该模型还借鉴了Unet++里的deep supervision来生成不同尺度下的mask,并将其运用于loss和GAB的输入部分。
流程伪代码:
卷积部分使用深度可分离卷积,降低参数量,四个维度分别操作,每个维度为C/41.将输入在维度角度分成四等分,并且分别对height-width、channel-height、channel-width三个两两联合的维度进行HPA操作,对应上面的Pxy、Pzx和Pzy以及x1、x2、x3,对于第四个部分x4只进行深度可分离卷积DW,最后concatenate并且用DW聚合不同角度的信息。ps:所有DW的kernel size都是3。
Group Aggregation Bridge(GAB)结构:
三个部分作为输入,分别是高层次特征、低层次特征和mask。1.首先对高层次特征进行kernel size=1的深度可分离卷积,之后进行双线性插值。2.将处理后的高层次特征和低层次特征进行分割,在维度方面变成四等分,再一一对应组合成为fused features,最后组合上mask。3.不同dilated rates={1,2,5,7}、kernelsize=3的空洞卷积被运用到四个fused features,从而获得不同尺度下的信息。4.最后将这四个尺度信息concatenate起来,对整合后的特征进行kernelsize=1普通卷积,从而让不同尺度信息交互融合。ps:经过卷积后,sum(Xh,1,4)=sum(Xl,1,4)
Loss函数:
因为GAB操作中需要涉及到不同尺度下的mask信息,所以引入了UNet++的deep supervision操作来计算不同阶段的loss,loss function如上图所述。Bce:binary cross entropyDice:Dice loss权重lambda:1,,,,,对应六个阶段,可以看到第一个阶段的权重是最大的。
设备及超参数:
实验结果:
ISIC2017及ISIC2018结果:
消融实验:
从消融实验中可以看到,这几个模块也都是有用的,可以尝试迁移应用。
后面作者本人又迁移到了自己的一个二分类医疗分割项目中,验证EGE-UNET确实具有论文中效果,结果可复现,是个好文章。
Ruan, Jiacheng, et al. "EGE-UNet: an Efficient Group Enhanced UNet for skin lesion segmentation." arXiv preprint arXiv: (2023).
关键词:
质检
推荐