GCL学术成果:CVPR 2026-当SAM2遇到体电镜:半监督框架Spatial-SAM从稀疏标注实现连续三维分割
近日,CVPR 2026接收成果出炉,来自中国科学技术大学数学科学学院GCL实验室和山东大学的研究团队提出全新三维视体积电子显微镜图像分割半监督框架——Spatial-SAM,通过将视觉基础模型SAM2的强大能力与3D结构引导相结合,成功在极具挑战的大规模体积电子显微镜(3D-EM)数据上,实现了仅需极少量二维切片标注的精准三维连续分割,为高分辨率、大规模的3D生物显微成像分析提供了新的解决思路。

图1. Spatial-SAM分割框架的工作流(左),与现有半监督方法相比有更好的空间连续性(右)
一、体电镜图像分割困境:切片间不连贯与标注成本高昂
体积电子显微镜(3D-EM)图像分割在过去一直面临着巨大的挑战。传统的深度学习方法(如3D U-Net及其变体)虽然性能强大,但极度依赖海量的逐像素人工标注。而在大规模体电镜数据上,现有的半监督或自监督方法往往只能在2D切片上表现尚可,一旦跨越切片,就难以保留复杂的3D拓扑结构,导致严重的切片间不连贯(inter-slice inconsistencies)。
近年来,视觉基础模型(如SAM及其升级版SAM2)展现了惊人的零样本与少样本分割能力。特别是引入了流式记忆(streaming memory)机制的SAM2,不仅统一了图像与视频的分割,还提供了一定的时序一致性。
然而,一个问题浮现出来:
直接将SAM2的视频记忆机制应用于大规模、高分辨率的3D-EM体数据时,它能否保持严格的空间连贯性和结构完整性?
SAM2的记忆仅仅由过去的2D分割预测结果与图像特征构建,它不仅缺乏整体的分割目标结构信息,还容易在逐切片传播中不断累积误差。
为此,文章提出了Spatial-SAM——一个兼具空间一致性与标注高效性的3D-EM分割框架,成功将SAM2的强大少样本能力与几何感知的3D结构引导相结合。
二、从“隐式预测累积”到“显式几何结构”
Spatial-SAM首先对SAM2的记忆机制进行了重构。在传统的SAM2 中,记忆库(Memory Bank)由之前的图像特征和预测出的Mask编码而成。这种单向传播既容易累积误差,又高度依赖切片的方向和初始帧的选择。

图2. Spatial-SAM整体框架,介绍了SDF Memory结构增强和简要的双轨半监督训练流程。
为了打破这一局限,文章引入了SDF Memory(符号距离场记忆)机制。使用一个轻量级的3D U-Net来预测整个3D体数据中分割目标的符号距离场(Signed Distance Field, SDF),并用其替换掉SAM2原本的记忆。
这种转变的意义在于:SDF是一种对3D物体几何形状的连续且完整的隐式表达。它能够提供方向无关的、天然平滑的结构先验。由于SDF是预先计算好的,因此在SAM2逐切片推理时,不会发生传统机制中的“局部误差被写入记忆并放大”的问题。
三、双轨半监督策略:突破标注成本的极限
在解决了三维空间连续性问题后,面临的第二个挑战是:如何在大规模EM数据集极具挑战性的外观变化下,用最小的标注代价实现鲁棒的分割?
文章设计了一种双轨半监督训练策略(Dual-track semi-supervised training)。

图3. 训练流程:细化了从初始化伪标签到SDF训练和Mask训练的交替循环。
- 利用SAM2的少样本(Few-Shot)能力启动:在一组巨大的未经标注的3D数据中,研究人员仅需抽取极少量的2D切片(例如仅1/64的切片),利用SAM2进行交互式标注与修正。
- 生成高质量伪标签:将这些稀疏的标注作为条件帧(Conditional frames),利用SAM2在整个体积上进行传播,生成初始的伪标签。
- 双轨协同优化:在后续的训练中,网络交替进行“SDF回归任务”(优化3D U-Net以提供更准的SDF结构)和“Mask学习任务”(优化SAM2的分割结果),使几何结构生成与高频细节分割两者相互促进,螺旋上升。
四、实验表现与研究启示
在多个3D-EM细胞器(如线粒体、细胞核)基准数据集(包括 OpenOrganelle 的小鼠肝脏图像和 MitoEM)上,Spatial-SAM 交出了一份令人瞩目的答卷:

表1. 不同方法分割结果的Dice与mIoU比较
● 极少标注下的突破:在仅使用1/64 2D切片级别标注的情况下,Spatial-SAM不仅大幅超越了现有的半监督学习方法,其表现甚至媲美、甚至超越了当前最先进的全监督分割方法。
● 优越的三维连续性:在三维重建的可视化结果中,Spatial-SAM分割出的线粒体不仅边界精准,还在跨切片的方向上展现出了平滑且完整的形态,解决了此前二维分割方法处理体电镜图像切片时常见的断层问题。

图4. 不同方法分割结果的2D可视化,青色为真阳性(TP),黄色为假阳性(FP),品红为假阴性(FN)

图5. 不同方法在大小和形态不同的线粒体上分割结果的3D可视化
五、结语与展望
Spatial-SAM并不是简单地将SAM2跑在体电镜图像上,而是从3D 几何结构与基础模型交互的本质出发,完成了一次框架层面的重构。
“当大模型学会通过SDF理解3D空间结构时,它不仅能根据提示给出完美的单一切片,更能在脑海中构建出一个近乎完整的三维分割目标的立体全貌。”
这种结合大模型少样本能力与经典3D几何表征的思路,不仅为3D-EM图像分割提供了一个极具实用价值的落地方案,也将为未来更多高分辨率、大规模的3D生物显微成像分析提供重要启发。
论文发表
该工作已被计算机视觉顶级会议CVPR 2026录用。CVPR是计算机视觉与模式识别领域的顶级国际会议(CCF-A类),2026年录用率约为25.42%。
论文原文
论文标题:Spatial-SAM: Spatially Consistent 3D Electron Microscopy Segmentation with SDF Memory and Semi-Supervised Learning
作者:黄亦铠1,韩仁敏2,王羽轩1,蔡有城1,刘利刚1
单位:中国科学技术大学1,山东大学2