GCL CVPR OpenDay 论文交流会

活动介绍详细日程报告详情

活动介绍

本年度 GCL 实验室共有11篇优秀工作被计算机视觉顶级会议CVPR录用。为增进实验室内部的学术交流，并向全校师生展示我们在三维重建、生成模型、点云处理、肖像动画等前沿领域的最新研究成果，实验室特别策划了本次“GCL CVPR OpenDay”活动。本次活动不仅是实验室内部的学术讨论班，我们更热忱地欢迎全校对计算机图形学、计算机视觉及 AI 感兴趣的同学（特别是本科生）前来聆听交流。活动氛围轻松自由，在这里你可以直接与论文作者面对面探讨技术细节，了解实验室的研究方向与科研日常。

时间：3月4日 (周三) 下午 14:20 开始
地点：中国科学技术大学东校区第五教学楼 5505 教室

详细日程

（每篇报告 12-15 分钟，设 3-5 分钟提问时间）

14:20 - 16:00	Session 1
时间	报告人	题目
14:20-14:40	肖冬	Routing on Demand: DSNet for Efficient Progressive Point Cloud Denoising
14:40-15:00	王俊逸	ExpPortrait: Expressive Portrait Generation via Personalized Representation
15:00-15:20	施羽翔	DeX-Portrait: Disentangled and Expressive Portrait Animation via Explicit and Latent Motion Representations
15:20-15:40	崔晋恺	ProgressiveAvatars: Progressive Animatable 3D Gaussian Avatars
15:40-16:00	胡诗敏	Easy3E: Feed-Forward 3D Asset Editing via Rectified Voxel Flow
16:00 - 16:15	休息 / 自由交流（15分钟）
16:15 - 17:55	Session 2
时间	报告人	题目
16:15-16:35	李嘉怡	DualReg: Dual-Space Filtering and Reinforcement for Rigid Registration
16:35-16:55	黄亦铠	Spatial-SAM: Spatially Consistent 3D Electron Microscopy Segmentation with SDF Memory and Semi-Supervised Learning
16:55-17:15	胡锦程	CraftMesh: High-Fidelity Generative Mesh Manipulation via Poisson Seamless Fusion
17:15-17:35	林文浩	Neural Dynamic GI: Random-Access Compression for Temporal Multiple Lightmaps Using Compact Neural Representations
17:35-17:55	宋宇轩	STAC: Plug-and-Play Spatio-Temporal Aware Cache Compression for Streaming 3D Reconstruction

报告详情

题目: Routing on Demand: DSNet for Efficient Progressive Point Cloud Denoising

作者: Xiaoqian Cheng, Dong Xiao, Husen Li, Zheng Liu, Renjie Chen

摘要: 点云去噪对提升3D感知系统的可靠性与准确性至关重要。现有渐进式去噪方法多采用固定迭代流程均匀处理所有区域，在应对非均匀噪声时易导致计算冗余和几何细节的过度平滑。为解决这一问题，本文提出了动态跳跃网络（DSNet）。这是一种新型渐进式去噪框架，能够根据局部面片的噪声特征，自适应地为其确定最佳去噪路径。DSNet 包含两个核心组件：噪声鉴别器：通过分析法向相似度来量化局部噪声强度；路径决策函数：将量化后的噪声强度映射至最合适的去噪模块。此外，本文设计了路径选择迭代机制。该机制能在每个阶段动态重新评估点云的恢复状态并重规划去噪路线，通过允许跨阶段跳跃来最大程度地减少不必要的计算。大量基准实验表明，DSNet 在噪声抑制、几何保真度以及计算效率方面均达到了先进水平。

题目: ExpPortrait: Expressive Portrait Generation via Personalized Representation

作者: Junyi Wang, Yudong Guo, Boyang Guo, Shengming Yang, Juyong Zhang

摘要: 尽管扩散模型在肖像生成任务中展现出巨大的潜力，但生成兼具丰富表情、时序连贯性与可控性的电影级肖像视频仍然是一项重大挑战。现有的肖像生成中间表征信号（如二维关键点与参数化人脸模型）在解耦能力方面存在不足；由于其表征稀疏或低秩，难以刻画个体化细节。因此，基于上述中间信号的方法往往难以准确保留主体身份特征与表情细节，从而限制了高表现力肖像视频的生成质量。为克服这些局限，我们提出一种高保真个性化头部表征，以更有效地解耦表情与身份信息。该表征同时捕获静态的、与特定主体相关的全局几何结构，以及动态的、与表情变化相关的细粒度细节。此外，我们引入表情迁移模块，实现不同身份之间头部姿态与表情细节的个性化、鲁棒迁移。我们将该精细且高度表现力的头部模型作为条件信号，用于训练基于Diffusion Transformer（DiT）的生成器，从而合成细节丰富的肖像视频。针对自我复现与跨身份复现任务的大量实验结果表明，与以往方法相比，我们的方法在身份保持、表情准确性与时间稳定性方面均取得显著提升，尤其在刻画复杂运动的细粒度细节方面表现更为突出。

题目: DeX-Portrait: Disentangled and Expressive Portrait Animation via Explicit and Latent Motion Representations

作者: Yuxiang Shi, Zhe Li, Yanwen Wang, Hao Zhu, Xun Cao, Ligang Liu

摘要: 基于单张源图像与驱动视频的肖像动画是一个长期存在的难题。近期方法多采用扩散模型，以实现逼真且富有表现力的驱动效果。然而，现有扩散模型均无法实现头部姿势、面部表情与身份特征的高保真解耦控制，这限制了仅表情编辑、仅姿态编辑等相关应用。针对该问题，本文提出DeX-Portrait方法，依托解耦后的高精度姿势与表情信号，生成极具表现力的肖像动画。具体而言，我们将姿势建模为显式全局变换，将表情建模为隐式潜码。我们构建了一套自监督训练框架，首先，设计高效的运动训练器，学习姿势编码器与表情编码器，以提取精准且解耦的驱动信号；然后，借助一种新颖的双分支机制将姿势变换注入扩散模型，并借助交叉注意力注入表情潜码；最后，我们提出了一种渐进式的CFG策略，以进一步提升生成效果的身份一致性。我们的模型在真实场景中展现出优异的泛化能力。

题目: ProgressiveAvatars: Progressive Animatable 3D Gaussian Avatars

作者: Kaiwen Song, Jinkai Cui, Juyong Zhang

摘要: 针对实时XR与沉浸式会议等应用中网络带宽与计算资源频繁波动的挑战，本次报告将介绍一种全新的渐进式 3D Avatar 表示方法——ProgressiveAvatars。该技术通过在模板网格上进行自适应隐式细分，构建了3D高斯层级结构，并将高斯节点定义于面部局部坐标系中。这一设计确保了 Avatar 在多重细节层级下依然具备卓越的可动画性，能够精准驱动并适配复杂的面部表情与头部运动。在重建阶段，系统能够根据屏幕空间信号自适应扩展层级，将计算资源动态分配至视觉关键区域。依托该多层级结构与重要性排序算法，ProgressiveAvatars 支持增量加载与渲染，在新数据到达时实现画质的平滑过渡与提升。因此，在动态变化的带宽、算力及内存限制下，该技术有效实现了 3D Avatar 的高质量渐进式传输与渲染。

题目: Easy3E: Feed-Forward 3D Asset Editing via Rectified Voxel Flow

作者: Shimin Hu, Yuanyi Wei, Fei Zha, Yudong Guo, Juyong Zhang

摘要: 现有的 3D 编辑方法通常依赖于计算密集型逐场景迭代优化，且面临多视角不一致的问题。本文提出了一种基于 TRELLIS 生成主干的高效、前馈 3D 编辑框架，能够仅凭单一编辑视角对 3D 模型进行修改。我们的框架解决了两个关键挑战：一是如何将无需训练的 2D 编辑方法迁移至结构化的 3D 表示中；二是如何克服压缩 3D 特征在外观保真度上的瓶颈。为了确保几何一致性，我们引入了 Voxel FlowEdit ，一种在稀疏体素潜空间中由编辑驱动的流模型，仅需单次前馈即可实现全局一致的 3D 变形。为了恢复高保真细节，我们开发了一个法向引导的单视角转多视角生成模块作为外部外观先验，成功修复了高频纹理。实验表明，我们的方法能够实现快速、全局一致且高保定的 3D 模型编辑。

题目: DualReg: Dual-Space Filtering and Reinforcement for Rigid Registration

作者: Jiayi Li, Yuxin Yao, Qiuhang Lu, Juyong Zhang

摘要: 噪声、部分重叠的数据以及实时处理的需求给刚性配准带来了重大挑战。考虑到基于特征的匹配能够处理较大的变换差异，但精度有限；而基于局部几何的匹配能够实现细粒度的局部对齐，但严重依赖于良好的初始变换，我们提出了一种新颖的双空间范式(DualReg)，以充分利用这两种方法的优势。首先，我们引入了一种高效的过滤机制，该机制结合了计算量较小的单点随机抽样一致性算法（1-point RANSAC），随后通过一个细化模块来消除不可靠的基于特征的对应关系。最后，我们将过滤后的对应关系视为锚点，提取几何代理，并构建了一个有效的目标函数，配合定制的求解器来估计变换。实验验证了我们的方法的有效性，在KITTI数据集上，与MAC相比我们的方法在保持相当精度的同时，实现了高达32倍的CPU加速。

题目: Spatial-SAM: Spatially Consistent 3D Electron Microscopy Segmentation with SDF Memory and Semi-Supervised Learning

作者: Yikai Huang, Renmin Han, Yuxuan Wang, Youcheng Cai, Ligang Liu

摘要: 基于SAM的方法在生物医学图像分割中展现出强大潜力，但在三维电子显微镜（3D-EM）数据上往往难以保持空间一致性，且依赖大量人工标注。Spatial-SAM针对这两大挑战提出两项核心创新：一是以3D U-Net预计算的符号距离场（SDF）表示替换SAM2原有记忆模块，提供更丰富的几何信息以增强空间一致性；二是结合SAM2的少样本能力与双轨伪标签迭代优化策略，实现用极少标注高效学习大规模3D-EM数据的分割。在多个3D-EM基准上，Spatial-SAM显著超越现有半监督方法，并达到与全监督前沿方法相当的性能，在大幅降低标注成本的同时保持了优越的空间一致性。

题目: CraftMesh: High-Fidelity Generative Mesh Manipulation via Poisson Seamless Fusion

作者: James Jincheng Hu, Yuxiao Wu, Youcheng Cai, Ligang Liu

摘要: 可控的高质量3D模型编辑仍然是3D内容创作领域中的⼀项重大挑战。现有的生成式模型编辑方法通常在处理复杂模型时表现不佳，且无法保留细节。我们提出了CraftMesh，⼀个基于泊松无缝融合的高保真生成式网格模型编辑。我们的关键思路是利用2D图像编辑和3D模型生成：我们首先编辑⼀个2D图像，然后生成对应编辑区域的3D模型，并对⼀个SDF/模型表示进行联合的几何和纹理融合，将其无缝融合到原始网格中，从而实现泊松几何混合和泊松纹理协调。实验结果表明，CraftMesh优于现有的放法，取得了最好的定性与定量结果，在有挑战性的编辑场景中提供了更自然的结构、更丰富的局部几何形状和外观细节。

题目: Neural Dynamic GI: Random-Access Compression for Temporal Multiple Lightmaps Using Compact Neural Representations

作者: Jianhui Wu, Jian Zhou, Zhi Zhou, ZhangJin Huang, Chao Li

摘要: 该文针对动态全局光照数据体量巨大、实时渲染阶段访问代价高的问题，提出了一种基于紧凑神经表示的时序多光照贴图随机访问压缩方法。具体而言，作者将不同时间、多光照条件下的光照贴图统一编码到一个紧凑的神经网络中，使得同一空间位置在时间维度和光照维度上的变化能够被高效建模与压缩。为了在游戏或交互式应用中实现实时使用，该方法在运行时与虚拟纹理系统深度结合，通过对神经表示进行分块管理与按需解码，仅在屏幕可见区域和当前时刻对必要的光照数据进行重建，从而将解码计算开销控制在极低水平。在此基础上，系统仍然能够重建出高质量的间接光照与阴影效果，实现细节丰富、时序连续的动态全局光照渲染，为大规模时序光照数据的存储与实时利用提供了一种兼顾压缩率与渲染性能的可行方案。

题目: STAC: Plug-and-Play Spatio-Temporal Aware Cache Compression for Streaming 3D Reconstruction

作者: Runze Wang,Yuxuan Song, Youcheng Cai, Ligang Liu

摘要: 本文提出 STAC—— 一种即插即用的时空感知缓存压缩框架，专为基于因果变换器的流式 3D 重建设计。研究发现因果变换器 KV 缓存存在固有时空稀疏性，据此设计三大核心组件：基于衰减累积注意力分数的工作时间令牌缓存、体素对齐的长期空间令牌缓存、联合优化连续帧的分块多帧策略。该框架无需额外训练，在 NRGBD、7-Scenes 等数据集的实验表明，其将内存消耗降低 8.5 倍，推理速度提升 3.5 倍，同时保持 SOTA 的 3D 重建和相机位姿估计精度，解决了流式重建中 KV 缓存线性增长的内存瓶颈，为受限内存下的因果 3D 感知建立了统一范式，也指出了体素分辨率固定、动态环境适配不足的局限性。