GCL学术活动:成功举办“三维生成与空间智能”研讨会

会议简介

2025年7月19日,中国科学技术大学(USTC)GCL实验室承办了由中国工业与应用数学学会(CSIAM)主办,CSIAM几何设计与计算专委会(GDC)协办的“三维生成与空间智能” 研讨会。研讨会邀请了9位知名的学术界专家学者,共同交流三维生成与空间智能这一前沿领域的最新突破与未来趋势。会议设有主题报告和圆桌讨论环节,聚焦三维生成技术的最新发展趋势,涵盖了可控2D\3D生成式模型、灵巧手与物体交互、艺术图像生成和可信世界引擎等前沿方向,深入探讨三维生成技术在学术界、工业界和艺术界的突破性成果、研究重点难点和未来发展方向。

研讨会合影
研讨会合影

开幕式

开幕式由GCL实验室傅孝明副教授主持,介绍了研讨会的背景、安排和议程,并对大家的到来表达了热烈的欢迎。随后,刘利刚教授代表CSIAM GDC专委会及科大GCL实验室致辞,表达了对各位专家学者不远千里出席研讨会的感谢,并对研讨会取得丰硕成果表现出殷切期盼。

报告介绍

报告一:空间智能视觉基础模型 (Vision Foundation Models with Spatial Intelligence)

来自香港大学的赵恒爽助理教授从三维生成的核心技术挑战出发,介绍了其所在课题组在可控三维生成上的工作,包括部件感知的三维建筑物以及场景生成,统一相机轨迹和物体运动导引的视频生成方向上的工作,对如何表达并融合不同控制信号进行了探讨。

报告二:可控视觉生成与理解初探

来自大连理工大学的贾旭副教授在报告中深入探讨了生成模型的可控内容生成和精准控制。涵盖从2D到3D、从静态到动态的多维度内容控制技术。他着重介绍了针对人物身份的定制化生成技术、目标和相机轨迹联合控制下的视频生成方法、符合物理规律的视频生成框架和面向3D场景的开放词汇理解技术。

报告三:Taming foundation models for high-quality dynamic 3D modeling

来自香港大学的韩锴助理教授在报告中系统地阐述了如何利用基础的训练模型生成高质量的动态三维模型。他首先介绍了课题组利用视频扩散模型进行高质量4D生成的工作,该工作使用4D-GS实现了时间和空间的内容一致性。随后,他讨论了其课题组在前馈场景重建所做的贡献。最后,他从重建和生成的角度讨论了其在三维人体建模方面的工作。

报告四:从灵巧手操作的捕捉与生成到灵巧手交互世界模型

来自清华大学的刘烨斌教授从数字人和人形机器人核心困难与挑战出发,阐述了人手动作的重建与生成的重要意义。他指出:现实世界中人手与世界的交互数据和先验构成了人形机器人与世界交互的世界模型基座,如何通过对现实世界中人手动作的重建与生成,并构建基于多模态大模型的灵巧手动作世界模型,是数字人和人形机器人研究的核心问题。他在报告中围绕灵巧手操作的运动捕捉、运动生成,以及手物交互世界模型对其课题组及国际前沿进展进行介绍,并展望未来发展趋势及机遇。

报告五:多模态信息引导的艺术图像生成

来自中国科学院自动化研究所的董未名研究员在报告中详细阐述了生成式人工智能技术的发展为艺术创作带来的挑战和机遇。他指出,以多模态大模型和扩散模型技术为基础,由人工智能生成的绘画作品在艺术性和内容丰富度方面都有了极大的提升。他在报告中系统地回顾了生成艺术的发展历程,并介绍了其团队在多模态信息引导的艺术图像生成方面的最新工作。

报告六:可控三维物体与场景生成

来自浙江大学的许威威教授在报告中指出,三维生成的核心技术挑战之一是如何表达三维内容以及控制三维生成的控制信号,如结构、运动和相机轨迹等,以提升三维生成内容的质量。从此出发,他介绍了其课题组在可控三维生成上的工作,包括部件感知的三维建筑物以及场景生成,统一相机轨迹和物体运动导引的视频生成方向上的工作,并对如何表达并融合不同控制信号进行了深入探讨。

报告七:可信世界引擎

来自复旦大学的张力教授在报告中系统性地介绍了课题组在 3D/4D 重建与生成方向的研究工作,重点阐述了如何建立精确网格提取、实时渲染以及动态 3D 场景表征,探索生成模型中梯度传播路径优化以提高高分辨率 3D 物体生成质量,以及如何利用视频生成先验来优化自由轨迹下的三维模型,实现基于 PBR 技术的准确材质与光线估计。以此为基础构建一个全新可信仿真引擎,其具备:多模态的逼真场景渲染;支持闭环评估,以适应自由形式的轨迹行为;提供高度多样化的动态场景,以进行全面的评估;支持多智能体协作,以考虑交互动态;并具备高计算效率,以确保经济性和可扩展性。此外,张力教授还展望了 Real2Sim2Real 技术在具身智能等前沿领域的应用。

报告八:基于八叉树的多尺度三维自回归模型

来自北京大学的王鹏帅助理教授从自回归模型相比扩散模型的优劣势对比出发,详细介绍了其基于八叉树的多尺度三维自回归模型的工作。该工作提出多尺度三维自回归生成模型 OctGPT,在大幅提升效率与性能的同时,达到甚至超越了现有最优扩散模型的水平。OctGPT 采用序列化的多尺度八叉树表示,高效捕捉三维形状的层次与空间结构。通过引入基于八叉树的 Transformer 架构及并行生成策略,极大地缩短了训练时间和生成时间。OctGPT 在文本、草图、图像条件生成及多物体场景生成等任务中表现优异,大量实验证明其在收敛速度和生成质量上均优于现有自回归方法,为高质量、可扩展的三维内容创作提供了新路径。

报告九:三维高斯作为创作媒介:从光照分解到空间编辑

来自香港科技大学(广州)的王泽宇助理教授在报告中介绍了三维高斯光照分解和空间编辑的两个最新工作:GS-ID(ICCV 2025)和GaussianShopVR(UIST 2025)。GS-ID结合自适应的环境与局部光源优化和基于扩散模型的材质先验,实现了全面的光照分解,显著降低了光源-几何-材质之间的歧义性。实验表明GS-ID达到了最佳的光照分解性能,并能够有效支持重光照和场景合成等下游应用。GaussianShopVR通过利用直观的空间交互实现了高效的选择和绘制,从而支持用户对三维高斯进行可控且细粒度的编辑。该工作实现了精准对象分割、实时色彩调整以及基于点云的可控生成等编辑方法,以支持交互式创作任务。这两个工作体现了三维高斯作为创作媒介的优秀潜力,为未来三维生成与空间交互相关研究提供了新的思路。

圆桌讨论

圆桌讨论阶段,与会者与各位讲者进行了深入的学术讨论,积极交流了各自的研究心得与经验。刘利刚教授从“视觉生成模型”、“三维模型的结构化生成”、“三维CAD模型生成”和“空间智能和具身智能”这四个方向出发,与各位参会者进行了深入讨论。

闭幕式

研讨会结束时,刘利刚教授对本次活动进行了总结,强调了三维生成技术中的“三维资产”、“结构化生成”和“场景重建”等关键词,并提出了积极组织更多此类研讨会的倡议。伴随着热烈的掌声,本次“三维生成与空间智能” 研讨会圆满落幕。

部分与会者合影
部分与会者合影