CSIAM GDC “三维生成与空间智能” 研讨会




会议介绍


随着生成式 AI 与大模型技术的快速发展,人工智能正以前所未有的速度重塑我们理解、交互和创造三维世界的方式。三维生成技术,从虚拟建模到沉浸式体验,为影视、游戏、建筑等行业注入新活力;空间智能则在自动驾驶、智能机器人等领域大放异彩,赋予机器感知与决策能力。二者融合,更是开启了无限可能。

为探讨这一前沿领域的最新突破与未来趋势,中国工业与应用数学学会几何设计与计算专业委员会(CSIAM-GDC)拟于2025年7月19日(星期六)在中国科学技术大学举办“三维生成与空间智能”研讨会,由CSIAM-GDC专委主任、中国科学技术大学刘利刚教授负责组织。

  • 时间:2025年7月19日星期六 9:00-18:00

  • 地点:中国科学技术大学先进技术研究院未来中心5楼黄大年茶思屋(安徽省合肥市蜀山区望江西路5089号)(地图)(停车&5楼指引)



会议安排


时间 活动内容
9:00-9:10 开幕及致辞,主持人:刘利刚 中国科学技术大学
9:10-10:10 Session 1,主持人:许威威 浙江大学
时间 讲者 单位 题目
9:10-9:40 赵恒爽 香港大学 空间智能视觉基础模型 (Vision Foundation Models with Spatial Intelligence)
9:40-10:10 张力 复旦大学 可信世界引擎
10:10-10:30 茶歇
10:30-11:00 韩锴 香港大学 Taming foundation models for high-quality dynamic 3D modeling
11:00-11:30 贾旭 大连理工大学 可控视觉生成与理解初探
11:30-12:00 刘烨斌 清华大学 从灵巧手操作的捕捉与生成到灵巧手交互世界模型
12:00-14:00 午餐&午休
14:00-16:00 Session 2,主持人:刘烨斌 清华大学
时间 讲者 单位 题目
14:00-14:30 许威威 浙江大学 可控三维物体与场景生成
14:30-15:00 董未名 中国科学院自动化研究所 多模态信息引导的艺术图像生成
15:00-15:30 王鹏帅 北京大学 基于八叉树的多尺度三维自回归模型
15:30-16:00 王泽宇 香港科技大学(广州) 三维高斯作为创作媒介:从光照分解到空间编辑
16:00-16:20 茶歇
16:20-17:40 圆桌论坛,主持人:刘利刚 中国科学技术大学
嘉宾:全体参会嘉宾
17:40-18:00 总结及闭幕,主持人:刘利刚 中国科学技术大学




嘉宾报告




  • 题目: 多模态信息引导的艺术图像生成

  • 讲者: 董未名,中国科学院自动化研究所

  • 摘要: 生成式人工智能技术的发展为艺术创作带来了前所未有的挑战和机遇。以多模态大模型和扩散模型技术为基础,由人工智能生成的绘画作品在艺术性和内容丰富度方面都有了极大的提升。本次报告将回顾生成艺术的发展历程,并介绍本团队在多模态信息引导的艺术图像生成方面的最新工作。

  • 个人简介: 董未名,中国科学院自动化研究所多模态人工智能系统全国重点实验室研究员,博士生导师,中国电影美术学会理事,中国计算机学会计算艺术分会常务委员。长期从事生成式人工智能研究,在包括ACM TOG、IEEE TVCG、SIGGRAPH、ICCV和CVPR等重要国际期刊和国际会议发表学术论文百余篇,并获得2023年中国电影美术学会学术理论贡献奖。主持国家自然科学基金重点项目、新一代人工智能国家科技重大专项课题等国家项目以及腾讯、快手、蚂蚁集团和爱奇艺等企业合作项目。成果应用于腾讯天天P图、快手魔法滤镜、爱奇艺秀场和Follow相机等多项产品中,并担任腾讯视频网剧《悬镜》AI研发指导。

  • 主页: https://people.ucas.ac.cn/~wmdong

  • E-mail: weiming.dong@ia.ac.cn



  • 题目: Taming foundation models for high-quality dynamic 3D modeling

  • 讲者: 韩锴,香港大学

  • 摘要: In this talk, I will present our recent work on leveraging foundation models for dynamic 3D modeling. First, I will introduct our recent work on high-quality 4D generation by effectively harnessing video diffusion models, enabling temporally and spatially consistent content creation with 4D Gaussian splatting; Next, I will discuss about our efforts on feed-forward scene reconstruction, through image-based depth fusion; Finally, I will talk about our works on 3D human modeling from both reconstruction and generation perspectives.

  • 个人简介: 韩锴,香港大学计算与数据科学学院助理教授,领导Visual AI Lab。他的研究方向涵盖计算机视觉、机器学习与人工智能领域,目前重点关注开放世界学习、3D视觉、生成式人工智能、基础模型及相关领域。此前,他曾在谷歌研究院担任客座研究员,在布里斯托大学计算机科学系担任助理教授,并在牛津大学VGG组担任博士后研究员。他于香港大学计算机科学系获得博士学位。在攻读博士期间,他还在法国巴黎Inria研究所和巴黎高等师范学院(ENS)的WILLOW组从事研究工作。他担任计算机视觉和机器学习旗舰会议的领域主席,如CVPR, ECCV, ICLR等。他在顶级学术期刊和会议,如TPAMI, IJCV, CVPR, ICCV, ECCV, NeurIPS, ICLR等发表论文60余篇。主页: www.kaihan.org

  • 主页: www.kaihan.org

  • E-mail: kaihanx@hku.hk



  • 题目: 可控视觉生成与理解初探

  • 讲者: 贾旭,大连理工大学

  • 摘要: 生成模型已成为推动创意产业数字化转型的核心引擎,为内容创作、艺术设计、媒体制作等实际应用带来了革命性变革。然而,如何实现对生成过程的精准控制、确保输出内容符合用户意图和应用场景需求,仍然是视觉内容生成领域面临的关键挑战。本次报告将主要介绍我们团队在可控内容生成领域的最新研究成果,涵盖从2D到3D、从静态到动态的多维度内容控制技术。我们将介绍针对人物身份的定制化生成技术,该技术能够在保持身份一致性的同时实现多场景、多姿态的个性化内容创建;介绍团队在目标和相机轨迹联合控制下的视频生成方法,增强视频生成模型的时序一致性和运动控制;展示符合物理规律的视频生成框架,使生成内容更加真实可信;最后介绍面向3D场景的开放词汇理解技术,实现3D空间理解和语义映射。

  • 个人简介: 贾旭, 大连理工大学未来技术学院副教授,国家级青年人才,专注于计算机视觉与人工智能领域的研究,在TPAMI、TIP、CVPR、ICCV 等国际高水平期刊和会议上发表学术论文60余篇,谷歌学术累计引用达到1万余次,其中4篇引用超过1000次,成果获得包括诺贝尔奖、多国院士等权威学者正面评价,已申请和授权国内外发明专利20余项。主持多项国家级项目或重点项目子课题,相关研究成果获得CCF自然科学二等奖(序1)、华为火花奖、以及CVPR 形状恢复挑战赛冠军等多项学术奖励。目前担任CSIG青工委副秘书长,CCF、CSIG和CAAI等多个专委会执委,以及Valse执行领域主席,多次担任ICLR、ACM MM、IJCAI、ICME等国际顶会领域主席或高级程序委员,并在CVPR、ECCV等国际顶会上组织多次研讨会。

  • 主页: https://stephenjia.github.io/

  • E-mail: xjia@dlut.edu.cn



  • 题目: 从灵巧手操作的捕捉与生成到灵巧手交互世界模型

  • 讲者: 刘烨斌,清华大学

  • 摘要: 灵巧手与物体的交互与操作是数字人和人形机器人核心困难与挑战。现实世界中人手与世界的交互数据和先验构成了人形机器人与世界交互的世界模型基座。如何通过对现实世界中人手动作的重建与生成,并构建基于多模态大模型的灵巧手动作世界模型,是数字人和人形机器人研究的核心问题。本报告围绕灵巧手操作的运动捕捉、运动生成,以及手物交互世界模型对报告人及国际前沿进展进行介绍,并展望未来发展趋势及机遇。

  • 个人简介: 刘烨斌,清华大学自动化系长聘教授,国家杰青。研究方向为三维视觉、3D与4D内容生成,数字人,发表TPAMI/SIGGRAPH/CVPR/ICCV等论文百篇,谷歌学术引用13000余次。研究成果对8家知名(华为、字节、商汤等)企业技术许可。担任IEEE TVCG编委,多次担任CVPR、ICCV、ECCV领域主席,SIGGRAPH Asia技术委员会委员。任中国图象图形学学会三维视觉专委会主任。获2012年国家技术发明一等奖(排名3),2019年中国电子学会技术发明一等奖(排名1)。

  • 主页: www.liuyebin.com

  • E-mail: liuyebin@mail.tsinghua.edu.cn



  • 题目: 基于八叉树的多尺度三维自回归模型

  • 讲者: 王鹏帅,北京大学

  • 摘要: 自回归模型在多个领域表现出色,但在三维形状生成方面仍明显落后于扩散模型。本文提出多尺度三维自回归生成模型 OctGPT,在大幅提升效率与性能的同时,达到甚至超越了现有最优扩散模型的水平。OctGPT 采用序列化的多尺度八叉树表示,高效捕捉三维形状的层次与空间结构。通过引入基于八叉树的 Transformer 架构及并行生成策略,训练时间缩短 13 倍,生成时间缩短 69 倍,仅需 4 张 NVIDIA 4090 显卡即可在数日内完成高分辨率(如 1024³)三维模型的训练。OctGPT 在文本、草图、图像条件生成及多物体场景生成等任务中表现优异,大量实验证明其在收敛速度和生成质量上均优于现有自回归方法,为高质量、可扩展的三维内容创作提供了新路径。

  • 个人简介: 王鹏帅,现任北京大学助理教授,博士生导师。2013年和2018年分别于清华大学获得学士学位和博士学位。研究方向为计算机图形学、几何处理和三维深度学习。在学术会议SIGGRAPH(ASIA)、CVPR等上发表多篇论文。担任著名图形学期刊IEEE TVCG,Computers & Graphics的编委、著名图形学国际会议SIGGRAPH Asia 2024/2025、Eurographics 2024/2025、SGP 2024/2025等的会议程序委员。2023年获得亚洲图形学学会 (Asiagraphics) 青年学者奖,2025年获得中国三维视觉大会(China3DV)年度优秀青年学者奖。

  • 主页: https://wang-ps.github.io/

  • E-mail: wangps@hotmail.com



  • 题目: 三维高斯作为创作媒介:从光照分解到空间编辑

  • 讲者: 王泽宇,香港科技大学(广州)

  • 摘要: 三维高斯点染(3D Gaussian Splatting)作为当前流行的一种可微真实感表示方法,尚难以支持如图像般直观便捷的光照分解与空间编辑。本报告将介绍三维高斯光照分解和空间编辑的两个最新工作:GS-ID(ICCV 2025)和GaussianShopVR(UIST 2025)。GS-ID结合自适应的环境与局部光源优化和基于扩散模型的材质先验,实现了全面的光照分解,显著降低了光源-几何-材质之间的歧义性。实验表明GS-ID达到了最佳的光照分解性能,并能够有效支持重光照和场景合成等下游应用。GaussianShopVR通过利用直观的空间交互实现了高效的选择和绘制,从而支持用户对三维高斯进行可控且细粒度的编辑。我们实现了精准对象分割、实时色彩调整以及基于点云的可控生成等编辑方法,以支持交互式创作任务。这两个工作体现了三维高斯作为创作媒介的优秀潜力,为未来三维生成与空间交互相关研究提供了新的思路。

  • 个人简介: 王泽宇,香港科技大学(广州)信息枢纽计算媒体与艺术学域、人工智能学域助理教授,香港科技大学新兴跨学科领域学部、计算机科学与工程系联署助理教授,创意智能协同实验室负责人。于耶鲁大学计算机科学系获得博士学位,于北京大学智能科学系获得荣誉学士学位。研究方向为计算机图形学、人机交互、人工智能、数字文化遗产,已在领域内重要国际期刊和会议上发表50余篇学术论文。担任SIGGRAPH Asia, Eurographics, Pacific Graphics等国际会议的程序委员,CCF-CAD&CG, CCF-VRV, CSIG-3DV等专委会和GAMES执行委员。入选CCF-腾讯犀牛鸟基金、Adobe研究基金,并获得最佳论文奖、多项最佳提名奖等荣誉。

  • 主页: https://zachzeyuwang.github.io/

  • E-mail: zeyuwang@ust.hk



  • 题目: 可控三维物体与场景生成

  • 讲者: 许威威,浙江大学

  • 摘要: 三维生成技术正在蓬勃发展,其核心技术挑战之一是如何表达三维内容以及控制三维生成的控制信号,如结构、运动和相机轨迹等,以提升三维生成内容的质量。本报告介绍课题组在可控三维生成上的工作,包括部件感知的三维建筑物以及场景生成,统一相机轨迹和物体运动导引的视频生成方向上的工作,对如何表达并融合不同控制信号进行探讨。

  • 个人简介: 浙江大学计算机科学与技术学院CAD&CG国家重点实验室长聘教授,教育部长江学者。曾任日本立命馆大学博士后,微软亚洲研究院网络图形组研究员, 杭州师范大学浙江省钱江学者特聘教授。主要研究方向为智能三维感知、重建和仿真。在国内外高水平学术会议和期刊发表论文100余篇,其中ACM Transactions on Graphics, IEEE TVCG、IEEE CVPR、AAAI等CCF-A类论文60余篇。获中国和美国授权专利15项。所开发的高精度、高真实感三维重建技术在先临高精度扫描仪、百度阿波罗自动驾驶仿真平台、华为河图和徐工机械远程驾驶舱、凌迪数码服装仿真中得到应用。2014年受国家自然科学基金优秀青年基金资助,主持国家自然科学基金重点项目一项。

  • 主页: http://www.cad.zju.edu.cn/home/weiweixu/

  • E-mail: Xww@cad.zju.edu.cn



  • 题目: 可信世界引擎

  • 讲者: 张力,复旦大学

  • 摘要: 本次报告系统性地介绍课题组在 3D/4D 重建与生成方向的研究工作,重点阐述如何建立精确网格提取、实时渲染以及动态 3D 场景表征,探索生成模型中梯度传播路径优化以提高高分辨率 3D 物体生成质量,以及如何利用视频生成先验来优化自由轨迹下的三维模型,实现基于 PBR 技术的准确材质与光线估计。以此为基础构建一个全新可信仿真引擎,其具备:多模态的逼真场景渲染;支持闭环评估,以适应自由形式的轨迹行为;提供高度多样化的动态场景,以进行全面的评估;支持多智能体协作,以考虑交互动态;并具备高计算效率,以确保经济性和可扩展性。此外,报告还将展望相关 Real2Sim2Real 技术在具身智能等前沿领域的应用。

  • 个人简介: 复旦大学大数据学院教授、博士生导师。获国家级青年人才计划支持。博士毕业于伦敦玛丽女王大学电子工程与计算机科学系,曾任职于牛津大学工程科学系博士后,剑桥三星人工智能中心研究科学家。获上海海外高层次人才计划、上海科技青年 35 人引领计划(35U35)、爱思唯尔中国高被引学者、世界人工智能大会青年优秀论文奖;发表 IEEE TPAMI、IJCV、NeurIPS 等人工智能国际期刊与会议论文 90 余篇,论文总被引两万余次。 担任人工智能国际会议 NeurIPS 2023、NeurIPS 2024、NeurIPS 2025、CVPR 2023、CVPR 2024 与 CVPR 2025 领域主席,期刊 Pattern Recognition 副编辑。

  • 主页: https://lzrobots.github.io

  • E-mail: lizhangfd@fudan.edu.cn



  • 题目: 空间智能视觉基础模型 (Vision Foundation Models with Spatial Intelligence)

  • 讲者:赵恒爽,香港大学

  • 摘要: 随着深度学习模型能力的增强以及海量数据的高效获取和利用,大规模视觉基础模型的构建得到了广泛关注。这些视觉基础模型在处理跨领域的复杂视觉场景任务中表现出强大的泛化能力。然而,它们通常专注于图像和视频的理解,而忽略了真实物理世界中重要的空间智能。为了解决这些局限性,我们着重探索和开发具有空间智能的视觉基础模型。本次报告将介绍我们近期一系列关于赋予视觉基础模型空间智能的研究成果,包括空间理解、空间生成及空间推理,以及它们在诸多重要下游场景如自动驾驶和具身智能等的应用,并探讨视觉基础模型面临的一些挑战和未来前沿。

  • 个人简介: 赵恒爽博士是香港大学计算机科学系助理教授,国家优秀青年基金获得者。此前,他曾在麻省理工学院和牛津大学担任博士后研究员。他的研究兴趣涵盖计算机视觉、机器学习和人工智能等广泛领域,特别着重于构建智能视觉系统。他在CVPR、NeurIPS和TPAMI等顶级会议和期刊上发表论文100余篇,研究成果被引约40,000余次,其中单篇一作论文被引超17,000次,五篇一作论文被引超1,000次。他曾获得过多次国际学术竞赛的冠军,世界人工智能大会明日之星奖和青年优秀论文奖,CVPR最佳演示荣誉奖,AI100青年先锋,被AI 2000评为计算机视觉领域最具影响力的学者之一,被斯坦福大学列为世界前2%终身影响力科学家。此外,他曾担任CVPR、ICCV、ECCV、NeurIPS和ICLR等会议的领域主席,以及Pattern Recognition的副编辑和IEEE TCSVT的客座编辑。

  • 主页: https://www.cs.hku.hk/~hszhao

  • E-mail:hszhao@cs.hku.hk



组织机构


© 2025 USTC --- CSIAM GDC“三维生成与空间智能”研讨会