第十三届中国科大《计算机图形学前沿》暑期课程(第三天)

2025年7月9日星期三,第十三届中国科学技术大学《计算机图形学前沿》暑期课程第三天,课程安排是《三维表征与重建》专题,上午由浙江大学的彭思达老师主持进行,下午由崔兆鹏老师主持进行。

第三天课程安排:三维表征与重建专题课程(7月9号)

课程1

中国科学院自动化研究所崔海楠老师在《传统三维表征与运动恢复结构》专题课程中,系统地讲解了从运动恢复结构的核心理论、关键技术和未来发展趋势。课程首先从投影模型,内参模型,两视图几何等理论基础讲起,深入剖析了基本矩阵、本质矩阵和单应变换等概念。随后,崔老师详细讲解了两种主流的SfM技术路线:一是增量式SfM,通过PnP算法逐一注册新图像并反复进行捆绑调整,但存在效率低和误差累积的问题;二是全局式SfM,它通过旋转与平移平均等方法一次性求解所有相机位姿。最后崔老师展望了该领域的前沿方向,包括错误匹配滤除、融合单目先验以及构建端到端SfM。

课程2

南京大学姚遥老师在《基于多视立体几何的三维稠密重建》专题课程中,系统地讲解了多视点三维重建从传统到前沿的四代技术演进,课程首先讲述了传统的MVS方法,如Plane Sweeping、SGM以及PMVS等。随后,课程讲解了基于深度学习的MVSNet系列,通过构建端到端的学习框架,使用cost volume regularizer,显著提升了重建的完整度和精度。接着,课程介绍了以NeRF和3D高斯为代表的可微渲染方法。最后,姚老师讲解了以DUSt3R、VGGT为代表的以大模型为基础的新范式,使用transformer架构,通过大规模数据学习,展现了zero-shot泛化能力。

课程3

上海科技大学许岚老师在《基于几何约束的在线三维重建技术》专题课程中,重点讲解了human-centric动态场景三维重建与实时渲染技术的发展历程。课程首先介绍了传统的三维重建pipeline,包括从多相机采集、点云生成、网格化与纹理生成,到时序网格处理与压缩的复杂流程。随后,课程讲解了以Fusion4D等为代表的实时融合技术,这种方法通过融合多视角深度图的SDF表示来对动态物体进行实时建模。接着,许老师讲解了以NeRF为代表的从显示几何向隐式表示的转变,探讨了多种面向动态人体的混合和隐式表示,比如Neural Animated Mesh和Human-NeRF。最后,许岚老师还展示了结合Gaussian Splatting的HiFi4G等最新方法。

课程4

浙江大学彭思达老师在《三维神经表征及其建模方法》专题课程中,重点讲解了三维场景的数字化表达方式,课程首先回顾了从三角网格到MPI,再到SDF的多种三维表示,然后介绍了将场景表示为连续函数的NeRF技术。随后,课程以三维神经表征面临的问题为导向,探讨了为解决这些挑战而发展的技术:针对渲染与训练速度慢的问题,彭思达老师介绍了3DGS、Plenoxel等方法;针对大场景建模能力弱的问题,讲解了NeRF++、Grid-NeRF等方法;为提升模型鲁棒性,介绍了BARF如何处理带误差的相机位姿,RegNeRF如何应对稀疏视角等。最后,彭老师还介绍了将神经表征拓展至多模态信号与动态场景的建模方法。

课程5

浙江大学崔兆鹏老师在《基于网络优化的在线三维重建技术》专题课程中,系统讲解了三维重建领域从早期到前沿的技术进展。课程首先区分了在线三维建模和离线三维建模,并展示了其在自动驾驶和增强现实中的应用。随后,崔老师讲解了三种基于网络优化的在线三维重建技术:第一种是基于向前推理的方法,通过深度网络从输入图像端到端地预测相机位姿和场景深度;第二种是基于渲染优化的方法,通过对比渲染图像和真实图像来优化神经表示;第三种是基于基础模型的方法,利用预训练模型提高鲁棒性和泛化能力。最后,崔兆鹏老师总结了现有方法的局限性并展望了在线三维重建作为未来具身智能”认知引擎“的前景。

课程6

清华大学段岳圻老师在《生成式三维建模技术》专题课程中,深入剖析了当前的三维视觉内容生成技术。课程首先指出,尽管Sora等模型在二维视觉内容生成上取得了巨大成功,但它们本质是在色彩空间建模,难以有效捕捉三维结构和物理规律。针对这一挑战,段岳圻老师讲解了生成式三维建模的三大范式:一是二维大模型蒸馏,二是多视角生成重建,三是原生三维模型。在此基础上,段老师提出了基于”二元空间“的视觉生成思路,即通过高斯泼溅表示方法,联合结构空间和色彩空间,以此充分利用二维大数据与有限的三维数据。最后,段老师展望了从”二元空间“转向”三元空间“的未来方向,即引入”物理空间“,以实现符合物理规律的可交互三维动态场景。

课程总结与讨论 最后,几位主讲老师对今天的课程进行了总结,并围绕当前三维视觉的热点问题展开了讨论,比如:在深度学习时代,传统三维重建方法该何去何从?像VGGT这样的视觉基础模型,是否会完全取代传统技术?在3DGS之后,下一个值得探究的方向在哪里?以及当视频生成模型足够强大时,是否还需要三维建模等一系列问题。最后,老师们还与现场听众进行了交流互动,解答了大家的问题。

报告人简介

崔海楠,中国科学院自动化研究所

中国科学院自动化研究所副研究员、研究生导师,主要研究领域为基于图像的大规模复杂场景三维重建。在IEEE TIP、ISPRS P&RS、CVPR、ECCV等国际期刊和会议发表论文30余篇,主要工作已被三维建模领域主流开源框架OpenMVG和TheiaSfM集成实现。曾获国家自然科学基金青年基金、面上项目、联合重点基金、中科院联合基金和国家重点研发计划等多个国家项目资助。研发的从运动恢复结构(SfM)和视觉定位系统,获华为、荣耀、商汤、滴滴等头部企业实际应用与联合资助。获得2024年中国自动化学会科技进步一等奖,2024年 CCF-CV服务贡献学者称号,CCF-滴滴盖亚青年学者科研基金杰出项目。。

姚遥,南京大学

南京大学智能科学与技术学院准聘副教授、国家级青年人才。本科毕业于南京大学,博士毕业于香港科技大学,曾任Altizure创始团队核心成员,2020年随公司收购加入苹果任高级研究员。主要研究方向为三维重建与生成,代表工作包括MVSNet系列工作、NeILF系列工作以及Direct3D系列工作,谷歌学术引用超5000次,曾获2024年华为公司火花奖、2020年国际模式识别大会最佳学生论文奖。现作为负责人承担国自然海外优青项目、元宇宙专项项目、面上项目以及科技部重点研发计划课题等项目。

许岚,上海科技大学

上海科技大学信息科学与技术学院助理教授、研究员、博士生导师,MARS实验室主任。他的研究方向聚焦于计算机视觉、计算机图形学和计算摄像学,致力于光场智能重建理论与技术,重点关注动静态场景重建与生成、体积视频、神经渲染、惹你他动作分析等等方向。近年来,他率团队研制了系列光场装置,相关研究成果被 ACM TOG、IEEE IJCV、IEEE TPAMI、SIGGRAPH、SIGGRAPH Asia 和 CVPR 等顶级期刊与会议收录,并在 SIGGRAPH 2024 获两项最佳论文奖荣誉提名。

彭思达,浙江大学

浙江大学软件学院“百人计划”研究员,博士生导师,研究方向为三维计算机视觉和计算机图形学。至今在TPAMI、CVPR、ICCV等期刊或会议发表六十余篇论文,谷歌学术引用5600余次,其中一篇一作论文获得CVPR最佳论文提名,成果获得GitHub数万次stars和2024年中国CCF图形开源软件奖;入选斯坦福2024全球Top 2%科学家榜单、2024年中国计算机学会优博(国内计算机领域评选十人);被苹果公司评为2022 Apple Scholar(亚太地区唯一),被华为公司评为2024启真优秀青年学者。

崔兆鹏,浙江大学

浙江大学计算机科学与技术学院“百人计划”研究员、博士生导师,国家级青年人才计划入选者。2017年至2020年在瑞士苏黎世联邦理工学院计算机视觉和几何实验室任高级研究员。研究方向为三维计算机视觉,具体包括三维重建、三维理解、SLAM、三维内容生成和三维运动规划等。近年来在计算机视觉、机器人、计算机图形学、机器学习等领域的顶级期刊和会议上发表论文50余篇,曾主持国家自然科学基金青年基金项目、专项项目等。目前担任Pattern Recognition、IEEE RA-L等国际期刊编委,曾担任领域内顶级会议CVPR、ECCV、IJCAI领域主席,SIGGRAPH程序委员会委员,以及ICRA、IROS副编委等。曾获ICRA 2020机器视觉最佳论文提名、IROS 2021安全、安保和救援机器人最佳论文提名、3DV 2024最佳论文荣誉提名。

段岳圻,清华大学

清华大学电子工程系教研系列助理教授,博士生导师,研究方向为计算机视觉。以第一/通讯作者发表计算机视觉与模式识别领域IEEE 汇刊和CCF-A 类会议论文30 余篇,入选中国科协青年人才托举工程项目,获2024 年中国电子学会自然科学一等奖、2024 年公安部科学技术一等奖、2020 年中国人工智能学会优秀博士论文。主持科技部国家重点研发计划课题、国家自然科学基金青年项目、腾讯犀牛鸟专项基金、苹果公司委托合作技术项目等。担任CVPR 2025,ICCV 2025,MM 2024/2025,ICLR 2024 等国际会议领域主席,TPAMI、IJCV、TIP 等国际期刊的长期审稿人。

明日预告

第四天课程安排(7月10号)
第四天课程安排(7月10号)