GCL学术活动:新加坡国立大学沈佐伟教授、南京大学龙霄潇副教授、上海科技大学马月昕助理教授

2025年4月2日(星期三)下午14:00-17:30,GCL实验室学术报告活动在东区管理科研楼一楼第三教室举行。新加坡国立大学(National University of Singapore)沈佐伟教授受邀作题为“Deep Approximation via Deep Learning”的报告,由实验室陈发来教授主持。南京大学龙霄潇副教授受邀作题为“基于生成式AI的三维建模方法”的报告, 上海科技大学马月昕助理教授受邀作题为“面向具身智能的感知,认识与行为”的报告,由实验室刘雨萌博士后主持。

报告一:Deep Approximation via Deep Learning

沈佐伟老师的报告分为三个部分展开。在第一部分,他详细阐述了他在前期小波变换的研究工作,回顾了在图像去噪领域的一些经典理论与小波变换的联系,并介绍了稀疏优化理论,及其对应的数据驱动的方法。

第二部分,沈佐伟老师先简单介绍了深度学习的数学定义,并重点解析了深度学习中的误差问题,包括优化误差,泛化误差和逼近误差。他指出研究逼近误差的重要性。接着,他介绍了其在一些著名网络结构如残差网络等上的逼近误差研究结果。

针对逼近误差的问题,沈佐伟老师在第三部分详细介绍了他使用激活网络提升普遍逼近率的研究,深入阐述了这个方法与常规逼近率研究的区别,并指出这种方法可以给出网络结构的逼近率的下界。在此基础上,他提出网络“高度”这一概念,即激活网络的层数,这比单一的激活层能更好地提高逼近率。

本次报告系统性介绍了深度学习中的逼近理论,让同学们对深度学习结构与误差有了充分了解。报告结束后,大家积极提问,与沈佐伟老师进行了深入交流与探讨。

报告二:基于生成式AI的三维建模方法

龙霄潇老师的报告从三个部分展开,他首先梳理了三维重建在30年间的发展和对应的代表工作,之后着重讲解了这些不同三维重建技术的优劣,并由此引入了基于生成式AI的三维重建研究,指出现在的研究范式还在探索中,需要更多的投入。

在第二部分,龙霄潇老师详细阐述了以MVSNet和Nerf为代表的数据驱动方法为三维生成领域带来的重大突破,并深入分析了这些工作的核心思路。这些数据驱动的方法通过大规模数据的学习,显著提升了三维生成的精度和效率。然而,他也指出,这些方法在三维一致性和模型合理性上仍然存在一定的局限性,比如生成结果在几何结构和细节保真度上的潜在缺陷。在此基础上,他进一步介绍了生成式AI在三维领域的最新研究成果,重点总结了目前较为常见的两种不同范式:基于多视角生成的方法与三维原生大模型的框架。他特别强调,三维原生大模型由于其对空间几何和语义理解的强大表达能力,可能会成为未来三维生成技术发展的主流趋势,为更逼真、更一致的三维内容生成提供新的可能性。

最后,龙霄潇老师介绍了一些关于视频生成的探索,讨论了未来的研究方向。

本次报告系统性介绍了3D AIGC 的背景,现状与相应的挑战,报告结束后,大家积极提问,与龙霄潇老师进行了深入交流与探讨。

报告三:面向具身智能的感知,认识与行为

马月昕老师首先从人类行为、思想与机器人智能的相似性切入,深入介绍了具身智能的核心概念及其具体目标。她指出,具身智能的一个重要特点是它能够随着与环境的交互而不断进化,这种环境适应性和自我学习能力是具身智能的关键目标之一。

接下来,马月昕老师详细阐述了具身智能的重要组成部分–多模态感知的研究,以及如何利用多模态信息实现人群中细粒度的交互重建。她强调,多模态感知能够有效融合不同传感器的多源数据,从而为智能体提供更全面的环境理解与交互能力。在这一研究方向上,她展示了他们团队的最新成果,通过丰富的视频案例,生动演示了如何在巡航机器人视角下,实时地对场景中人群复杂而丰富的交互行为进行精确的感知与重建。这些工作不仅体现了具身智能在捕捉人类行为细节中的潜力,也展示了其在推动智能交互领域发展的重要作用。

随后,马月昕老师深入讲解了智能认知的几个层次,并着重介绍了大语言模型与具身智能结合的创新应用,特别是在自动驾驶领域的实践。她指出,通过将大语言模型的因果推理、逻辑推理引入具身智能系统,可以显著增强智能体的泛化能力从而全面提升其性能。

最后,马月昕老师展示了如何将感知、认知与行动有机结合,构建一个闭环的动态智能体系。她分享了利用增强现实(AR)技术与虚拟机器人交互的最新研究成果,阐明了如何通过人类反馈优化具身智能的训练过程。这一闭环体系不仅提高了智能体的自主学习能力,还为未来研究提供了新的思路。她在演讲的尾声,对具身智能领域的未来发展方向展开了深入讨论,鼓励同学们探索更加高效、具备自适应能力的智能系统设计。

本次报告系统性介绍了具身智能的最新进展,重点聚焦于感知,认识及行动方面的技术突破,梳理了此领域面临的挑战,并讨论了未来研究方向。报告结束后,大家积极提问,与马月昕教授进行了深入交流与探讨。

通过下方链接可获取马月昕老师和龙霄潇老师分享的PPT:

https://rec.ustc.edu.cn/share/c24f4910-0fda-11f0-af41-4b8df14b645d

密码:b11v

讲者简介

沈佐伟,新加坡国立大学杰出讲席教授,数学科学研究所所长。他的研究方向为数据科学的数学基础,包括逼近与小波理论、图像处理与压缩感知、计算机视觉和机器学习等领域。沈教授是发展中国家科学院院士、新加坡科学院院士,同时还是美国工业与应用数学协会和美国数学学会的会士。他曾应邀在2010年国际数学家大会(ICM)和2015年国际工业与应用数学大会(ICIAM)做特邀报告。

龙霄潇,南京大学智能科学与技术学院副教授,南京大学紫金学者,国家级青年人才项目(海外)入选者。 2023年博士毕业于香港大学计算机系,导师为王文平教授 (IEEE & ACM Fellow) 和Komura Taku教授; 2018年本科毕业于浙江大学控制科学与工程学院。本人长期关注三维重建与生成、空间智能等方向的研究,近5年在TPAMI / CVPR / SIGGRAPH等国际顶级计算机视觉与图形学期刊会议上发表文章三十余篇,其中第一作者与通讯作者论文19篇,获得授权国家专利一项。谷歌学术总引用量2000余次,开源项目在github平台累积获得超1.4万次星标关注。在三维生成领域有SyncDreamer、Wonder3D、Craftsman3D等系列工作,其中Wonder3D工作在github开源平台获得5000次星标关注,在Huggingface平台获15万次访问运行。

马月昕,上海科技大学研究员、助理教授、博导,博士毕业于香港大学。主要研究方向为三维视觉、具身智能、自动驾驶。共发表相关领域顶会或顶刊论文80余篇,其中一作与通讯论文40余篇,包括Science Robotics、TPAMI、CVPR、ICCV、ECCV、SIGGRAPH、AAAI等,谷歌学术引用近5000次。参与指导的论文获MICCAI 2024唯一最佳论文奖,ACM MM 2024最佳论文候选。曾获上海市海外高层次人才,上海市优秀教学成果(高等教育类)一等奖,曾获SemanticKITTI、NuScenes、Argoverse等多个国际自动驾驶挑战赛冠军和亚军。