课程导论与3D表达概览 刘利刚,中国科学技术大学 08:30-08:40 |
- 3D几何的应用领域及重要性
- 实(CAD、工业制造、3D打印等)
- 虚(游戏、影视、VR、AIGC等)
- 虚实结合(AR/XR、数字孪生、机器人、自驾等)
- 3D表达的应用需求与评价维度
- 显式与隐式
- 几何与外观
- 精确与高效
- 可编辑与可生成
- 可渲染与可分析
- 3D表达的演化史
- 解析表达(NURBS、SDF)
- 离散表达(Mesh/Points、Voxels)
- 生成表达(NeRF、3D Gaussian、Generative AI)
|
传统几何表达 傅孝明,中国科学技术大学 08:40-09:10 |
以传统几何表达为核心,系统梳理三维形状的经典描述方式、关键技术与转换机制。
- 离散表达
- 点云:无结构采样点集
- 体素:规则三维网格
- 八叉树:自适应空间剖分
- 网格:三角面片与半边结构
- 参数化表达
- 边界表示与CSG
- NURBS样条曲面
- 参数驱动与特征建模
- 隐式表达
- 符号距离函数(SDF)
- 水平集等值面
- Marching Cubes提取
- 几何的表观属性表达
- 颜色与纹理贴图
- 材质与BRDF模型
- UV映射与顶点颜色
- 各种表达的相互转换
- 点云转网格
- CAD曲面离散化
- 隐式曲面多边形化
- 网格体素化与简化
- 多表达融合流程
|
三维扫描与重建:从两视图立体匹配到前馈式三维恢复 崔兆鹏,浙江大学 09:10-09:50 |
- 三维采集设备与数据获取
- 两视图立体匹配与多视角几何
- 点云处理与 Mesh 建模
- SfM 与 SLAM 三维重建
- 数据驱动的三维重建方法
|
3D形状理解与分析 郭裕兰,中山大学 10:00-10:40 |
- 绪论——3D形状理解与分析任务:形状分割、识别、分类、匹配、检索、补全
- 传统3D特征描述子
- Spin Image
- SHOT
- RoPS
- 3D SIFT
- MLP/CNN架构的3D表征学习
- 点云特征学习:PointNet、PointNet++、Point CNN
- 网格特征学习:MeshCNN
- 体素特征学习:3D CNN、OctNet
- 投影图特征学习:MVCNN
- Transformer架构的3D表征学习
- 点云特征学习:PointTransformer、Point Cloud Transformer (PCT)
- 网格特征学习:Mesh Transformer
- 体素特征学习:Voxel Transformer
- 总结与展望
|
城市场景结构化三维重建 申抒含,中科院自动化所 10:40-11:20 |
了解大规模城市场景结构化三维建模在结构表征、重建方法、行业应用方面的挑战和进展。
- 城市场景结构化表征:线元、面元、隐式等
- 解析式结构化重建:基于解析计算和全局优化的重建方法,LIMAP、City3D、FloorUSG等
- 检测式结构化重建:基于基元检测和结构回归的重建方法,PC2WF、PBWR、BWFormer等
- 生成式结构化重建:基于扩散模型和自回归模型的重建方法,Point2Building、EdgeDiff、BuildingGPT等
- 结构化重建行业应用:实景三维城市、轻量化视觉定位等
|
3D扫描与重建在工业界的技术发展与应用 江腾飞,杭州先临 11:20-11:50 |
- 工业界中的三维重建问题
- 常用三维重建方法与应用
- 智能重建方法展望
|
交互式三维设计与建模 王泽宇,香港科技大学(广州) 14:30-15:10 |
了解人机交互式三维设计与建模的基本概念与发展脉络,理解CAD建模、草图建模、雕刻建模等建模方式的技术路径。
- 三维建模的定义:人类设计师的先验与几何约束的结合
- CAD建模:从二维曲线到三维形状,拉伸、旋转、扫掠、放样,参数化建模,基于网格编辑的直接建模
- 基于草图的建模:自由形状的三维设计,Teddy草图系统,从轮廓线条膨胀出三维表面,视角与几何先验,cross-section与表面曲率场的优化,基于深度学习的方法
- 编辑与变形:自由网格变形,基于微分坐标的编辑,基于skeleton和cage等代理的编辑,skinning与网格变形和动画
- 三维雕刻与细节建模:雕刻笔刷的几何定义,向量变形场,物理雕刻与数字雕刻,生成式AI赋能的三维雕刻,ZBrush、Mudbox等工具
- 其他建模方式:过程式建模,分形、L-systems,基于物理的建模
- 三维建模工具与展望:CAD建模工具SolidWorks, AutoCAD, Rhino, Catia,网格建模工具Blender, 3D Max,
Maya,草图建模工具SketchUp等
|
神经几何表达:几何与外观耦合 陈安沛,西湖大学 15:10-16:00 |
- 新视角合成与场景表示
- 神经辐射场(Neural Radiance Fields)
- 体渲染原理与神经表达
- 训练、渲染与几何提取
- 动态场景重建
- 高斯泼溅(3D Gaussian Splatting)
- 高斯基元表示与光栅化原理
- 压缩、渲染与几何提取
- 动态场景重建
- 前馈式新视角合成
- 显式表征驱动的前馈式建模
- 无显式表征驱动的前馈式建模
- 课程总结与讨论
- 几何与外观耦合建模的挑战
- 新视角合成的未来方向讨论
|
鸿蒙空间化和3DGS创新在鸿蒙上的0到1商用 黄然,华为 16:00-16:30 |
鸿蒙系统从2019年发布至今,已经成功在华为手机上实现了6000万商用的突破,从跳越生死线进入到创新阶段。而3DGS技术在鸿蒙空间化战略上发挥了重要作用,成为吸引消费者的关进技术,从Remy到3D空间影像壁纸,从空间影像壁纸到更多鸿蒙生态应用。本课程通过介绍鸿蒙空间化方舟图形引擎和3DGS的实践落地,让同学们学到从一个图形技术到商用落地的全过程。
- 鸿蒙空间化与方舟图形引擎介绍
- 方舟图形引擎的整体架构与三大用户体验
- 3DGS技术介绍与商用落地(含Remy、空间影像壁纸)
- 未来空间化技术展望
|
三维生成模型 (1) 王鹏帅,北京大学 张彪,西安交通大学 16:40-17:40 |
- VAE:从连续潜空间生成三维形状
- 编码器:将数据压缩为潜变量分布
- 解码器:从潜变量重建数据
- 重参数化技巧:使随机采样过程可反向传播
- KL散度约束:使潜空间接近标准高斯分布
- 重建损失:保证生成结果接近原始数据
- GAN:从对抗学习到高真实感生成
- 生成器:从随机噪声生成样本
- 判别器:区分真实样本与生成样本
- 对抗损失:推动生成结果逼近真实数据分布
- 训练不稳定性:GAN的经典难点
- 自回归模型(Auto-Regressive Model):将生成过程转化为逐token预测
- 序列建模
- 条件概率分解
- Transformer结构
- Next-token prediction(下一个token预测)
- 扩散模型:从噪声中逐步恢复三维结构
- 前向过程:逐步向数据加入高斯噪声
- 反向过程:学习如何从噪声逐步还原数据
- 模型可预测噪声、干净样本或score
- Flow Matching:从逐步去噪到学习连续生成路径
- 连续时间生成模型
- ODE视角
- 概率路径
- 从噪声分布到数据分布的传输过程
- 与扩散模型的统一关系
- 基础表征:体素(Voxel)、点云(Point Cloud)、多边形网格(Polygonal Mesh)
- 隐式场表征:占用场(Occupancy)、符号距离场(SDF)、神经辐射场(NeRF)、三平面(Triplane)
- 集合表征:VecSet(向量集合),将三维形状编码为无序向量集合
- 稀疏体素:Octree、SLAT、O-Voxel(TRELLIS.2)等方法,缓解传统体素的内存开销问题并支持高分辨率生成
- 效果与效率对比:从几何精度、纹理质量、拓扑灵活性、推理速度和训练成本五个维度比较各类表征的优劣
|
三维生成模型 (2) 张彪,西安交通大学 王鹏帅,北京大学 08:30-09:30 |
- 经典探索期(2016-2022):从直接生成到隐式表示
- 早期直接生成方法
- 隐式表示革命
- 关键突破:证明隐式表示能够生成高质量连续表面
- SDS阶段(2022-2023):利用二维先验缓解三维数据匮乏问题
- 核心原理:Score Distillation Sampling(SDS)利用预训练二维扩散模型指导三维表示优化
- 代表模型:DreamFusion、Magic3D等
- 局限性:每个样本需要单独优化(分钟级),且存在多视角不一致、几何细节不足等问题
- 多视角扩散阶段(2023-2024):前馈大模型涌现
- 核心思想:先生成一致的多视角图像,再通过前馈重建模型得到三维结构
- 代表模型:Instant3D、Wonder3D、InstantMesh等
- 技术特点:推理速度大幅提升(10秒内),可批量生成,但几何精度仍有提升空间
- 原生三维生成大模型(2023-2025):面向生产级应用的两条路线
- 路线一:基于稀疏体素的方法;优势是天然支持空间结构,代表模型包括TRELLIS v1/v2、Sparc3D
- 路线二:基于VecSet的方法;优势是表示紧凑、训练高效、几何细节丰富,代表模型包括3DShape2VecSet、CLAY、Hunyuan3D、TripoSG
- 多边形网格直接生成(2025年至今):端到端生产级资产生成
- 核心挑战:直接生成拓扑正确、结构合理、面数高效的三角形网格
- 代表模型:PolyGen、MeshGPT等
- 技术意义:直接输出可用于游戏、影视和工业设计的标准网格格式,减少后处理,更接近端到端生产流程
- 表征融合趋势:稀疏体素与VecSet结合、网格与隐式表示统一
- 效率与质量的平衡:从“能生成”走向“生成得又快又好”
- 生产级需求:水密性、拓扑正确性、PBR材质支持和可编辑性
- 未来方向:4D动态生成、大规模场景生成、交互式编辑和多模态统一生成
|
3D大模型:从物体生成到世界模型 王腾飞,腾讯混元 09:30-10:00 |
理解工业管线中对3D生成模型的需求,理解3D物体生成的前沿进展,理解3D世界模型的前沿方向。
- 腾讯混元大模型介绍
- 混元3D:3D物体生成的进展与应用
- 混元World:3D世界模型的进展与应用
- 总结与展望
|
装配体和关节可动对象生成技术 穆亚东,北京大学 10:10-10:50 |
了解和掌握近年来装配体和关节可动对象生成的最新技术。
- 任务概述和基础技术介绍
- 图网络与序列生成
- 基于扩散模型的端到端生成
- 基于多模态大模型和智能体的装配生成
|
基于生成式AI的三维场景生成 盛律,北京航空航天大学 10:50-11:30 |
理解三维场景生成的主要流程与关键挑战,熟悉基于多模态学习与智能体推理的三维场景生成研究范式。
- 三维场景生成的基本任务与主要挑战
- 基于多模态学习的三维场景生成:从文本、图像或者视频生成符合视觉、语义与结构需求的三维场景,包含单一场景生成与组合式场景生成等
- 基于智能体推理的三维场景生成:LLM/VLM等智能体驱动的设计意图理解、任务拆解与方案规划,以及三维资产生成、空间约束推理、布局生成与优化、迭代反馈修正等
- 趋势与展望:从静态三维场景走向动态四维场景生成,从视觉与几何建模走向物理与语义内生嵌入,以及实际应用落地等方面的趋势与发展方向
|
教 AI 摆放世界:可控三维物体摆放与场景生成 刘中远,腾讯游戏 11:30-12:00 |
让 AI 学会构建一个可交互、可沉浸的虚拟世界,是计算机图形学、人工智能与艺术设计交叉地带最激动人心的方向之一。本课程会先用少量篇幅,带大家俯瞰 AI
生成虚拟世界、世界模型与艺术创作的整体图景,然后把镜头聚焦到其中一个最基础、也最关键的具体问题——三维场景中的物体摆放。围绕这个问题,课程将依次讲解:场景搭建如何被建模为"单物体迭代摆放";为什么基于有向包围盒的传统表示难以处理支撑、包含、避碰等精细几何约束;以及如何用一个几何感知的多模态语言模型——直接以点云感知物体与场景的几何、自回归预测物体的
6D 位姿——来突破这一瓶颈,并通过"规划—摆放—验证"的智能体闭环,实现文本驱动的自动场景生成。
整体上,课程将依次覆盖问题的建模、几何感知模型的设计、训练数据的构建,以及实验与评估,并结合具体案例展示物体摆放与自动场景生成的实际效果。
|
面向具身智能的三维生成、世界模型与自主进化 穆尧,上海交通大学 14:30-15:30 |
了解3D表达、建模与生成在具身智能中的核心作用,理解生成式3D技术如何支撑具身仿真、世界模型和机器人自进化系统,掌握从三维场景/资产生成到仿真数据引擎、世界预测与策略学习闭环的基本思路。
- 3D生成 for 具身仿真:多样化场景生成、可交互物体资产生成、物理属性标注、功能区域标注、抓取点标注与仿真可用数字孪生构建
- 具身仿真数据引擎:以RoboTwin、ManiTwin、Rein3D等为例,介绍任务场景自动构建、专家数据生成、领域随机化、仿真到现实迁移,以及面向双臂、灵巧手和人形机器人的仿真平台
- 世界模型驱动的动作生成:介绍World Action Model、Video-Action Model、VLA-World
Model等路线,理解视频预测、未来状态想象、逆动力学模型和动作解码之间的关系
- 具身智能体自进化:介绍“环境生成—数据生成—模型训练—进展评估—失败诊断—策略改进—真实验证”的闭环系统,讨论生成式仿真、强化学习、基础模型和智能调度Agent如何共同推动机器人持续进化
|
3D生成大模型的表征之路 贾荣飞,数美万物 15:40-16:10 |
- 问题与核心挑战:3D生成为何比2D难一个数量级
- 四次表征跨越:SDS蒸馏时代 → 多视图+稀疏视角重建时代 → 3D原生时代 → Sparse Voxel时代
- 3D几何大模型:Sparc3D——业内首个1536³分辨率3D几何大模型
- 原生纹理大模型与语义分割:Hitem3D 2.0——业内首个原生3D纹理生成框架与最优3D语义分割
- 最新效果与生产闭环:几何、纹理、分割全链路效果展示,从单张图像到3D打印的端到端演示
- 3D大模型现状与未来:竞争格局、表征核心变量
|
融合经典与前沿:生成式三维建模与全栈架构实践 曹炎培,VAST 16:10-16:40 |
近年来,随着生成式人工智能的爆发,三维几何表达与建模技术正经历一场底层范式的重构。传统的离散几何表征(如多边形网格)与现代神经网络隐式表达在生成式架构中发生了深度的碰撞与融合。本课程旨在系统梳理
3D 生成技术的发展脉络,探讨如何打破生成速度、质量与工业管线可用性之间的“不可能三角”。课程将从底层三维原生表征出发,多层递进,剖析结构化重拓扑、语义解耦与自动化绑定等关键图形学问题的 AI
解决路径,并拓展至场景生成与交互式世界模型,为学员建立一个从单体资产生成到可交互世界的统一概览。
- 三维表达的演进与生成式架构的重构
- 从优化到前向推断:3D 生成的范式转移
- 现代神经表征与原生 3D 生成
- 打通图形学管线:从“数字雕像”到工业级结构化资产
- 可编辑性与语义解耦
- 生成几何的自动化拓扑
- 纹理与材质的全局一致性
- 赋予资产动态潜能:自动骨骼绑定与运动推演
- 跨越单体数字资产
- 总结与 Q&A
|
迈向工业可用的3D生成 许家乐,Meshy 16:40-17:10 |
理解3D生成从“视觉可看”走向“工业可用”的关键问题,掌握高模生成与低模生成的主要技术路线及未来挑战。
- 背景知识:3D表征与生成模型
- 更精细:高模生成技术路线
- 基于多视角重建的方法(LRM, Instant3D, InstantMesh, FreeSplatter)
- 基于3D原生扩散模型的方法(3DShape2Vecset, TRELLIS, Lattice)
- 更可用:低模生成技术路线
- 基于自回归模型的方法(MeshGPT, MeshXL, BPT, TreeMeshGPT, MeshWeaver)
- 基于扩散模型的方法(SpaceMesh, MeshFlow, MeshCraft, Lato)
- 3D生成的挑战与未来趋势
|