GCL学术成果：CVPR 2026-解耦姿势×表情双控！DeX-Portrait 解锁高可控性的肖像动画

3月 15, 2026 1 分钟阅读时长

近日，CVPR 2026 论文录用结果正式公布，中国科学技术大学数学科学学院GCL实验室和华为、南京大学的研究团队提出全新肖像动画生成方法——DeX-Portrait，首次实现头部姿势、面部表情与身份特征的高保真解耦控制，为仅表情编辑、仅姿势编辑等肖像动画应用提供全新解决方案。

困局：从高保真到高可控的肖像驱动

想象一下，你手里有一张老照片。照片里的人看着你，但一切都静止了。

你多么希望，能让它重新动起来——转转头、眨眨眼、露出那个熟悉的笑容。

这，就是肖像动画的梦想。

扩散模型让肖像"活"了过来，却有一个致命缺陷：

头部姿势、面部表情、身份特征，三者像被绑在一起的绳子，牵一发而动全身。

想让照片中的人只改变表情、保持姿势不变？做不到。

想只调整头部角度、保留原有表情？还是做不到。

精细化创作场景，被挡在了技术的高墙之外。

破局：从"牵一发而动全身"到"解耦即自由"

我们的研究团队，问了一个简单却深刻的问题：

“为什么一定要绑在一起？"

DeX-Portrait 由此诞生。

他们像解毛线团一样，把运动信号一根一根拆开：

头部姿势 → 显式的RTS全局变换，独立控制；

面部表情 → 隐式潜码，精准捕捉；

身份特征 → 在生成中牢牢守住；

解耦，意味着自由。

现在，你可以让照片中的人只笑一笑，头不动；也可以让他只转转头，表情不变。

拆解难题：运动训练器的设计

团队面对的第一个问题是：如何让姿势和表情"分家”？

想象你在调一台老式收音机。频道和音量两个旋钮混在一起，想调音量，频道也跟着变——这就是当时肖像动画的困境。

研究团队决定，从头开始重建这套"控制系统"。

团队设计了一个基于GAN的运动训练器，它的工作方式像一位细心的"分拣员"：

第一步，通过对3D潜特征的全局RTS变形，把头部姿势信息"刻"进去；

第二步，通过AdaIN方法，把表情向量"注"进去——嘴角上扬、眉毛微挑，精准捕捉；

第三步，搭配一系列图像增强策略，像给两个信号加上"隔离墙"，强化它们的独立性。

最终输出的，是精准、完全解耦的姿势与表情驱动信号。

“就像把混在一起的红蓝两色墨水，重新分离成两瓶纯净的颜料。”

拆解难题：组合控制

信号有了，下一个难题是：如何把它们送进扩散模型，还不互相干扰？

这是之前没人解决的问题。表情向量注入时，总会"污染"姿势控制；姿势变换时，又容易"带走"表情信息。

团队首次提出了双分支姿势注入机制，像修了两条独立的高速公路，

第一分支：RTS→光线图→与噪声输入拼接，直接告诉模型"头往哪转"；

第二分支：RTS→变形参考网络中间特征→与去噪网络特征拼接，从内部校准姿势生成。

双管齐下，精准控制。

更重要的是，表情向量从此不再产生干扰。它通过交叉注意力独立注入，走自己的通道。

最后的打磨：采样方式的重构

框架搭好了，生成效果还有最后一道关卡：身份一致性。

有时候，姿势和表情都对了，但生成的脸"不像同一个人"。这是扩散模型的老问题。

受FLOAT工作启发，团队在去噪阶段提出了渐进式CFG策略。

它的工作方式像一位耐心的画家：

“不是一笔涂完，而是一层一层上色。先确定姿势，再融入表情，每一步都让身份特征更稳固。”

通过分步融入姿势与表情条件，生成结果的身份一致性显著提升。

结语

团队在跨身份驱动与解耦驱动两大核心场景，与当前 SOTA 方法开展定量、定性对比实验。结果表明，DeX-Portrait 在真实场景中展现出最优的表现力与泛化能力，生成效果全面超越现有基线方法。

DeX-Portrait 突破了现有肖像动画生成的解耦控制瓶颈，为数字人创作、视频编辑、虚拟形象驱动等场景提供了高质量、高可控的技术方案，也为扩散模型在细粒度生成任务上的应用提供了新思路。

论文发表

该工作已被计算机视觉顶级会议CVPR 2026录用。CVPR是计算机视觉与模式识别领域的顶级国际会议（CCF-A类），2026年录用率约为25.42%。

论文原文

论文标题：DeX-Portrait: Disentangled and Expressive Portrait Animation via Explicit and Latent Motion Representations

作者：施羽翔¹，李哲²，王彦文³，朱昊³，曹汛³，刘利刚¹

单位：¹中国科学技术大学，²华为，³南京大学

项目主页：https://syx132.github.io/DeX-Portrait/

论文原文：https://arxiv.org/abs/2512.15524

GCL学术成果