GCL学术成果:CVPR 2026-解耦姿势×表情双控!DeX-Portrait 解锁高可控性的肖像动画

近日,CVPR 2026 论文录用结果正式公布,中国科学技术大学数学科学学院GCL实验室和华为、南京大学的研究团队提出全新肖像动画生成方法——DeX-Portrait,首次实现头部姿势、面部表情与身份特征的高保真解耦控制,为仅表情编辑、仅姿势编辑等肖像动画应用提供全新解决方案。

图片

图片

困局:从高保真到高可控的肖像驱动

想象一下,你手里有一张老照片。照片里的人看着你,但一切都静止了。

你多么希望,能让它重新动起来——转转头、眨眨眼、露出那个熟悉的笑容。

这,就是肖像动画的梦想。

扩散模型让肖像"活"了过来,却有一个致命缺陷:

头部姿势、面部表情、身份特征,三者像被绑在一起的绳子,牵一发而动全身。

想让照片中的人只改变表情、保持姿势不变?做不到。

想只调整头部角度、保留原有表情?还是做不到。

精细化创作场景,被挡在了技术的高墙之外。

图片

破局:从"牵一发而动全身"到"解耦即自由"

我们的研究团队,问了一个简单却深刻的问题:

“为什么一定要绑在一起?"

DeX-Portrait 由此诞生。

他们像解毛线团一样,把运动信号一根一根拆开:

头部姿势 → 显式的RTS全局变换,独立控制;

面部表情 → 隐式潜码,精准捕捉;

身份特征 → 在生成中牢牢守住;

解耦,意味着自由。

现在,你可以让照片中的人只笑一笑,头不动;也可以让他只转转头,表情不变。

图片

拆解难题:运动训练器的设计

团队面对的第一个问题是:如何让姿势和表情"分家”?

想象你在调一台老式收音机。频道和音量两个旋钮混在一起,想调音量,频道也跟着变——这就是当时肖像动画的困境。

研究团队决定,从头开始重建这套"控制系统"。

团队设计了一个基于GAN的运动训练器,它的工作方式像一位细心的"分拣员":

第一步,通过对3D潜特征的全局RTS变形,把头部姿势信息"刻"进去;

第二步,通过AdaIN方法,把表情向量"注"进去——嘴角上扬、眉毛微挑,精准捕捉;

第三步,搭配一系列图像增强策略,像给两个信号加上"隔离墙",强化它们的独立性。

最终输出的,是精准、完全解耦的姿势与表情驱动信号。

“就像把混在一起的红蓝两色墨水,重新分离成两瓶纯净的颜料。”

图片

拆解难题:组合控制

信号有了,下一个难题是:如何把它们送进扩散模型,还不互相干扰?

这是之前没人解决的问题。表情向量注入时,总会"污染"姿势控制;姿势变换时,又容易"带走"表情信息。

团队首次提出了双分支姿势注入机制,像修了两条独立的高速公路,

第一分支:RTS→光线图→与噪声输入拼接,直接告诉模型"头往哪转";

第二分支:RTS→变形参考网络中间特征→与去噪网络特征拼接,从内部校准姿势生成。

双管齐下,精准控制。

更重要的是,表情向量从此不再产生干扰。它通过交叉注意力独立注入,走自己的通道。

最后的打磨:采样方式的重构

框架搭好了,生成效果还有最后一道关卡:身份一致性。

有时候,姿势和表情都对了,但生成的脸"不像同一个人"。这是扩散模型的老问题。

受FLOAT工作启发,团队在去噪阶段提出了渐进式CFG策略。

它的工作方式像一位耐心的画家:

“不是一笔涂完,而是一层一层上色。先确定姿势,再融入表情,每一步都让身份特征更稳固。”

通过分步融入姿势与表情条件,生成结果的身份一致性显著提升。

图片

结语

团队在跨身份驱动与解耦驱动两大核心场景,与当前 SOTA 方法开展定量、定性对比实验。结果表明,DeX-Portrait 在真实场景中展现出最优的表现力与泛化能力,生成效果全面超越现有基线方法。

图片

图片

DeX-Portrait 突破了现有肖像动画生成的解耦控制瓶颈,为数字人创作、视频编辑、虚拟形象驱动等场景提供了高质量、高可控的技术方案,也为扩散模型在细粒度生成任务上的应用提供了新思路。

论文发表

该工作已被计算机视觉顶级会议CVPR 2026录用。CVPR是计算机视觉与模式识别领域的顶级国际会议(CCF-A类),2026年录用率约为25.42%。

论文原文

论文标题:DeX-Portrait: Disentangled and Expressive Portrait Animation via Explicit and Latent Motion Representations

作者:施羽翔¹,李哲²,王彦文³,朱昊³,曹汛³,刘利刚¹

单位:¹中国科学技术大学,²华为,³南京大学

项目主页:https://syx132.github.io/DeX-Portrait/

论文原文:https://arxiv.org/abs/2512.15524