天天观察：小布虚拟人与多模态技术演进

2023-05-06 12:52:56 来源：DataFunTalk

导读今天的分享题目是《虚拟人、多模态和通用智能之间的联系》。

【资料图】

主要包括以下四大部分：

1. 小布虚拟人技术进展

2. 小布多模态技术进展

3. 通用智能之我见

4. 三者之间的联系

分享嘉宾｜郑志彤 OPPO 多模态学习负责人

编辑整理｜kiki 时尚星

出品社区｜DataFun

小布虚拟人技术进展

1. 虚拟人语音驱动

这个场景主要是支持小布在手机端侧的虚拟人驱动，我们自研了 Audio2Lip 和 Sing2Lip。

Audio2Lip 的端侧算法，支持了小布 7 个 AVATARs 形象，满足了业务的需求，在能耗、实时性、唇形精度、MOS 等相关指标上达到了行业前沿水平。Sing2Lip 也实现了端侧和云侧两种算法。端侧，在 Audio2Lip 的基础上，加入了一些音乐的节奏信息，这样驱动的点位就会更准确。云侧，实现了 Audio2Mesh 的版本，通过语音直接驱动整个人脸，包括人脸的微表情。

对于比较简单的卡通形象的端侧级别的驱动算法，我们采用的是一对一的算法。在云侧如果驱动类真人形象，其面部表情会更丰富，就不能用一对一的算法，而是用多对多，有上下文的这种算法来实现，这样才能够驱动一些微表情。

2. 虚拟人 RGB 驱动

虚拟人 RGB 驱动，是用一个摄像头来拍一个本人，再来驱动 AVATAR。

最初的想法比较简单，先检测到人，然后做人脸重建，人手重建，人体重建。但是跑起来之后发现了两个问题：人体飘移和穿模。后面通过一些物理模型，一些端到端的算法，以及一些人体 Motion 的 retargeting 来解决这两个问题，最后达到了一个不错的效果。

3. 虚拟人创建

在虚拟人创建方面，我们走通了 4D 扫描创建类真人的流程，同时做了一些算法的加速，使得时间可以接受。最后还需要美工加一些细节的修饰，才能达到一个可用的程度。

4. NERF

我们还探索了一些 NERF，去创造了一些环境的素材，调研了 NERF 的一些最新的实时算法。之前 NERF 的主要问题是实时性差，而且效果上面有很多瑕疵。

小布多模态技术进展

1. CETNETs

我们发表了一篇 ECCV 的论文，在 CV 的 VIT 主干网络上面做了一些创新。目前可以达到 SOTA 的水平。

创新主要有两点： 一个是宏观上的创新 Convolutional Embedding，另一个是 Transformer blocks 里面的微创新。 这两个创新也可以用在其它的 VIT 架构上。

2. 跨模态匹配

我们把这个创新用到了多模态训练上面。目前我们的多模态训练采用了双塔的架构，主要是用在跨模态检索的场景。一些算法能够在同样参数量的情况下超过 Wukong。除了前面讲的两点创新，在数据增强和 label smoothing 上也做了微创新。

3. AIGC

在 AIGC 方面，基于 GANs、VAEs 和 Diffusion Models 构建了一个适用于多种场景的 AIGC 算法库。在具体落地上，我们用 AIGC 算法生成了一个 2D 的数字员工的照片。最近又用 Diffusion Models 做了一些孵化的项目。在局部还做了一些微创新，比如生成一个人体，脸部经常会有一个恐怖谷的效应。我们采用了局部再生成的技术，大幅提升了脸部的生成效果。

通用智能之我见

接下来分享一些个人在通用智能方面的看法。

首先，AI 发展到当前，进入了一个瓶颈期。AI 工程与原来的软件工程是不一样的。比如，在 AI 工程中可能做了很多补丁，还做了大量的实时监控来监测模型是否飘移，大量的数据标定，最后发现数据标定占 60% 以上的成本。上线之后依然需要收集更多的信息不断地去更新。

AI 工程化主要是在真实场景中实现以人为中心的可重复扩展的健壮且安全的人工智能应用的开发工具、系统和过程，它是系统工程、软件工程和计算机科学的交叉学科。在健壮方面，大家都看好大规模预训练，然后再到小场景去做 finetuning。在可重复扩展上面，大家比较看好模型自动化模型压缩技术，比如基于 NaaS 实现一体化的模型压缩。在以人为中心的角度，大家提出了 AI 伦理的设计，有些信息的采集必须经过用户的同意，并且要保证用户信息的安全。

现在，模型出的越来越大，这些特别大的模型就形成了托勒密体系。

托勒密体系认为，地球位于宇宙中心附近的一点上，月亮、太阳和恒星都在以宇宙中心为圆心的圆轨道上运行，五大行星在绕以某一几何点为圆心的本轮上做匀速圆周运动。开始有 34 个本均轮，后来为了提高天文的观察精度，提高到了 80 多个，甚至更多。它能够把观察到的数据拟合得很好。但它和实际的物理规律没有太多关系。类似于现在的超大模型，尽管拟合数据方面特别好，但是在物理规律揭秘的程度上面偏离了很多，在实际部署上也存在很大问题。

要突破瓶颈，AI 需要遵循物理理解+逻辑理解。

比如当一个数据表征满足一个因果图时，因果关系、不变性和 OOD 泛化是等价的。OOD 就是同样一个物理体系产生出来的数据，有可能是跟原来积累的数据分布式是不一样的，但它是同样一个物理体系产生的。理论上要求以前的模型在同样物理体系产生的 OOD 上也应该是 work 的。但现在的超大规模的预训练模型可能无法解决这个问题。必须要在数据表征上面，网络框架上面，还有一些训练技巧上面，更加贴近物理的理解和逻辑的理解，这样才能用更少的样本、更少的参数来实现数据的拟合。从而使 OOD 泛化性能更好。

三者之间的联系

最后谈一下虚拟人、多模态和通用智能三者之间的联系。

小布以前是语音助手，后来发展出虚拟人，具备多模态感知和多模态对话能力。又发展到机器人，后面机器人使用某些工具。

虚拟人是多模态认知的一个方面，相当于小布给大家展示一个门面出来，多模态感知就是给小布助手输入各种各样的信息，输出各种各样的图片出来。

多模态是实现通用人工智能的关键之一，分为 多模态对齐、多模态融合、多模态生成。

最后，将三者之间的联系总结如下：

（1）虚拟人是人体外形模态信息的抽取和再创造，它是一种 3D 模态信息，虚拟人语音控制和 RGB 控制本身就是多模态对齐，是通用智能的门户之一。

（2）多模态是实现通用智能的关键技术之一，多模态对齐和多模态融合是通用智能感知鲁棒的必由之路，和人的感知一样，眼见和耳听都能对上，信息才有可能是真的。多模态生成天然成了通用智能数据增强的一种手段。

（3）通用智能必然要达到物理理解和逻辑理解，虚拟人和多模态是物理理解的关键环节。

今天的分享就到这里，谢谢大家。

关键词：