绮乐网

谷歌揭示新增强现实动画《

梅全网络

.》背后的人工智能技能

YouTube Stories之类的应用程序所覆盖的动画面具、眼镜和帽子都非常漂亮,但它们怎么看起来这么真实呢?好吧,感谢谷歌人工智能研究部门今天早上发布的深潜,它没有之前那么神秘了。

在博文中,山景城的工程师将Stories的核心技术和ARCore的Augmented Faces API描述为AI技术,他们说可以模拟光线反射、模型人脸遮挡、模型镜面反射等等——这些都是实时相机。

“使这些AR功能成为可能的关键挑战之一是正确地将虚拟内容锚定到现实世界,”谷歌人工智能的Artsiom Ablavatski和Ivan Grishchenko解释道。“这个过程需要一种独特的感知技术来跟踪每一个微笑。皱眉或傻笑有一个高度动态的表面几何。

谷歌的增强现实(AR)管道,由谷歌的轻量级、移动和嵌入式机器学习框架TensorFlow Lite实现,用于硬件加速处理(如果可用),包括两个神经网络(即生物模拟的数学功能层)神经元。第一个检测器对相机数据进行操作并计算面部位置,而第二个3D网格模型使用位置数据来预测表面几何形状。

为什么采用双模方式?Ablavatski和Grishchenko说,有两个原因。首先,它“大大减少”了使用合成数据来增加数据集的需求,它允许AI系统使用其大部分容量来准确预测网格坐标。阿布拉瓦茨基和格里先科说:“(这两者)对于虚拟内容的正确定位非常重要。”。

下一步是使用平滑技术将网格网络一次性应用于单帧相机镜头,以最大限度地减少滞后和噪声。网格从剪辑的文章帧生成,并预测标记的真实世界数据上的坐标,提供3D点位置和面部存在的概率以及帧内的“合理对齐”。

AR pipeline的最新性能和精度提升来自最新的TensorFlow Lite、Ablavatski和Grishchenko,他们表示这将提高性能,同时“显著”降低功耗。它们也是工作流的结果,工作流迭代地指导和细化网格模型的预测,使团队更容易处理具有挑战性的案例(如人脸和倾斜角)和伪影(如相机缺陷和极端光照条件)。

Google AI AR

以上:车型性能对比。图片来源:谷歌

有趣的是,管道不仅仅依赖于一两个模型——相反,它包含了一系列旨在支持一系列设备的架构。“更轻”的网络需要更少的内存和处理能力,必须使用更低分辨率的输入数据(128 x 128),而数学上最复杂的模型将分辨率提高到256 x 256。

根据Ablavatski和Grishchenko的说法,最快的“全网格”模型在谷歌Pixel 3(使用图形芯片)上实现了不到10ms的推理时间,而最轻的切割时间则减少到每帧3ms。他们在苹果的iPhone X上有点慢,但他们只有一根头发:最轻的型号推断大约4毫秒(使用GPU),而完整的网格需要14毫秒。

标签:谷歌