BMVC 2018 | 最佳学生论文：EPFL&FAIR提出QuaterNet，更好地解决人类动作建模问题

作者：机器之心来源：机器之心公众号

分享到：

09-07

选自arXiv

作者：Dario Pavllo等

机器之心编译

参与：王淑婷、张倩、路

英国机器视觉大会（BMVC）2018 于 9 月 3 日到 6 日在英国纽卡斯尔举行，来自瑞士洛桑联邦理工学院（EPFL）和 FAIR 的研究者 Dario Pavllo 等人获得了此次大会的最佳学生论文奖。这篇论文提出了一种基于四元数（quaternion）的循环模型 QuaterNet，用于解决人类运动建模问题。在短期预测方面，QuaterNet 性能优于之前最优的模型。

对人类动作进行建模对于许多应用都很重要，包括动作识别 [12, 34]、动作检测 [49] 及计算机图形学 [22] 等。最近，神经网络被用于 3D 骨骼关节部位序列的长 [22, 23] 、短 [14, 37] 期预测。神经方法在其他模式识别任务中非常成功 [5, 20, 29]。人类动作是一种带有高级内在不确定性的随机序列过程。给定一个观察的姿势序列，未来的丰富姿势序列与之相似。因此，内在不确定性意味着，即使模型足够好，在预测未来姿势的一个长序列时，相隔时间较长的未来预测不一定能够匹配推断记录。因此，相关研究通常将预测任务分为长期预测和短期预测。短期任务通常被称为预测任务，可以通过距离度量将预测与参考记录进行比较来定量评估。长期任务通常被称为生成任务，更难定量评估。在这种情况下，人类评估至关重要。

本研究涉及长期和短期任务，目标是匹配或超越计算机视觉文献中用于短期预测的最佳方法，以及匹配或超越计算机图形学文献中用于长期生成的最佳方法。本着这一目标，作者确定了当前策略的局限性并试图突破这些局限。本文的贡献是双重的。首先，作者提出了一种使用四元数的方法，该四元数带有循环神经网络。其它参数化（如欧拉角）存在不连续性和奇异性，可能导致梯度爆炸和模型训练困难。以前的研究试图通过切换到指数地图（也称为轴角表示）来缓解这些问题，结果问题只是得以缓解而没有完全解决 [17]。其次，作者提出了一个可微损失函数，它对参数化骨骼执行正向运动学，并将关节方位预测和基于位置的损失函数的优点相结合。

实验结果改进了用于人类 3.6m 基准短期预测的最新角度预测误差。作者还通过人类判断，将长期生成质量与计算机图形学文献中最近的研究进行了对比。在这项任务中，作者匹配了之前关于运动的工作的质量，同时允许在线生成，并更好地控制艺术家强加的时间和轨迹约束。

代码和预训练模型地址：https://github.com/facebookresearch/QuaterNet

论文：QuaterNet: A Quaternion-based Recurrent Model for Human Motion

论文链接：https://arxiv.org/pdf/1805.06485.pdf

摘要：使用深度学习来预测或生成 3D 人体姿势序列是一个活跃的研究领域。之前的研究要么围绕关节旋转，要么围绕关节位置。前者的策略在使用欧拉角或参数化的指数映射时，容易沿着运动链累积误差，且它具备不连续性。后者的策略要求重新投影到骨骼约束上，以避免骨骼拉伸和无效配置。本文的研究打破了上述两个限制。我们的循环网络 QuaterNet 代表四元数的旋转，我们的损失函数对骨骼执行正向运动，以惩罚绝对位置误差，而不是角度误差。就短期预测而言，QuaterNet 从数量上提升了当前最佳水平。就长期生成而言，我们的方法在质量上被判定为与图形学文献中的近期神经策略一样可行。

3.1 模型架构&训练算法

图 1 展示了我们的 pose 网络的高级架构，该网络被我们用于短期预测和长期生成任务。如果将其用于后者，该模型包含附加输入（即图中的「Translations」和「Controls」），用于提供艺术控制。该网络将所有关节的旋转（编码为单位四元数）和可选输入作为其输入，并且在给定 n 帧初始化的情况下，训练该网络使其可预测骨骼在 k 个时间步上的未来状态，k 和 n 取决于任务。对于学习，我们使用 Adam 优化器 [27] 将梯度范数修剪至 0.1，并以每个 epoch α = 0.999 对学习率进行指数级衰减。对于高效的批处理，我们从训练集采样固定长度的 episode，在有效的起点上进行均匀采样。我们把 epoch 定义为大小等于序列数目的随机样本。

图 1：QuaterNet 架构。「QMul」代表四元数乘法：如果包括在内，它会迫使模型输出速度；如果绕过，则模型会发出绝对旋转。

3.2 旋转参数化和正向运动损失

图 2：(a) H3.6m 数据集上的局部角度分布，其中橙色表示 [−π/2, π/2] 的安全范围，蓝色表示可能有问题的范围（所有角的 7%）。(bc) 四元数的 antipodal 表示问题。(b) 是来自训练集的真实序列，既不连续，又不清晰。(c) 我们的方法，修正了不连续性，但仍然允许两个可能的选择 q 和-q。(d) 训练集上步伐参数的分布。

4 实验

4.1 短期预测

表 1：在 Human 3.6M 数据集上，不同动作的短期运动预测的平均角度误差：简单基线（顶部）、之前的 RNN 结果（中间部分）、我们模型的结果（底部）。粗体字表示最优结果，下划线字表示之前的最优结果。

图 3：在较长时间跨度内对不同模型进行对比。我们对比了全部 15 个动作在 64 个测试序列上的平均角度误差。(a) Velocity 模型和 orientation 模型的对比，基线为 0-velocity。两个模型都使用 scheduled sampling 进行训练。(b) 使用 scheduled sampling 训练对 velocity 模型的有益影响。

4.2 长期生成

图 4：使用角度（angle）和使用位置损失进行长期生成训练的对比结果。(a) 关节方向之间的角距离。(b) 关节位置之间的欧氏距离。优化角度会减少位置损失，而优化位置损失会直接得到较低的误差和更快的收敛。(c) 角度损失带来了梯度爆炸。(d) 位置损失使梯度保持平稳。在这种情况下，噪声仅仅源于 SGD 采样。

图 5：左图：我们的研究与 [23] 的对比。右图：我们的 pace 网络可对时间、空间进行精准控制。这里，我们令角色沿着一条有急转弯的路径冲刺（急转弯即图中的尖峰部分）。角色通过减速、旋转身体，并提高步频来预测转弯。

图 6：动作生成示例。上：走；下：跑。

本文为机器之心编译，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者 / 实习生）：hr@jiqizhixin.com

投稿或寻求报道：content@jiqizhixin.com

广告 & 商务合作：bd@jiqizhixin.com

查看原文

阅读9217

论文

关注机器之心微信号：almosthuman2014