学界 | 学习一帧，为整段黑白视频上色：谷歌提出自监督视觉追踪模型

作者：机器之心来源：机器之心公众号

分享到：

06-30

选自Google AI Blog

作者：Carl Vondrick

机器之心编译

参与：刘晓坤、路

追踪视频中的物体一直是计算机视觉领域中的基本问题，对于动作识别、对象交互或视频风格化等应用非常重要。然而，教会机器视觉追踪物体是一个具有挑战性的任务，因为它需要大量经过标注的追踪数据集用于训练，而大规模的标注通常是不切实际的。

在谷歌最近提交的论文《Tracking Emerges by Colorizing Videos》中，研究人员引入了一种为灰度视频着色的卷积神经网络，但它只需要参考单帧已着色的参考图像，并复制参考帧的颜色。在新方法中，神经网络可以自动无监督地对物体进行视觉追踪。更重要的是，尽管模型并未明确地为目标追踪进行训练，但它仍然可以追踪多个目标、追踪被遮挡的目标、并适应目标的变形保持稳定追踪——这并不需要任何经过标注的训练数据。

在公开学术数据集 DAVIS 2017 上的追踪预测示例。在学习对视频着色之后，在无监督的情况下涌现了一种自动追踪对象的机制。研究人员在第一帧中指定感兴趣的区域（用不同颜色表明），模型无需任何额外学习或监督即可自动进行追踪。

学习为视频重新上色

谷歌研究人员假设颜色的时间一致性为教机器追踪视频区域提供了优秀的大规模训练数据。很明显，总有例外，即颜色不具备时间一致性（如突然开灯）的情况，但是通常颜色不会随着时间而改变。此外，大部分视频都包含颜色，这提供了可扩展自监督学习信号。谷歌研究人员先去掉视频的颜色，然后再着色，因为视频中可能有多个对象颜色相同，而通过着色我们可以教机器追踪特定的对象或区域。

为了训练系统，谷歌研究人员利用 Kinetics 数据集中的视频，该数据集是一个日常活动视频的大型开放集合。谷歌研究人员将所有视频帧转换成灰度图像（除了第一帧），然后训练一个卷积网络预测后续帧的原始颜色。研究人员期望模型学会追踪视频区域，以准确恢复原始颜色。其主要观测结果是追踪着色对象的需求使我们得到自动学习追踪对象的模型。

研究者使用 DAVIS 2017 数据集中的视频来展示视频重着色任务的实现。该模型接收一个彩色帧和一个灰度视频作为输入，然后预测视频其他帧的颜色。该模型能使用在没有人类监督的条件下学习到的追踪机制，学会复制参考帧中的颜色。

学习复制单个参考帧的颜色需要模型学会内在地指向正确的区域以复制正确的颜色。这迫使模型学习一种特定的用于追踪的机制。为了了解该视频着色模型如何工作，下方展示了一些对 Kinetics 数据集中的视频进行着色预测的示例。

使用公开数据集 Kinetics，将着色参考帧应用到输入视频后的预测颜色示例。

虽然没有使用真值标识训练，该模型也能学会追踪视频第一帧指定的任何视觉区域。我们可以追踪视频中的对象轮廓或一个点。唯一做出的改变是在视频中传播表示感兴趣区域的标记，以取代传播颜色。

分析追踪器

由于该模型是在大量未标注视频上训练的，研究者希望深入了解模型的学习过程。下方的视频展示了一个标准的追踪过程：通过 PCA 将模型学得的嵌入投影到三维空间进行可视化，并做成 RGB 影片的形式。结果表明学习到的嵌入空间的最近邻倾向于对应目标标识（object identity），即使经过变形或视角改变。

上行：来自 DAVIS 2017 数据集的视频。下行：可视化着色模型的内部嵌入。相似的嵌入在这个可视化中有相似的颜色。这表明学习到的嵌入通过目标标识对像素进行了分组。

追踪姿态

研究者发现该模型也可以在给定初始帧关键点时追踪人类姿态。他们在公开学术数据集 JHMDB 上展示了结果，其中模型追踪的是人类关节骨架。

使用模型追踪人类骨架运动的示例。在这个案例中输入是第一帧的人类姿态，之后的运动被自动追踪。即使模型从来没有在这个任务上进行训练，它也能够追踪人类姿态。

虽然这个着色模型并没有超越强监督模型，但它可以学习追踪视频分割和人类姿态，且超越了最近出现的基于光流的方法 FlowNet 2.0。打破运动类型达到的高性能表明该模型在很多自然复杂度场景（例如动态背景、快速运动和遮挡）下比光流方法更加鲁棒。

未来工作

研究结果表明视频着色提供的信号可以用于学习追踪视频中的对象，且无需监督。此外，研究者发现该系统中出现的失败和视频着色失败相关，这表明进一步优化视频着色可以改善自监督追踪。

论文：Tracking Emerges by Colorizing Videos

论文链接：https://arxiv.org/abs/1806.09594

摘要：我们使用大量未标注视频在没有人类监督的条件下学习视觉追踪模型。我们利用颜色的自然时间一致性来创建模型，该模型能学习通过从一个参考帧复制颜色来对灰度视频着色。定量和定性实验表明这个任务能让模型自动学会追踪视觉区域。虽然该模型没有用任何真值标签训练，但我们的方法能够很好地实现追踪并超越基于光流的方法。最后，我们的结果表明追踪失败的原因和着色失败相关，这意味着改进视频着色也许能进一步提升自监督视觉追踪。

原文链接：https://ai.googleblog.com/2018/06/self-supervised-tracking-via-video.html

本文为机器之心编译，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者 / 实习生）：hr@jiqizhixin.com

投稿或寻求报道：content@jiqizhixin.com

广告 & 商务合作：bd@jiqizhixin.com

查看原文

阅读9510

黑白模型

关注机器之心微信号：almosthuman2014