微信扫一扫
分享到朋友圈

学界 | 学习一帧,为整段黑白视频上色:谷歌提出自监督视觉追踪模型

作者:机器之心 来源:机器之心 公众号
分享到:

06-30

选自Google AI Blog

作者:Carl Vondrick

机器之心编译

参与:刘晓坤、路

追踪视频中的物体一直是计算机视觉领域中的基本问题,对于动作识别、对象交互或视频风格化等应用非常重要。然而,教会机器视觉追踪物体是一个具有挑战性的任务,因为它需要大量经过标注的追踪数据集用于训练,而大规模的标注通常是不切实际的。


在谷歌最近提交的论文《Tracking Emerges by Colorizing Videos》中,研究人员引入了一种为灰度视频着色的卷积神经网络,但它只需要参考单帧已着色的参考图像,并复制参考帧的颜色。在新方法中,神经网络可以自动无监督地对物体进行视觉追踪。更重要的是,尽管模型并未明确地为目标追踪进行训练,但它仍然可以追踪多个目标、追踪被遮挡的目标、并适应目标的变形保持稳定追踪——这并不需要任何经过标注的训练数据。


在公开学术数据集 DAVIS 2017 上的追踪预测示例。在学习对视频着色之后,在无监督的情况下涌现了一种自动追踪对象的机制。研究人员在第一帧中指定感兴趣的区域(用不同颜色表明),模型无需任何额外学习或监督即可自动进行追踪。


学习为视频重新上色


谷歌研究人员假设颜色的时间一致性为教机器追踪视频区域提供了优秀的大规模训练数据。很明显,总有例外,即颜色不具备时间一致性(如突然开灯)的情况,但是通常颜色不会随着时间而改变。此外,大部分视频都包含颜色,这提供了可扩展自监督学习信号。谷歌研究人员先去掉视频的颜色,然后再着色,因为视频中可能有多个对象颜色相同,而通过着色我们可以教机器追踪特定的对象或区域。


为了训练系统,谷歌研究人员利用 Kinetics 数据集中的视频,该数据集是一个日常活动视频的大型开放集合。谷歌研究人员将所有视频帧转换成灰度图像(除了第一帧),然后训练一个卷积网络预测后续帧的原始颜色。研究人员期望模型学会追踪视频区域,以准确恢复原始颜色。其主要观测结果是追踪着色对象的需求使我们得到自动学习追踪对象的模型。


研究者使用 DAVIS 2017 数据集中的视频来展示视频重着色任务的实现。该模型接收一个彩色帧和一个灰度视频作为输入,然后预测视频其他帧的颜色。该模型能使用在没有人类监督的条件下学习到的追踪机制,学会复制参考帧中的颜色。


学习复制单个参考帧的颜色需要模型学会内在地指向正确的区域以复制正确的颜色。这迫使模型学习一种特定的用于追踪的机制。为了了解该视频着色模型如何工作,下方展示了一些对 Kinetics 数据集中的视频进行着色预测的示例。


使用公开数据集 Kinetics,将着色参考帧应用到输入视频后的预测颜色示例。


虽然没有使用真值标识训练,该模型也能学会追踪视频第一帧指定的任何视觉区域。我们可以追踪视频中的对象轮廓或一个点。唯一做出的改变是在视频中传播表示感兴趣区域的标记,以取代传播颜色。


分析追踪器


由于该模型是在大量未标注视频上训练的,研究者希望深入了解模型的学习过程。下方的视频展示了一个标准的追踪过程:通过 PCA 将模型学得的嵌入投影到三维空间进行可视化,并做成 RGB 影片的形式。结果表明学习到的嵌入空间的最近邻倾向于对应目标标识(object identity),即使经过变形或视角改变。


上行:来自 DAVIS 2017 数据集的视频。下行:可视化着色模型的内部嵌入。相似的嵌入在这个可视化中有相似的颜色。这表明学习到的嵌入通过目标标识对像素进行了分组。


追踪姿态


研究者发现该模型也可以在给定初始帧关键点时追踪人类姿态。他们在公开学术数据集 JHMDB 上展示了结果,其中模型追踪的是人类关节骨架。


使用模型追踪人类骨架运动的示例。在这个案例中输入是第一帧的人类姿态,之后的运动被自动追踪。即使模型从来没有在这个任务上进行训练,它也能够追踪人类姿态。


虽然这个着色模型并没有超越强监督模型,但它可以学习追踪视频分割和人类姿态,且超越了最近出现的基于光流的方法 FlowNet 2.0。打破运动类型达到的高性能表明该模型在很多自然复杂度场景(例如动态背景、快速运动和遮挡)下比光流方法更加鲁棒。


未来工作


研究结果表明视频着色提供的信号可以用于学习追踪视频中的对象,且无需监督。此外,研究者发现该系统中出现的失败和视频着色失败相关,这表明进一步优化视频着色可以改善自监督追踪。


论文:Tracking Emerges by Colorizing Videos



论文链接:https://arxiv.org/abs/1806.09594


摘要:我们使用大量未标注视频在没有人类监督的条件下学习视觉追踪模型。我们利用颜色的自然时间一致性来创建模型,该模型能学习通过从一个参考帧复制颜色来对灰度视频着色。定量和定性实验表明这个任务能让模型自动学会追踪视觉区域。虽然该模型没有用任何真值标签训练,但我们的方法能够很好地实现追踪并超越基于光流的方法。最后,我们的结果表明追踪失败的原因和着色失败相关,这意味着改进视频着色也许能进一步提升自监督视觉追踪。 


原文链接:https://ai.googleblog.com/2018/06/self-supervised-tracking-via-video.html



本文为机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告 & 商务合作:bd@jiqizhixin.com

阅读9510
黑白 模型 
举报0
关注机器之心微信号:almosthuman2014

用微信扫描二维码即可关注
声明

1、头条易读遵循行业规范,任何转载的稿件都会明确标注作者和来源;
2、本文内容来自“机器之心”微信公众号,文章版权归机器之心公众号所有。

评论
更多

文章来自于公众号:

机器之心

微信号:almosthuman2014

邮箱qunxueyuan#163.com(将#换成@)
微信编辑器
免责声明
www.weixinyidu.com   免责声明
版权声明:本站收录微信公众号和微信文章内容全部来自于网络,仅供个人学习、研究或者欣赏使用。版权归原作者所有。禁止一切商业用途。其中内容并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。如果您发现头条易读网站上有侵犯您的知识产权的内容,请与我们联系,我们会及时修改或删除。
本站声明:本站与腾讯微信、微信公众平台无任何关联,非腾讯微信官方网站。