学界 | 观察运动推断物体材料，MIT提出「视觉+运动」物理基元分解

作者：机器之心来源：机器之心公众号

分享到：

09-29

选自arXiv

作者：Zhijian Liu等

机器之心编译

参与：Huiyuan Zhuo、刘晓坤

目前机器学习模型仅通过视觉观察已经能有效还原物体的 3D 形状，但仍然不能推断准确的物理参数，例如材料性质。MIT CSAIL 的研究者提出了结合视觉观察和运动轨迹观察的物理基元分解方法，可以将物体准确地分解为不同材料的组件，预测运动轨迹，甚至像人一样目测「你」的重量。

人们通过握住手柄并用其头部击打来使用锤子，而不是反过来。在这个简单的动作中，人们展示了他们对于功能部件的理解 [37, 43]：一种工具或任何对象可被分解为基于基元的组件，每个组件都具有不同的物理性质、功能性和可供性 [19]。

如何建造像人一样具有工具解构能力的机器？在本文中，MIT CSAIL 的研究者解决了物理基元分解（PPD）的问题—使用一些具有物理参数的形状基元来解释对象的形状和物理性质。鉴于图 1 中的锤子，我们的目标是建立一个模型能恢复锤子的两个主要组成部分：一个高大的木制圆筒作为其手柄，一个小型的金属圆筒作为其头部。

图 1：左边是一个锤子，右边是其物理基元分解。

对于这项任务，我们需要一个物理的、基于组件的对象形状表征，它对对象几何和物理性质进行建模。然而，这种表征的真实标注是难以获得的：像 ShapeNet [8] 这样的大型形状库通常对对象组件的标注是有限的，更不用说物理性质了。这主要是由于两个原因。首先，标注对象组件和物理性质是劳动密集型的，需要大量的领域专业知识，而现有的众包平台都无法提供这些知识。其次，真实标注中也存在内部模糊性：不可能仅仅通过图像或视频去精确地标注对象潜在的物理性质，比如密度。

让我们更多地思考这些表征的用途。我们希望对象表征可以如实地编码其几何性质；因此，它需要能够解释我们对于对象外观上的视觉观察结果。此外，因为该表征对对象物理性质进行建模，它应该有效地解释对象在各种物理事件中的行为。

受此启发，研究者提出了一个新颖的范式，能从视觉观察和物理交互中学习基于组件的对象表征。从单张图像和体素化形状开始，模型恢复几何基元并从纹理中推断它们的物理性质。以这种方式推断的物理表征肯定是不确定的；因此，它仅作为物理形状的模型先验。在物理事件中观察对象行为提供了至关重要的附加信息，因为具有不同物理性质的对象在物理事件中的表现不同。模型结合附加信息和先验得出最终的预测。

研究者在三种情况下评估物理基元分解的系统。首先，生成一个合成的积木塔数据集，其中每个积木具有不同的几何和物理性质。通过利用外观和运动线索，模型能成功地重建物理基元。其次，研究者在一套合成工具上评估系统，展示其对常见形状的适用性。最后，研究者在动态场景中构建一个全新的真实积木塔数据集，并评估模型对真实视频的泛化能力。

进一步，研究者进行了控制变量实验以了解每种信息源对最终结果的影响。我们还进行了人类行为实验，以此来对比模型和人类之间的表现。在「哪个积木块更重」的实验中，我们的模型与人类的表现相当。

本文的贡献有三部分。首先，提出了物理基元分解的问题—依据物理基元学习一个紧凑的、解耦的对象表征。其次，提出了一种新颖的学习范式，它学习通过物理基元表征形状以解释它们的几何与物理性质。第三，证明了本研究提出的系统可以同时在合成数据和真实数据中取得良好的性能。

论文：Physical Primitive Decomposition（物理基元分解）

论文地址：https://arxiv.org/pdf/1809.05070v1.pdf

摘要：物体由零件组成，每一零件都有不同的几何性、物理性、功能性和可供性。开发这样一个分布式的、物理的、可解释的对象表征将有助于智能体更好地进行探索并与外界进行交互。在本文中，我们研究了物理基元分解—通过对象的组件来理解对象本身，每一组件具有几何与物理性质。由于有关对象组件和物理性质的标注数据很少，我们提出了一种新型范式，其通过解释对象的外观和物理事件中的行为来学习物理基元。我们的模型在合成与真实场景中的积木塔和工具上表现良好；我们同时证明了视觉和物理上的观察通常提供互补的信号。进一步，我们进行了控制实验和行为实验，以更好地理解我们的模型并与人类的表现进行对比。

图 2：（a）是基元分解，（b）是物理基元分解。两个任务都试图将一个对象转化为一组具有不同用途的基元：前者的目标是重建形状，而后者的目标是恢复几何与物理性质。

图 3：从视觉和物理观察上推断物理参数的难点：具有不同物理参数的对象可能拥有（a）相似的视觉外观或（b）相似的物理轨迹。

方法概述

在本节中，我们讨论了物理基元分解（PPD）问题的方法，图 4 展示了方法框架。

图 4：PPD 模型概览。

仅仅通过视觉或物理观察来推断物理参数是很困难的。这是因为具有不同物理参数的两个对象可能拥有相似的视觉外观（图 3 a）或相似的物理轨迹（图 3 b）。因此，我们的模型将这两种类型的观察都作为输入：

视觉观察。我们将一个体素化形状和一张图像作为输入，因为它们可以提供有价值的视觉信息。体素能帮助我们恢复对象几何，同时图像包含对象材质的纹理信息。请注意，即使使用体素作为输入，推断几何参数仍是非常重要的：模型需要学习分割对象的 3D 组件—这是一个未解决的问题 [44]。
物理观察。为了解释对象的物理行为，我们也需要在一些物理交互之后观察它的响应情况。在这项工作中，我们选择使用 3D 对象轨迹而不是 RGB（RGB - D）视频。它的抽象性使得模型能够更好地从合成数据迁移到真实数据，因为合成视频与真实视频可能大不相同；相比之下，生成看似逼真的、合成的 3D 轨迹很容易。

实验

我们在三种不同的设置下评估 PPD 模型：合成的积木塔，其中的积木块具有各种材质和形状；具有更复杂几何形状的合成工具；积木塔的真实视频，以证明模型在真实世界场景中的迁移能力。

分解块状塔

图 5：左边是我们积木塔数据集中的对象样本，右边是模型以不同组合的观察作为输入，得出的定性结果。

表 2：积木塔上物理参数估计的定量结果。将外观和物理性质结合能帮助我们的模型更好地估计物理参数，并且我们的模型比其他所有标准线都表现得好。

分解真实对象

图 7：来自真实世界的积木塔数据集中，六个采样帧的对象及其物理轨迹。如最后两行所示，具有相似视觉外观的对象可能拥有不同的物理性质，而我们只能通过它们在物理事件中的表现区分开来。

图 8：采用不同组合的观察作为输入，我们模型（在真实世界的积木塔上）的定性结果。

图 9：以不同组合的观察结果作为输入时的学习曲线。当纹理和物理的监督信息可用时，我们的模型学习得更好、更快。

图 10：物理参数估计的混淆矩阵。两种类型观察所提供的信息是不同的：（a）以纹理作为输入时，我们的模型倾向于在材料的可能密度值内进行推断（见表 1）；（b）以物理作为输入时，我们的模型仅在近似值间产生误差。

图 11：在「哪个积木更重」问题上，人类、模型和真实数据的预测结果。我们的模型与人类表现相当，其响应情况与人类表现有关。

结论