培育强人工智能的「ImageNet」：上海交大卢策吾组提出铰接物体知识库 AKB-48 本文转自：雷锋网ImageNet的出现

本文转自：雷锋网

文章图片

文章图片

ImageNet 的出现极大推动了计算机视觉领域的发展。在通往强人工智能的路上，我们还需要考虑物体的外观、结构、物理性质、语义等因素。为此，上海交大卢策吾组近日重磅推出了大型真实世界铰接物体知识库 AKB-48！
编译 | OGAI
编辑 | 陈彩娴
铰接物体在我们的生活中无处不在。全面理解这些铰接物体的外观、结构、物理性质和语义，对于研究社区是大有助益的。
目前的铰接物体理解方法通常是基于不考虑物理特性的 CAD 模型的合成物体数据集，这不利于视觉和机器人任务中从仿真环境到实际应用的泛化。
为了弥补这一差距，我们提出了AKB-48：一个大规模的铰接物体知识库，它包含 48 个类别的 2,037 个真实世界中的三维铰接物体模型。
我们通过铰接知识图谱 ArtiKG 描述每个物体。为了构建 AKB-48 ，我们提出了一个快速铰接知识建模流程（FArM），可以在 10-15 分钟内构建铰接物体的 ArtiKG ，在很大程度上降低了在现实世界中对物体建模的开销。在该数据的基础上，我们提出了一个新颖的集成网络框架 AKBNet ，用于类别级的视觉铰接操作（C-VAM）任务。我们提出了三个对比基准子任务，即姿态估计，物体重建和控制。

文章图片

文章图片

论文地址：https://arxiv.org/pdf/2202.08432v1.pdf
代码地址：https://liuliu66.github.io/articulationobjects/
1
引言
铰接物体是由多个关节连接的刚性部分组成的，可以在三维空间中进行旋转或平移运动。有关铰接物体的知识对于许多研究社区（如计算机视觉、机器人和具身人工智能）都是有所助益的。现有的铰接物体数据集包括 PartNet-Mobility、ReArt-48、RBO 等。
然而，这些数据集大多更加关注结构信息（例如，部位分割、运动结构），但是很少注意外形（例如，纹理、细致的几何信息），也很少注意物理特性（例如，每个部位的质量、惯量、材料和摩擦力），也很少涉及语义（例如，类别、功能可供性）。然而，有一些重要的任务非常依赖于这些信息，例如：目标检测依赖于「纹理」，三维重建依赖于「细致几何信息」，目标控制依赖于「物理特性」，缺乏这些物体知识不利于学习模型的泛化。
为了推动对铰接物体的研究，本文提出了 AKB-48：一个包含 48 个类别、2,037 个实例的大规模真实铰接知识库。对于每个实例，我们根据相应的真实物体扫描出物体的模型，并手动细化。物体知识会被组织到一个铰接知识图谱（ArtiKG）中，它包含各种物体属性和特征的详细标注。为了在大数据集上进行扫描和标注，我们提出了快速铰接知识建模（FArM）流程。
具体而言，我们利用三维传感器和转台、集成了结构和语义标注的 GUI、用于物理属性标注的标准真实世界实验开发了一个物体记录系统。该系统节省了大量用于建模现实世界铰接物体的时间和金钱和成本（每个物体的标注成本为 3 美元，耗时 10-15 分钟) 。本文对比了 CAD 建模与反向扫描。总而言之，该流程的资金和时间预算分别仅为前者的 1/33 和 1/5 。
我们利用 AKB-48 数据集提出了AKBNet ，这是一种用于类别级视觉铰接控制（C-VAM）任务的新型集成架构。为了解决 C-VAM 任务，视觉系统 AKBNet 需要能够估计物体的姿态，重建物体的几何形状，并在推理类别级的控制策略。因此，它由三个感知子模块组成：