培育强人工智能的「ImageNet」:上海交大卢策吾组提出铰接物体知识库 AKB-48

本文转自:雷锋网
培育强人工智能的「ImageNet」:上海交大卢策吾组提出铰接物体知识库 AKB-48
文章图片

文章图片

ImageNet 的出现极大推动了计算机视觉领域的发展 。在通往强人工智能的路上 , 我们还需要考虑物体的外观、结构、物理性质、语义等因素 。为此 , 上海交大卢策吾组近日重磅推出了大型真实世界铰接物体知识库 AKB-48!
编译 | OGAI
编辑 | 陈彩娴
铰接物体在我们的生活中无处不在 。全面理解这些铰接物体的外观、结构、物理性质和语义 , 对于研究社区是大有助益的 。
目前的铰接物体理解方法通常是基于不考虑物理特性的 CAD 模型的合成物体数据集 , 这不利于视觉和机器人任务中从仿真环境到实际应用的泛化 。
为了弥补这一差距 , 我们提出了AKB-48:一个大规模的铰接物体知识库 , 它包含 48 个类别的 2,037 个真实世界中的三维铰接物体模型 。
我们通过铰接知识图谱 ArtiKG 描述每个物体 。为了构建 AKB-48 , 我们提出了一个快速铰接知识建模流程(FArM) , 可以在 10-15 分钟内构建铰接物体的 ArtiKG , 在很大程度上降低了在现实世界中对物体建模的开销 。在该数据的基础上 , 我们提出了一个新颖的集成网络框架 AKBNet , 用于类别级的视觉铰接操作(C-VAM)任务 。我们提出了三个对比基准子任务 , 即姿态估计 , 物体重建和控制 。
培育强人工智能的「ImageNet」:上海交大卢策吾组提出铰接物体知识库 AKB-48
文章图片

文章图片

论文地址:https://arxiv.org/pdf/2202.08432v1.pdf
代码地址:https://liuliu66.github.io/articulationobjects/
1
引言
铰接物体是由多个关节连接的刚性部分组成的 , 可以在三维空间中进行旋转或平移运动 。有关铰接物体的知识对于许多研究社区(如计算机视觉、机器人和具身人工智能)都是有所助益的 。现有的铰接物体数据集包括 PartNet-Mobility、ReArt-48、RBO 等 。
然而 , 这些数据集大多更加关注结构信息(例如 , 部位分割、运动结构) , 但是很少注意外形(例如 , 纹理、细致的几何信息) , 也很少注意物理特性(例如 , 每个部位的质量、惯量、材料和摩擦力) , 也很少涉及语义(例如 , 类别、功能可供性) 。然而 , 有一些重要的任务非常依赖于这些信息 , 例如:目标检测依赖于「纹理」 , 三维重建依赖于「细致几何信息」 , 目标控制依赖于「物理特性」 , 缺乏这些物体知识不利于学习模型的泛化 。
为了推动对铰接物体的研究 , 本文提出了 AKB-48:一个包含 48 个类别、2,037 个实例的大规模真实铰接知识库 。对于每个实例 , 我们根据相应的真实物体扫描出物体的模型 , 并手动细化 。物体知识会被组织到一个铰接知识图谱(ArtiKG)中 , 它包含各种物体属性和特征的详细标注 。为了在大数据集上进行扫描和标注 , 我们提出了快速铰接知识建模(FArM)流程 。
具体而言 , 我们利用三维传感器和转台、集成了结构和语义标注的 GUI、用于物理属性标注的标准真实世界实验开发了一个物体记录系统 。该系统节省了大量用于建模现实世界铰接物体的时间和金钱和成本(每个物体的标注成本为 3 美元 , 耗时 10-15 分钟) 。本文对比了 CAD 建模与反向扫描 。总而言之 , 该流程的资金和时间预算分别仅为前者的 1/33 和 1/5 。
我们利用 AKB-48 数据集提出了AKBNet , 这是一种用于类别级视觉铰接控制(C-VAM)任务的新型集成架构 。为了解决 C-VAM 任务 , 视觉系统 AKBNet 需要能够估计物体的姿态 , 重建物体的几何形状 , 并在推理类别级的控制策略 。因此 , 它由三个感知子模块组成: