Yann LeCun最新访谈:能量模型是通向自主人工智能系统的起点( 三 )


ZDNet:那么在接下来的5到10年里 , 你认为我们会在这方面看到什么进展呢?
YL:我认为现在我们至少有了一种方法来让我们研究可以学习在抽象空间中进行预测的系统 。在学习抽象预测的同时 , 系统也可以学习预测在抽象空间中随着时间或状态的变化会发生什么 。对于一个自主的智能系统来说 , 这是非常重要的部分 , 例如 , 系统有某种世界模型 , 可以让你提前预测世界将会发生什么 , 也可以预测行为的后果 。因此 , 给定对世界状态的估计以及你正在采取的行动 , 系统会给到你一个在你采取行动后世界状态的预测 。
图注:基于能量的模型:“VICREG”是“自监督学习的方差-不变性-协方差重新正则化(Variance-Invariance-Covariance Re-Gularization For Self-Supervised Learning)”的缩写 , 是LeCun在基于能量的神经网络架构上的最新研究成果 。一组图像在两个不同的管道中转换 , 每个扭曲后的图像会被发送到编码器 , 该编码器实质上是对图像进行压缩 。然后 , 投影仪(也被称为“扩展器”)会将这些压缩的表示解压成最终的“嵌入” , 即Z维 。正因为这两种嵌入之间的相似性不受其扭曲的影响 , 程序才能够找到合适的低能量级别去识别出某些东西 。(图源:FAIR)
这个预测还取决于一些你无法观察到的潜变量 。比如 , 当你开车的时候 , 你的前面有一辆车 。这辆车可能刹车 , 可能加速 , 左转或右转 。你不可能提前知道车辆的情况 , 这就是潜变量 。所以整体架构是这样的 , 取最初的视频集X和未来的视频Y , 将X、Y嵌入到某个神经网络中 , 从而得到X和Y的两个抽象表示 。然后在这个空间里做一个关于某个潜变量的基于能量的预测模型 。
重点是 , 这个模型在预测世界抽象表示的时候 , 是不能预测世界上所有的细节的 , 因为这个世界上的很多细节可能是不相关的 。在路上驾车的时候 , 可能会在路边的一棵树上看到一片叶子上非常复杂的部分 。模型是绝对不可能预测这个的 , 或者说你也不想投入任何精力或资源来预测这点 。所以这个编码器本质上可以在被问到之前就消除这些信息 。
ZDNet:你认为在未来的5到10年会出现一些具体的里程碑吗?或者目标?
YL:我预见到的是 , 我们可以使用「JEPA」(Joint Embedding Predictive Architecture)架构来了解世界的预测模型 , 以一种自监督的方式学习感知表示而又不需要为特定的任务训练系统 。因为系统学习了X和Y的抽象表示 , 我们可以把它们堆叠起来 。所以 , 一旦我们学会了对周围世界的抽象表示 , 能够做出短期预测了 , 我们就可以叠加另一层 , 从而可以学习更抽象的表示并获得做出长期预测的能力 。
所以让系统通过观察和观看视频来了解世界是如何运作是很重要的 。因为婴儿基本上是通过观察这个世界来学习的 , 学习直观的物理 , 学习我们所知道的关于这个世界的一切 。动物也会这样做 。我们想让我们的机器通过观察来学会了解世界是如何运作的 。但是到目前为止 , 我们还没有做到这一点 。因此在我看来 , 使用JEPA并以分层的方式检查它们 , 是实现系统观察学习的途径 。
JEPA能给予深度学习机器的另一个好处是推理能力 。目前有一个争议:深度学习擅长的只有感知 , 因为输入和输出是明确的 。但如果你想要一个系统具备推理能力与规划能力呢?世上存在具备一定的推理和规划能力的复杂模型 , 但这样的模型并不多 。
那么 , 我们如何让机器去规划呢?如果我们有一个世界预测模型 , 如果我们有一个能让系统预测自己行为后果的模型 , 就可以让系统想象其行动路线并预测将会产生的结果 。然后将这些信息提供给一些内部函数 , 这些函数会描述某个任务是否已完成 。接着 , 通过优化 , 可能使用梯度下降法找出使目标最小化的一系列行动 。我们现在不是在讨论学习;我们现在讨论的是推理与规划 。事实上 , 我现在描述的是一种经典的计划和模型预测控制的最优控制方法 。