Yann LeCun最新访谈:能量模型是通向自主人工智能系统的起点( 四 )


最优控制的不同之处在于 , 我们用的是一个经过学习的世界模型 , 而不是一种固定的模型 。我们的模型包含了所有可以处理这个世界的不确定性的变量 , 因此可以成为自主智能系统的基础 , 能够预测未来并计划一系列行动 。
我想从这里飞到旧金山 , 那我就需要去机场 , 赶飞机等等 。要去机场 , 我就需要离开我的大楼 , 沿着街道走一段 , 然后打一辆出租车 。要离开我的大楼 , 我就需要离开我的椅子 , 走向门 , 打开门 , 走向电梯或楼梯 。要做到走向电梯或者楼梯 , 我需要弄清楚如何把这些动作分解成一毫秒一毫秒的肌肉控制 。这就叫做分层规划 。我们希望系统能够做到这一点 , 但目前我们还不能真正做到如此 。这些通用架构可以为我们提供这些东西 。这是我的希望 。
3
能量模型与其他方法之间的千丝万缕
ZDNet:你描述能量模型的方式听起来有点像量子电动力学的内容 , 比如 Dirac-Feynman 路径积分或者波函数 。这只是一种比喻 , 还是说也许这两者实际上是一致的?
YL:这并不是比喻 , 而且两者其实是有些不同的 , 并非完全一致 。比如你有一个潜变量 , 这个潜变量可以取很多不同的值 , 通常你要做的就是遍历这个潜变量所有可能的值 。这可能有些不切实际 。所以你可以从某个分布中对潜变量抽样 , 然后计算可能结果的集合 。但是 , 实际上你最终要计算的是一个代价函数 , 这个代价函数给出了一个你对潜变量的可能值求平均的期望值 。这看起来很像一个路径积分 。路径积分实际上就是计算多条路径的能量之和 , 至少在传统意义上是如此 。在量子方法中 , 你不是在把概率或分数相加 , 而是在把复数相加 , 而复数可以互相抵消 。虽然我们一直在考虑这样的事情(至少我一直在思考同样的东西) , 但我们的研究中没有这样的内容 。这个在上下文中没有用到 , 但是潜变量的边际化和路径/轨迹的总和是非常相似的 。
ZDNe:你曾做出两个相当惊人的断言 。一是深度学习的概率方法已经过时 。二是你说你正在讨论的基于能源的模型与20世纪80年代的方法有一些联系 , 例如 Hopfield 网络 。请问能详细说明一下这两点吗?
YL:我们需要放弃概率模型的原因是 , 我们可以对两个变量X和Y之间的相关性建模 , 但如果Y是高维的 , 如何表示Y上的分布呢?我们真的不知道该怎么做 。我们只能写出一个非常简单的分布 , 一个高斯分布或者高斯分布的混合分布之类的 。如果你想用复数概率去度量 , 我们不知道怎么做 , 或者说我们知道的唯一方法就是通过能量函数去度量 。所以我们只能写一个能量函数 , 其中低能对应着高概率 , 高能对应着低概率 , 这就是物理学家理解能量的方式 , 对吧?问题是我们一直不太理解如何标准化 。统计学、机器学习和计算物理学等领域里有很多论文都是有关如何解决这个棘手问题的 。
我所倡导的是忘掉概率模型 , 只考虑能量函数本身 。它甚至不需要使能量变成可以标准化的形式 。最终的结果是 , 你应该有一种损失函数 , 当你训练你的数据模型 , 使得相容的能量函数低而不相容的能量函数高的时候 , 你就把损失函数最小化 。就是这么简单 。
ZDNet:和Hopfield网络之间的关系呢?
YL:Hopfield 网络和 Boltzmann 机器当然与此相关 。Hopfield 网络是以一种非对比的方式训练的能量模型 , 但效率很低 , 所以没什么人用Hopfield 网络 。
Boltzmann 机器基本上是Hopfield网络的一个对比版本 ,你得到数据样本并降低其能量 , 你生成其他样本并提高其能量 。这种方法在某种程度上更令人满意 , 但也不是很有效 , 因为这种对比的方法不能很好地扩展 。因为这个原因 , 这个方法也没有被使用 。