Yann LeCun最新访谈:能量模型是通向自主人工智能系统的起点( 二 )


ZDNet:近年来您做了几次演讲 , 包括2019年在新泽西州普林斯顿高等研究院(IAS)的演讲 , 以及最近2月份百度主办的关于深度学习基于能量的方法的演讲 。这些基于能量的模型属于非监督学习的自监督部分吗?
YL:是的 。基于能量的模型中一切都能被假设 。比如我给你X和Y;X是观察 , 模型应该捕获Y关于X的相关性 。例如 , X是一个视频的片段 , Y是同一视频的另一个片段 , 向系统展示X和Y , 系统就应该告诉我Y是不是X的后续 。或者说给系统展示两张图片 , 系统就应该告诉我两张图是彼此相关还是两张完全不同的图片 。能量衡量的是相容性或不相容性 , 对吧?如果X和Y是相容的 , 能量就是零 , 如果能量比较大 , 那X和Y就是不相容的 。
我们有两种方法来训练基于能量的模型 。第一种方式是向模型展示一对相容的X和Y , 第二种是向模型展示一对不相容的X和Y , 比如连不上的两个视频片段 , 两个根本不相同的物体的图片 。对于这些不相容的XY对 , 我们需要设置高能量 , 而对于相容的XY对则降低能量值 。
这是对比的方法 。至少在某些情况下 , 我发明这种对比方法是为了一种叫做“孪生网络(siamese nets)”的自监督学习方法 。我以前很喜欢这种方法 , 但现在我改变主意了 。我认为这种方法注定要失败 。我不认为对比方法无用 , 但肯定是有不足之处的 , 因为这种方法不能很好地适应这些东西的维度 。正如那句名言:幸福的家庭都是相似的;不幸的家庭各有各的不幸 。
两个图像相同或相容的情况比较少 , 可是两幅图像却可以有很多不同的地方 , 而且空间是高维的 。所以 , 基本上我们需要指数级量的对比能量样本来推动这些对比方法的工作 。对比方法仍然很受欢迎 , 但在我看来这种方式的能力真的很有限 。所以我更喜欢非对比法或者所谓的正则法 。
而这些方法都是基于这样一种想法 , 即构造能量函数时 , 你赋予其低能量值的空间体积是有限的 。这可以用损失函数或能量函数中的一个术语来解释 , 这个术语指的是最小化空间的体积 , 空间体积就可以某种方式使能量降低 。我们有很多这样的例子 , 其中一个例子就是积分稀疏编码 , 这个概念可以追溯到20世纪90年代 。近来我真正感到有兴趣的是那些应用于自监督学习的非对比方法 。
2
能量模型是未来的方向吗?
ZDNet:你在演讲里讨论过"正则化的基于潜变量能量的模型"(regularized latent variable energy-based model) , 也就是 RLVEB 。你认为RLVEB就是未来的发展方向吗?RLVEB是否能引领2020年代或者2030年代的发展?
YL:让我这么说吧:自从卷积网络之后 , 我对机器学习的东西就没那么感兴趣了 。(笑)我不确定RLVEB是不是新的卷积 , 但我对此真的很兴奋 。当我在IAS演讲时 , 我满脑子都是RLVEB 。RLVEB是生成模型 , 如果你想把它应用到视频预测之类的任务上 , 你给它一段视频 , 可以让它预测下一段视频 。
在过去的几年里 , 我也改变了我的想法 。现在 , 我最喜欢的模型不是从X预测Y的生成模型 , 而是我所谓的联合嵌入模型 。我们取X , 通过一个编码器运行它(如果你想的话 , 也可以用一个神经网络来运行);取Y , 并通过另一个编码器运行它;然后预测就会发生在这个抽象的表示空间中 。这就是一个巨大的优势 。
为什么我改变了主意?我改变主意是因为我们之前不知道该怎么做 。现在我们有一些方法可以派上用场 。这些方法是在过去的两年中出现的 。我正在推动的实际上有两个方法:一个叫VIC-REG , 另一个叫Barlow Twins 。