神译局是怎么做到的?

神译局是36氪旗下编译团队 , 关注科技、商业、职场、生活等领域 , 重点介绍国外的新技术、新观点、新风向 。
编者按:在执行特定类型任务 , 如图像识别、语音识别等方面 , AI已经可以与人类相媲美了 , 甚至有时候已经超越了人类 。但这些AI事先必须经过训练 , 而训练是个既耗时又耗计算能力的过程 , 有上百万甚至几十亿的参数需要优化 。但最近研究人员做出了能瞬时预测参数的超网络 。通过利用超网络(hypernetwork) , 研究人员现在可以先下手为强 , 提前对人工神经网络进行调优 , 从而节省部分训练时间和费用 。文章来自编译 。
神译局是怎么做到的?
文章图片

文章图片

划重点:
人工智能是一场数字游戏 , 训练耗时耗力
超网络可以在几分之一秒内预测出新网络的参数
超网络的表现往往可以跟数千次SGD迭代的结果不相上下 , 有时甚至是更好
超网络有望让深度学习大众化
人工智能在很大程度上是一场数字游戏 。10年前 , 深度神经网络(一种学习识别数据模式的AI形式)之所以开始超越传统算法 , 那是因为我们终于有了足够的数据和处理能力 , 可以充分利用这种AI 。
现如今的神经网络对数据和处理能力更加渴望 。训练它们需要对表征参数的值进行仔细的调整 , 那些参数代表人工神经元之间连接的强度 , 有数百万甚至数十亿之巨 。其目标是为它们找到接近理想的值 , 而这个过程叫做优化 , 但训练网络达到这一点并不容易 。DeepMind研究科学家PetarVeli?kovi?表示:“训练可能需要数天、数周甚至数月之久” 。
但这种情况可能很快就会改变 。加拿大安大略省圭尔夫大学(UniversityofGuelph)的BorisKnyazev和他的同事设计并训练了一个“超网络”——这有点像是凌驾于其他神经网络之上的最高统治者——用它可以加快训练的过程 。给定一个为特定任务设计 , 未经训练的新深度神经网络 , 超网络可以在几分之一秒内预测出该新网络的参数 , 理论上可以让训练变得不必要 。由于超网络学习了深度神经网络设计当中极其复杂的模式 , 因此这项工作也可能具有更深层次的理论意义 。
目前为止 , 超网络在某些环境下的表现出奇的好 , 但仍有增长空间——考虑到问题的量级 , 这是很自然的 。如果他们能解决这个问题 , Veli?kovi?说:“这将对机器学习产生很大的影响 。” 。变成“超网络”
目前 , 训练和优化深度神经网络最好的方法是随机梯度下降(SGD)技术的各种变种 。训练涉及到将网络在给定任务(例如图像识别)中所犯的错误最小化 。SGD算法通过大量标记数据来调整网络参数 , 并减少错误或损失 。梯度下降是从损失函数的高位值一级级向下降到某个最小值的迭代过程 , 代表的是足够好的(或有时候甚至是可能的最好)参数值 。
但是这种技术只有在你有需要优化的网络时才有效 。为了搭建最开始的神经网络(一般由从输入到输出的多层人工神经元组成) , 工程师必须依靠自己的直觉和经验法则 。这些结构在神经元的层数、每层包含的神经元数量等方面可能会有所不同 。
神译局是怎么做到的?
文章图片

文章图片

梯度下降算法让网络沿着其“损失景观”向下走 , 其中高位值表示较大错误或损失 。算法旨在找到全局最小值 , 让损失最小化 。
理论上可以从多个结构出发 , 然后优化每个结构并选出最好的 。但GoogleBrain访问学者MengYeRen说:“训练需要花费相当多的时间 , 要想训练和测试每以个候选网络结构是不可能的 。这种做法扩展不好 , 尤其是如果要考虑到数百万种可能设计的话 。”