神译局是怎么做到的?( 三 )


最重要的是 , 为了确保GHN-2能学会预测各种目标神经网络结构的参数 , Knyazev及其同事创建了一个包含100万种可能结构的独特数据集 。Knyazev说:“为了训练我们的模型 , 我们创建了尽量多样化的随机结构” 。
因此 , GHN-2的预测能力很有可能可以很好地泛化到未知的目标结构 。GoogleResearch的BrainTeam研究科学家ThomasKipf说:“比方说 , 人们使用的各种典型的最先进结构他们都可以解释 , 这是一大重大贡献 。”结果令人印象深刻
当然 , 真正的考验是让GHN-2能用起来 。一旦Knyazev和他的团队训练好这个网络 , 让它可以预测给定任务(比方说对特定数据集的图像进行分类)的参数之后 , 他们开始测试 , 让这个网络给随机挑选的候选结构预测参数 。该新的候选结构与训练数据集上百万结构当中的某个也许具备相似的属性 , 也可能并不相同——有点算是异类 。在前一种情况下 , 目标结构可认为属于分布范围内;若是后者 , 则属于分布范围外 。深度神经网络在对后者进行预测时经常会失败 , 所以用这类数据测试GHN-2非常重要 。
借助经过全面训练的GHN-2 , 该团队预测了500个以前看不见的随机目标网络结构的参数 。然后将这500个网络(其参数设置为预测值)与使用随机梯度下降训练的相同网络进行对比 。新的超网络通常可以抵御数千次SGD迭代 , 有时甚至做得更好 , 尽管有些结果更加复杂 。
借助训练好的GHN-2模型 , 该团队预测了500个之前未知的随机目标网络结构的参数 。然后将这500个(参数设置为预测值的)网络与利用随机梯度下降训练的同一网络进行对比 。尽管部分结果有好有坏 , 但新的超网络的表现往往可以跟数千次SGD迭代的结果不相上下 , 有时甚至是更好 。
对于图像数据集CIFAR-10 , GHN-2用于分布范围内的结构得到的平均准确率为66.9% , 而用经过近2500次SGD迭代训练出来的网络 , 其平均准确率为69.2% 。对于不在分布范围内的结构 , GHN-2的表现则出人意料地好 , 准确率达到了约60% 。尤其是 , 对一种知名的特定深度神经网络架构 , ResNet-50 , GHN2的准确率达到了58.6%这是相当可观的 。在本领域的顶级会议NeurIPS2021上 , Knyazev说:“鉴于ResNet-50比我们一般训练的结构大了有大概20倍 , 可以说泛化到ResNet-50的效果出奇地好 。” 。
不过GHN-2应用到ImageNet上却表现不佳 。ImageNet这个数据集规模很大 。平均而言 , 它的准确率只有27.2%左右 。尽管如此 , 跟经过5000SGD迭代训练的同一网络相比 , GHN-2的表现也要好一些 , 后者的平均准确度只有25.6% 。(当然 , 如果你继续用SGD迭代的话 , 你最终可以实现95%的准确率 , 只是成本会非常高 。)最关键的是 , GHN-2是在不到一秒的时间内对ImageNet做出了参数预测 , 而如果用SGD在GPU上预测参数 , 要想达到同样的表现 , 花费的平均时间要比GHN-2要多10000倍 。
Veli?kovi?说:“结果绝对是令人印象深刻 。基本上他们已经极大地降低了能源成本 。”
一旦GHN-2从结果样本中为特定任务选出了最佳的神经网络 , 但这个网络表现还不够好时 , 至少该模型已经过了部分训练 , 而且可以还进一步优化了 。与其对用随机参数初始化的网络进行SGD , 不如以GHN-2的预测作为起点 。Knyazev说:“基本上我们是在模仿预训练” 。超越GHN-2
尽管取得了这些成功 , 但Knyazev认为刚开始的时候机器学习社区会抵制使用图超网络 。他把这种阻力拿来跟2012年之前深度神经网络的遭遇相比拟 。当时 , 机器学习从业者更喜欢人工设计的算法 , 而不是神秘的深度网络 。但是 , 当用大量数据训练出来的大型深度网络开始超越传统算法时 , 情况开始逆转 。Knyazev:“超网络也可能会走上同样的道路 。”