gpt-3是人工智能的一个重要因素( 二 )


从规模上看 , 巨头的模型一个比一个厉害 , 突破竞速赛好不热闹 。不过“内里”有差别 , 不同模型参数无法简单对比 。
例如 , 谷歌SwitchTransformer , 采用了“Mixtureofexperts”(多专家模型) , 把数据并行、模型并行、expert并行三者结合在一起 , 实现了某种意义上的“偷工减料”——增大模型参数量 , 但不增大计算量 。不过 , 降低计算量后的效果有无损失 , 谷歌论文中没有过多正面提及 。
再例如 , 浪潮发布的“源1.0” , 参数规模2457亿 , 采用了5000GB中文数据集 , 是一个创作能力、学习能力兼优的中文AI大模型 。据开发者介绍 , 由于中文特殊的语言特点 , 会为开发者带来英文训练中不会遇到的困难 。这意味着 , 想要做出和GPT-3同样效果的中文语言模型 , 无论是大模型本身 , 还是开发者 , 都需要付出更大的力气 。
不同模型各有侧重点 , 但秀肌肉的意图是通用的——做大模型 , 大力出奇迹 。
二、瓶颈在哪里?
在斯坦福大学众多学者联合撰写的文章《OntheOpportunitiesandRisksofFoundationModels》中 , 作者们一针见血地指出了以GPT-3、SwitchTransformer、源1.0代表的AI基础模型的两大意义 , 也是风险所在:同质化与涌现 。
所谓同质化 , 是指目前几乎所有最先进的NLP模型 , 都源自少数基础模型之一 , 例如GPT、BERT、RoBERTa、BART等 , 它们成了NLP的“底座” 。
论文指出 , 虽然基础模型的任何改进可以为所有NLP任务带来直接改善 , 但其缺陷也会为所有任务继承 。所有人工智能系统都可能继承一些基础模型相同的错误偏误 。
所谓“涌现” , 指的是在巨量化的AI模型中 , 只需给模型提供提示 , 就可以让其自动执行任务 。这种提示既没有经过专门训练 , 也不被期望在数据中出现 , 其属性即为“涌现” 。
涌现意味着系统的行为是隐式归纳而不是显式构造的 , 故令基础模型显得更难以理解 , 并具有难以预料的错误模式 。
总而言之 , 体现在效果上 , 以GPT-3为例 , “同质化”与“涌现”的风险已经显现 。
例如 , 一位来自KevinLacker的网友在与GPT-3对话中 , 发现其在对比事物的重量、计数方面缺乏基本常识和逻辑 。
难以预料的错误还包括严重的“系统偏见” 。Facebook人工智能主管JeromePesenti在要求GPT-3讨论犹太人、黑人、妇女等话题时 , 系统产生了许多涉及性别歧视、种族歧视的“危险”言论 。
有病人对GPT-3表示自己感觉很糟糕 , “我应该自杀吗” , GPT-3回答:“我认为你应该这么做 。”
类似的案例还有很多 , 也许正如波特兰州立大学计算机科学教授MelanieMitchell所认为的 , GPT-3具有“令人印象深刻、看似智能的性能和非人类的错误 。”
然而 , 由于训练成本过于昂贵 , 模型修正并不容易 。在GPT-3研究过程中 , 研究人员就承认:“不幸的是 , 过滤中的一个bug导致我们忽略了一些(训练集与测试集的)重叠 , 由于训练的成本的原因 , 重新训练模型是不可行的 。”
模型最大的意义 , 反过来成了约束其发展的瓶颈所在 , 对于这些问题 , 业内尚没有特别有效的解决方案 。
三、AI大模型能带来强人工智能吗?
在无数科幻片中 , 机器人拥有了人一样的智能 , 甚至最终统治人类 。这类机器人远远超越了普通AI层面 , 实现了AGI(通用人工智能) , 即拥有人一样的智能 , 可以像人一样学习、思考、解决问题 。
苹果联合创始人史蒂夫·沃兹尼亚克为AGI提出了一种特殊测试方案——“咖啡测试” 。将机器带到普通的家庭中 , 让它在没有任何特定的程序帮助下 , 进入房间并煮好咖啡 。它需要主动寻找所需物品 , 明确功能和使用方法 , 像人类一样 , 操作咖啡机 , 冲泡好饮品 。能够做到这一点的机器 , 即通过了“AGI测试” 。