数十亿行代码训练!OpenAI升级Codex,将书面语言转为计算机代码( 二 )


数十亿行代码训练!OpenAI升级Codex,将书面语言转为计算机代码
文章图片

文章图片
优点很多 , 局限性也不少
上面说了Codex不少优点 , 可以帮助用户使用新的代码库 , 减少上下文切换 。
还可以让非程序员编写规范的代码 。
但Open AI也承认 , Codex还有许多不足之处 。
首先 , Codex的训练样本效率不高 。
它的训练集上有数十亿行代码 , 包括来自GitHub的Python代码 。
数十亿行代码 。
多有经验的开发人员也不会遇到这么多代码啊!
但就算有这么多行代码的训练 , 计算机科学的学生可能比Codex-12B更能解决问题 。
比如Codex演示人员下了一个指令:Say Hello World with empathy
数十亿行代码训练!OpenAI升级Codex,将书面语言转为计算机代码
文章图片

文章图片
「读书 。」「书 。」
出来的结果把演示人员都给整笑了 。
除此之外 , Open AI很实诚地在论文的预印本中指出Codex的其它缺点:
过度依赖生成的输出 。
生成一些乍一看正确但其实是错误的代码 。
因为互联网上的训练集或多或少带有种族歧视 , 经过训练后的Codex也会带有偏见 。
Codex的出现会对程序员的就业市场产生冲击 。
大规模参数量还会产生大量碳足迹 。
目前Open AI Codex还处于私测阶段 , 后续会继续扩大规模 。
希望Codex的到来能够让编程变得更加高效 。
参考资料:
https://www.twitch.tv/videos/1114111652
https://arxiv.org/abs/2107.03374
https://openai.com/blog/openai-codex/#helloworld
来源:新智元