数十亿行代码训练！OpenAI升级Codex，将书面语言转为计算机代码( 二 ) 来源：OpenAI编辑：小匀Priscil

文章图片

文章图片
优点很多，局限性也不少
上面说了Codex不少优点，可以帮助用户使用新的代码库，减少上下文切换。
还可以让非程序员编写规范的代码。
但Open AI也承认， Codex还有许多不足之处。
首先， Codex的训练样本效率不高。
它的训练集上有数十亿行代码，包括来自GitHub的Python代码。
数十亿行代码。
多有经验的开发人员也不会遇到这么多代码啊！
但就算有这么多行代码的训练，计算机科学的学生可能比Codex-12B更能解决问题。
比如Codex演示人员下了一个指令：Say Hello World with empathy

文章图片

文章图片
「读书。」「书。」
出来的结果把演示人员都给整笑了。
除此之外， Open AI很实诚地在论文的预印本中指出Codex的其它缺点：
过度依赖生成的输出。
生成一些乍一看正确但其实是错误的代码。
因为互联网上的训练集或多或少带有种族歧视，经过训练后的Codex也会带有偏见。
Codex的出现会对程序员的就业市场产生冲击。
大规模参数量还会产生大量碳足迹。
目前Open AI Codex还处于私测阶段，后续会继续扩大规模。
希望Codex的到来能够让编程变得更加高效。
参考资料：
https://www.twitch.tv/videos/1114111652
https://arxiv.org/abs/2107.03374
https://openai.com/blog/openai-codex/#helloworld
来源：新智元