dall·e2的前世今生是什么？( 二 ) 能无痕ps

文章图片

文章图片

DALL·E2的基本原理与背后趋势
正如前文所说， DALL·E2是基于CLIP/unCLIP机制的，首先为了获得完整的图像生成模型，将CLIP图像嵌入解码器与一个先验模型，它从给定的文本标题生成可能的CLIP图像嵌入。而将完整文本条件图像生成堆栈则称为unCLIP ，因为它通过颠倒CLIP图像编码器生成图像。训练数据集由成对（x,y）的图像x和它们对应的标题y组成。设zi和zt分别为其CLIP图像和文本嵌入，其基本的架构如下：

文章图片

文章图片

笔者认为DALL·E2快速发展的背后，其实是人工智能由感知智能到认知智能的全面升级，而这其中的创造性是AI今后发展的最大助力，比如金融行业的呼叫中心需要分析客户的语气，以快速处理投诉类案例；出行类APP遇到客户说出某些关键词时，则需要立刻与110联动报警。这些应用场景其实都需要AI模型放弃原先死板僵硬的计算，而发展出某种活性。而一旦AI拥有创意，那么就可以和二次元特性进行结合，尤其是90、00后的年轻人们，在对话当中经常使用表情图、动态图等方式来表达情感，而将这些非语言信息的语义提取并翻译出来，就需要一定的创意了。
而再进一步， AI未来很可能会达到比你自己更懂你的程度。比如前段时间笔者经常熬夜加班，结果打开淘宝会发现总给我推荐防脱洗发水，当然目前已经推荐枸杞了。
不过这其实也说明认知智能的终极发展就是让用户在使用过程中对于“人工智能”不断淡化，甚至无感化。现在用户使用人工智能时还会明显感受到它的存在，比如你打开电视还需要说“我要看XXX的电视剧” ，还要对手机说“给XXX打电话”而真正实现认知智能之后，将会让你觉得你的这些交互行为变为多余，比如你回到家，人工智能系统会根据你的步态，推荐一个适合你当下身体状况的食谱，等你吃完饭下楼去超市的时候，你的手机会建议补充一些牛奶，因为你刚刚已经把家里最一袋牛奶喝掉了。相信读到这里读者也就会明白，化有形于无形，就是用户交互的最终奥义。
虽然短期来看，创造性AI还略显遥不可及，但是DALL·E2的出现，让我们看到了希望，让我们做好准备迎接新一代认知AI产品的到来。