NLP新秀prompt跨界出圈，清华刘知远最新论文将它应用到VLM图像端( 二 ) 萧箫发自凹非寺NLP的新秀prom

文章图片

文章图片
当然，文本端也对应用上了prompt ，不过据刘知远老师介绍， prompt在文本端的应用，感觉不足以完全发挥prompt tuning的作用，因此这篇论文尝试了一种cross-modal prompt tuning的方法。
从论文的测试结果来看，这种方法在少样本学习（few-shot）的情况下，基本能取得比微调更好的效果。

文章图片

文章图片
不过，这也还是prompt在VLM上的另一种尝试。
它究竟适不适合用来处理CV领域的图像问题？
CV领域能借鉴吗？
在知乎上，有不少博主给出了自己的看法。
知乎@陀飞轮从方法上给出了两条路径：
如果是纯CV方向的prompt ，也就是类似于ViT将图片拆分patch ，每个patch实际上可以看成一个字符，那么也可以设计patch的prompt对模型进行训练，这其中也可以分成生成式(类似ViT)和判别式(类似self-supervised)两种方法。
知乎@yearn则认为，就目前来看， continuous prompt是最有可能transfer到CV领域的一系列工作。最近transformer准备大一统CV ， NLP ，将image输入转化为patch的形式，也让研究人员更方便借鉴NLP的方法学习prompt 。
当然， @yearn也表示，要想真正将prompt应用到CV领域，还存在两个需要解决的难题：
1、CV还不存在BERT ， GPT这样具有统治力的预训练模型，因此近期内可能很难将prompt 做few-shot learning这一套搬过来。
2、CV的downstream task更加复杂，感觉检测，分割这类任务要把prompt调work是一个非常大的工作量。
但也有匿名用户直接认为，图像上只能用非常别扭的方法做一些任务。当然，视频反而可能应用得更好。

文章图片

文章图片
【NLP新秀prompt跨界出圈，清华刘知远最新论文将它应用到VLM图像端】那么，你认为prompt能应用在CV领域吗？
来源：量子位