NLP新秀prompt跨界出圈,清华刘知远最新论文将它应用到VLM图像端( 二 )


文章图片

文章图片
当然 , 文本端也对应用上了prompt , 不过据刘知远老师介绍 , prompt在文本端的应用 , 感觉不足以完全发挥prompt tuning的作用 , 因此这篇论文尝试了一种cross-modal prompt tuning的方法 。
从论文的测试结果来看 , 这种方法在少样本学习(few-shot)的情况下 , 基本能取得比微调更好的效果 。
NLP新秀prompt跨界出圈,清华刘知远最新论文将它应用到VLM图像端
文章图片

文章图片
不过 , 这也还是prompt在VLM上的另一种尝试 。
它究竟适不适合用来处理CV领域的图像问题?
CV领域能借鉴吗?
在知乎上 , 有不少博主给出了自己的看法 。
知乎@陀飞轮从方法上给出了两条路径:
如果是纯CV方向的prompt , 也就是类似于ViT将图片拆分patch , 每个patch实际上可以看成一个字符 , 那么也可以设计patch的prompt对模型进行训练 , 这其中也可以分成生成式(类似ViT)和判别式(类似self-supervised)两种方法 。
知乎@yearn则认为 , 就目前来看 , continuous prompt是最有可能transfer到CV领域的一系列工作 。最近transformer准备大一统CV , NLP , 将image输入转化为patch的形式 , 也让研究人员更方便借鉴NLP的方法学习prompt 。
当然 , @yearn也表示 , 要想真正将prompt应用到CV领域 , 还存在两个需要解决的难题:
1、CV还不存在BERT , GPT这样具有统治力的预训练模型 , 因此近期内可能很难将prompt 做few-shot learning这一套搬过来 。
2、CV的downstream task更加复杂 , 感觉检测 , 分割这类任务要把prompt调work是一个非常大的工作量 。
但也有匿名用户直接认为 , 图像上只能用非常别扭的方法做一些任务 。当然 , 视频反而可能应用得更好 。
NLP新秀prompt跨界出圈,清华刘知远最新论文将它应用到VLM图像端
文章图片

文章图片
【NLP新秀prompt跨界出圈,清华刘知远最新论文将它应用到VLM图像端】那么 , 你认为prompt能应用在CV领域吗?
来源:量子位