NLP新秀prompt跨界出圈,清华刘知远最新论文将它应用到VLM图像端
萧箫 发自 凹非寺
NLP的新秀prompt , 最近着实有点火 。
文章图片
文章图片
还跨界火到了VLM(Visual-Language model,视觉语言模型) 。
像OpenAI的CLIP , 和南洋理工大学的CoOp都用了这种思路 。
现在 , 清华副教授刘知远团队最新发布的视觉语言模型论文中 , 也提出了一种基于prompt的新方法 。
文章图片
文章图片
据论文表示 , 这也是首次将prompt用于cross-model和零样本/少样本学习视觉定位中 。
从目前的NLP和VLM模型来看 , 不少基于prompt的模型效果都不错 , 让搞CV的同学们也有点心动——能不能给我们也整一个?
那么 , prompt究竟好在哪 , 应用于图像端后是否也能收获不错的效果?
一起来看看 。
与微调差别在哪?
最初 , 在NLP模型还不太大的时候 , 大家会采用“预训练+微调(fine-tune)”的方式设计针对特定任务的模型 。
这种模式下 , 研究人员会预先训练出一个效果比较好的模型 , 再在保留大部分模型参数的情况下 , 根据特定任务(下游任务)调整部分参数 , 使得它在这一任务上达到最好的效果 。
文章图片
文章图片
△
例如以BERT作为预训练模型
然而 , 随着预训练模型变得越来越大 , 微调的代价(训练时间、需求的数据量等)也在增加 , 研究人员有点吃不消了 , 开始找更好的方法 。
prompt就在这个时候出现了 , 只不过它这次是针对下游任务进行调整 。
它有点像是一种输入模板 , 用来给预训练模型“做出提示” , 预训练模型一“看到”它 , 就知道自己要完成什么任务 。
例如 , 在情感分类任务中 , 希望预训练模型能体会到输入句子的情绪 , 并给出形容词来对它分类:
输入“I love this movie.”后 , 提前给定一个prompt“This movie is [mask]” , 让预训练模型一看到它 , 就明白自己要输出“great/nice”等夸赞的形容词 。
这样训练后 , 预训练模型就能在看到对应prompt时 , 选出正确的词汇类型 , 而不是“跑偏”去做别的事情 。
由于prompt在NLP领域的应用效果挺好 , 因此在与NLP相关的VLM模型中 , 不少研究人员也开始尝试这种方法 。
清华将它用到图像端
当然 , 最初应用prompt的VLM模型 , 大多也还仍然是将它应用在文本端 。
据知乎@陀飞轮介绍 , 像OpenAI的CLIP、NTU的CoOp这两个VLM模型 , prompt应用都与NLP中的PET模型有点像 。
从它们的模型设计来看 , 都能很明显从文本端看出prompt的影子 , 像CLIP中的“A photo of a [mask]”:
文章图片
文章图片
以及CoOp在CLIP上进一步改进的、在训练中能够自行优化的prompt:
文章图片
文章图片
这些prompt的应用 , 整体改进了VLM模型整体的输出效果 。
不过 , 这也基本都是VLM在文本端的应用 , prompt到底适不适合被用在图像端上?
最新来自清华刘知远团队的论文中 , 就尝试着在VLM的图像端中 , 以涂色的方式建立了一种visual sub-prompts 。
- 小元件大工艺 第23届高交会初创科技企业展“新秀”荟萃
- SaaS新秀Asana,是如何炼成的?
- 喜报!宝山这位创业者获评“第七届上海市十佳创业新秀”
- WJ-700亮相航展,仅三年从模型蜕变成真,不是新秀却胜似新秀
- 搜狗老将易主、快手新秀入场,搜索江湖要变天
- 量子特攻武器新秀任务如何完成?武器新秀任务完成攻略
- 王者荣耀吕布新秀头像框怎么领取(吕布新秀头像框获取方法分享)
- 率土之滨新秀战法怎么玩 新秀战法垒实迎击解析
- 率土之滨垒实迎击使用攻略 率土之滨新秀战法垒实迎击分析及对比
- Anaconda Prompt如何开启文件目录(Anaconda Prompt开启文件目录流程解析)
