百度入选ICML、IJCAI、ISIT等机器学习顶会的论文都在关注什么?( 三 )
百度IJCAI 2021论文
文章图片
文章图片
6.UniMP:基于掩盖标签预测策略的统一消息传递模型
Masked Label Prediction: Unified Message Passing Model for Semi-Supervised Classification
论文链接:https://arxiv.org/abs/2009.03509
GitHub: https://github.com/PaddlePaddle/PGL/tree/main/ogb_examples/nodeproppred/unimp
一般应用于半监督节点分类的算法分为图神经网络和标签传递算法两类 , 它们都是通过消息传递的方式(前者传递特征、后者传递标签)进行节点标签的学习和预测 。其中经典标签传递算法如LPA , 只考虑了将标签在图上进行传递 , 而图神经网络算法大多也只是使用了节点特征以及图的链接信息进行分类 。但是单纯考虑标签传递或者节点特征都是不足够的 。
百度提出的统一消息传递模型UniMP将上述两种消息统一到框架中 , 同时实现了节点的特征与标签传递 , 显著提升了模型的泛化效果 。UniMP以Graph Transformer模型作为基础骨架 , 联合使用标签嵌入方法 , 将节点特征和部分节点标签同时输入至模型中 , 从而实现了节点特征和标签的同时传递 。
简单的加入标签信息会带来标签泄漏的问题 , 即标签信息即是特征又是训练目标 。为此 , UniMP提出了标签掩码学习策略 。UniMP每一次随机将一定量的节点标签掩码为未知 , 用部分已有的标注信息、图结构信息以及节点特征来还原训练数据的标签 。最终 , UniMP在OGB三个半监督节点分类任务上取得SOTA效果 , 并在论文的消融实验上 , 验证了方法的有效性 。
文章图片
文章图片
7.基于知识蒸馏和跨模态匹配的弱监督稠密视频描述生成
Weakly Supervised Dense Video Captioning via Jointly Usage of Knowledge Distillation and Cross-modal Matching
论文链接:https://arxiv.org/abs/2105.08252
稠密视频描述生成是近两年来多模态生成的热门研究方向之一 , 其挑战在于对大规模领域标注数据的强依赖 。为了解决这个难题 , 本文创新性地提出了结合知识蒸馏(Knowledge Distillation)和跨模态匹配(Cross-modal Matching)的弱监督稠密视频描述生成模型 。在不需要视频精彩片段标注的前提下 , 仅使用外领域多源视频描述数据 , 即可同时实现视频精彩片段提取和细粒度的内容描述生成 。进一步地 , 我们首次使用图文描述数据显著增强了视频描述生成的效果 。
实验表明 , 本文提出的方法能够有效利用外部数据集的知识 , 准确的定位视频的精彩片段并生成流畅、准确的描述文本 。在精彩片段提取子任务上 , 基于我们提出的知识蒸馏策略训练的模型甚至超过全监督数据训练的模型的效果 。在描述生成子任务上 , 本文在ActivityNet Captioning数据集上取得了当前的最优表现 。同时 , 本文也为该任务使用大规模弱监督数据提供了一种有效的解决方案 。
文章图片
文章图片
8.Seq2Subgraph:一种基于子图结构的医疗文本处理新框架
A Novel Sequence-to-Subgraph Framework for Diagnosis Classification
基于电子病历文本的AI辅助诊断是智慧医疗领域最重要和最具挑战的问题之一 。传统的NLP深度学习在开放域下以序列模型建模文本为主 , 若以该方式处理医疗文本(例如电子病历)则难以表达复杂的医学概念之间二元或多元知识关系 , 难以将蕴含在文本段落中的复杂医学关系与临床诊疗推理结合 。
- 百度地图升级智能手表导航 可查看公交地铁到站提醒
- 威海3个项目入选工信部示范项目公示名单
- 喜报|《乘风破浪去远洋》入选自然资源部2021年优秀科普图书名单
- 百度地图新增新能源导航2.0,号称智能充电规划,长途放心出发
- 百度与美团等十余家企业互联互通,春节开放百亿流量拆互联网围墙
- 全省唯一!威海一平台入选首批国家级纺织服装创意设计示范园区(平台)
- 徐彦辉团队科研成果入选2021年度“中国生命科学十大进展”
- 云朵软件“基于大数据的‘烟台文旅云’平台”入选文化和旅游部《2021年智慧旅游典型案例》
- 两年内有望实现“数字人自由”?百度希望通过平台输出落地能力
- 他趣入选新一批厦门市重点上市后备企业名单 肩负更大责任与担当