AI再突破:小鼠也分等级,它的身份竟刻在大脑里( 三 )


行为理解「图灵测试」:HAKE的「抹去手法」和人类十分相似 , 侧面印证了在行为「可解释性」的理解上与人类相近 。
这项特殊的「图灵测试」分别让HAKE和人类受试者去抹掉图像中的一些关键像素 , 从而让人无法分辨出图片想表达的内容 。
而负责验证结果的人类志愿者则需要针对处理后的图像做出判断 。如果答案错误 , 就说明执行「抹去操作」的AI/人可以较好地理解图中的行为了 。
结果显示 , 对于那些被HAKE抹过的图片 , 人类的正确率只有差不多59.55% , 比随机猜测的50%高了不到10% 。
AI再突破:小鼠也分等级,它的身份竟刻在大脑里
文章图片

文章图片

图6.HAEK的「抹去手法」和人类十分相似
二、行为对象可泛化的脑启发计算模型
对于某个特定行为(如「洗」) , 人类大脑能抽象出泛化的行为动态概念 , 适用于不同的视觉对象(如衣服、茶具、鞋) , 并以此做出行为识别 。
神经科学领域研究发现 , 对于连续视觉信号输入 , 在人类的记忆形成过程中 , 时空动态信息与物体对象信息是通过两个相对独立的信息通路到达海马体以形成完整的记忆 , 这个带来行为对象可泛化的可能性 。
简单来说就是 , 当你看过「狗跳」之后 , 如果一只完全不同的动物 , 比如猫 , 也做了相同的动作 , 这时你依然能够理解看到的是「猫跳」 。
AI再突破:小鼠也分等级,它的身份竟刻在大脑里
文章图片

文章图片

图7.解耦合地处理行为对象概念和行为动态概念 , 带来的泛化性
基于脑科学启发 , 卢策吾团队通过模仿人类的认知行为对象与动态概念在各种脑区独立工作的机制 , 提出了适用于高维度信息的半耦合结构模型(SCS) 。
SCS可以自主发掘(awareness)行为视觉对象概念与行为动态概念 , 并将两种概念分别记忆存储在相对独立的两部分神经元上 , 经过深度耦合模型框架下设计信息独立误差反传(decoupleback-propagation)机制 , 来约束两类神经元只能去关注自己的概念 , 从而初步实现了行为理解对行为主体对象的泛化 。
所提出半耦合结构模型工作发表在《自然·机器智能》 , 并获得2020年世界人工智能大会优秀青年论文奖 。
AI再突破:小鼠也分等级,它的身份竟刻在大脑里
文章图片

文章图片

图8.可视化表征「视觉对象」与「行为动态概念」的神经元(左:视频序列;中:对象神经元;右:动态神经元)
三、人体姿态估计
人体姿态估计是行为理解的重要基础 , 也是一个如何在结构约束下获取精准感知的问题 。
为此 , 团队了提出图竞争匹配、姿态流全局优化、神经-解析混合的逆运动优化等算法 , 系统性地解决人体运动结构感中密集人群干扰大、姿态跟踪不稳定、三维人体常识性错误严重等难题 , 前后发表CVPR , ICCV等计算机视觉顶会论文20多篇 。
AI再突破:小鼠也分等级,它的身份竟刻在大脑里
文章图片

文章图片

图9.结构感知的工作(左:密集人群姿态估计;中:姿态跟踪;右:三维人体形体估计)
相关研究成果积累形成开源系统AlphaPose , 并被传感器领域、机器人领域、医学领域、城市建设领域广泛使用 。
图10.AlphaPose
在姿态估计AlphaPose后 , 团队进一步形成开源视频行为理解开源框架AlphAction(https://github.com/MVIG-SJTU/AlphAction) 。