掌握这项技术,拿到进入元宇宙的门票( 三 )


生成 / 合成的数据不仅仅作为元宇宙的必备要素 , 同时也是训练模型的重要原料 。如前面提到的特斯拉会利用虚拟现实技术来生成驾驶场景的边缘场景和生产更多的新视角 。如果我们有合适的工具来构建数据集 , 就可以省去繁琐地给数据手工打标的过程 , 更好地对计算机视觉算法进行开发和训练 。
人眼能看到的东西远不如现实世界丰富 , 我们构建的算法只能关注到人类理解和标记出的信息范围内 。但事实可能并不是那样 , 我们可以为传感器构建算法 , 来测量超越人类感知范围的东西 。这些算法可以在虚拟现实中通过编程的方式进行有效训练 。
知名数据分析公司 Gartner 认为在未来 3 年中 , 合成数据将比真实数据更占优势 。在合成计算机视觉(SCV)中 , 我们使用虚拟现实引擎训练计算机视觉模型 , 并将训练好的模型部署到现实世界 。
能效高模型(算力层面)
尽管现在学界很多 SOTA 模型很难离线运行在一些手机等可穿戴设备上 , 模型越重相应的延迟也会越长 , 如果完全放到云端运行会引入成本、网络时延、隐私等问题 。同时占用大量的云端算力 , 也会产生海量能耗而不利于整个社会碳达峰 / 碳中和的诉求 。
因此未来高能效的推理模型势必成为主流趋势 , 第一个方案就是分布式训练 , 即在矩阵当中引入 0 进行神经网络的训练 , 因为不是全部的维度都重要 , 尽管可能会影响性能 , 但是会大规模减少点乘运算从而减少网络训练时间 。同时引入量化训练、剪枝、感知量化训练等也可以帮助大幅降低模型推理时间 , 从而提升模型能效 , 同时极大程度的避免因量化训练带来的精度损失 。通过知识蒸馏训练一个高性能的 teacher 模型来训练 student 模型也可以帮助提升模型能效 。
总结
笛卡尔说过:“我思故我在” , 因为意识决定了我的存在 。海德格尔后来对笛卡尔的观点进行了批判 , 他提出“我在故我思” , 因为人们的存在才有意识 , 才能感知这个世界 , 如果人不是人、而是存在于其他的生物体里 , 比如蝴蝶、鲸鱼 , 那么人对于世界的认知也会不同 。
笔者以为 , 无论是传统基于表征的深度学习 , 还是新提出的具身的、基于存在与时间的具身智能都还有很长的路要走 。
但毫无疑问 , 如果要做到一个通用型的人工智能 , 多模态的、具身的、主动交互式的人工智能体一定是必由之路 。
为何如此笃定?因为人工智能是人类 - 高级智慧体定义训练的一种人造的、类人的高级智能 。既然如此 , 是不是应该具备人类这种高级智能体的特性呢?比如生物体的进化、比如高层次的智能:推理、演绎、下棋等 , 也包括低层次的智能:行走、交谈、感知 。面向未来的 AI 产品方向应该是从传统的 2D 平面人工智能(比如图像分类、目标检测、分割等任务)向 3D 空间、向 4D 的方向发展(存在与时间) 。
我们看到短视频 / 视频 vlog 这几年较原来的微博图文有了极大发展 , 因为它们可以带给用户基于时空的、环境的更多信息;发展向给用户更加沉浸式的体验 , 比如 AR/VR , 提供的是基于空间、环境、时间的全方位的感知与体验;发展向具身的虚拟数字人 /AI 智能助理 , 人形的机器人例如 tesla bot , 是视觉 + 语音的多模态主动式的与用户交互;发展向智能车 , 对外适应环境适配复杂路况、交通情况进行智能驾驶 , 对内为驾驶员和乘客提供真实的“第三空间” , 满足用户的不同场景需求 。
虽然人类的肉身进化缓慢、但人类精神创造的科技进化日新月异 。作为一名科技工作者和 AI 从业者 , 我无比期盼那一天的到来 , 期待 AI 创造一个让渺小人类抵御外部环境突变的世界 , 赋人类以力量 , 赋岁月以文明 。