掌握这项技术,拿到进入元宇宙的门票( 二 )


其中 Presence 是 meta 为 Oculus VR 头显开发者提供的元宇宙基础开发套件 , 提供的即为基于计算机视觉和智能语音技术的工具集 , 分别是 insight sdk、interaction sdk 和 voice sdk 。
insight sdk 基于空间锚点和场景理解技术 , 可以帮助开发者在真实的空间中进行虚拟物体的摆放、且符合物品之间的空间关系、遮挡关系 , 类似 google 推出的 google AR core 和苹果的 AR kit;interaction sdk 主要基于手部动作的交互 , 具体操作包括指、戳、捏、投射等;voice sdk 是由 wit.ai 自然语言平台提供支撑 , 可以为开发者提供语音导航和搜索等功能 。
进入元宇宙需要智能感知与交互技术这张门票 , 而这张门票里的视觉和语音技术是最重要的基石 。
自动驾驶 , 全视觉方案撑起的特斯拉万亿市值
2021 年 , 被称作是自动驾驶的元年 。
【掌握这项技术,拿到进入元宇宙的门票】交通运输部发布了《促进道路交通自动驾驶技术发展和应用的指导意见》 , 政策利好自动驾驶行业的发展 。
过去一年我们见证了一批自动驾驶独角兽公司的快速崛起、也见证了特斯拉的万亿市值神话 。在 2021 的 tesla Open AI day 上 , 高级总监 Andrej Karpathy 介绍了特斯拉的最新自动驾驶进展 。
众所周知 , 特斯拉摒弃了激光雷达 , 采用了全视觉方案 , 通过八个 RGB 摄像头完成对于空间的感知和建模 。通过 Transformer 来实现多机位特征到结果的预测 , 通过融入不同相机的位置信息 , 获得准确的空间位置映射 。
但视觉信息本身缺乏时序信息 , 因此特斯拉构建了视频时序网络框架 , 融入 IMU 信息提升定位 / 跟踪的准确性 , 并提出了 spatial RNN video 模块 。构建了千人的自有标注团队、自动标注平台工具 , 从 2D-3D 到如今的 4D 标注(时空标注) , 即一次标注可覆盖多机位和多帧 , 3D、4D 的数据可以通过目标的移动、方向的转换 , 获得不同角度、视野的 2D 图像 。同时通过环境(光照、天气、角度)、车辆、人、道路等场景的仿真、动态化的参数调节目标数量 , 用于重构无穷无尽的数据流从而重构各种场景来不断训练与提升模型的边界 。
同时 , 特斯拉也对外展示了自研的 dojo 集群 , 一种对称的分布式计算架构 , 区别于主流的非对称的分布式架构 , 如此的设计为 tesla 带来了横向扩展算力 , 兼顾算力的同时 , 具备很好的编程灵活性 。“算法 + 数据 + 算力”三轮驱动铸造了特斯拉的万亿市值 , 并使其将竞争对手远远甩在身后 。
结合今年技术的突破创新 , 面向未来的思考 , 从人工智能的三驾马车 — 算法、数据和算力 , 笔者总结了以下三大趋势:
2022 , 三大趋势值得关注
面向内容生成的 AIGC(算法层面)
我们已经逐步迈向了元宇宙时代 。
元宇宙区别于传统的游戏世界的最大差异是 , 元宇宙是现实宇宙的数字孪生 , 遵循客观世界的物质唯一性等客观规律 , 因此元宇宙世界也需要孪生大量现实世界的物体或是对于现实世界的人物进行重建 , 而这些海量的重建必然不能是按照传统游戏世界中的方法 , 由 CG 工程师一个个手工制作、其效率远远无法满足实际场景的需求 。
因此面向内容生成的 AIGC(算法层面)是必要的 。相关技术方向包括:图像超分、domain 迁移、外推、类似 CLIP(对比式语言图像预训练模型 , 可以从自然语言监督中有效学习视觉模型)的隐式神经表示 — 通过文字描述来生成图像等多模态的(CV+NLP)等相关技术 。
SCV 合成(数据层面)
虚拟现实引擎有专门的生成合成数据的组件(比如 NVIDIA IsaacSim , Unity Perception) , 这些合成数据不仅美观 , 而且有助于训练更好的算法 。