进化论与智能体进化( 二 )


其中Presence是meta为OculusVR头显开发者提供的元宇宙基础开发套件 , 提供的即为基于计算机视觉和智能语音技术的工具集 , 分别是insightsdk、interactionsdk和voicesdk 。
insightsdk基于空间锚点和场景理解技术 , 可以帮助开发者在真实的空间中进行虚拟物体的摆放、且符合物品之间的空间关系、遮挡关系 , 类似google推出的googleARcore和苹果的ARkit;interactionsdk主要基于手部动作的交互 , 具体操作包括指、戳、捏、投射等;voicesdk是由wit.ai自然语言平台提供支撑 , 可以为开发者提供语音导航和搜索等功能 。
进入元宇宙需要智能感知与交互技术这张门票 , 而这张门票里的视觉和语音技术是最重要的基石 。
自动驾驶 , 全视觉方案撑起的特斯拉万亿市值
2021年 , 被称作是自动驾驶的元年 。
交通运输部发布了《促进道路交通自动驾驶技术发展和应用的指导意见》 , 政策利好自动驾驶行业的发展 。
过去一年我们见证了一批自动驾驶独角兽公司的快速崛起、也见证了特斯拉的万亿市值神话 。在2021的teslaOpenAIday上 , 高级总监AndrejKarpathy介绍了特斯拉的最新自动驾驶进展 。
众所周知 , 特斯拉摒弃了激光雷达 , 采用了全视觉方案 , 通过八个RGB摄像头完成对于空间的感知和建模 。通过Transformer来实现多机位特征到结果的预测 , 通过融入不同相机的位置信息 , 获得准确的空间位置映射 。
但视觉信息本身缺乏时序信息 , 因此特斯拉构建了视频时序网络框架 , 融入IMU信息提升定位/跟踪的准确性 , 并提出了spatialRNNvideo模块 。构建了千人的自有标注团队、自动标注平台工具 , 从2D-3D到如今的4D标注(时空标注) , 即一次标注可覆盖多机位和多帧 , 3D、4D的数据可以通过目标的移动、方向的转换 , 获得不同角度、视野的2D图像 。同时通过环境(光照、天气、角度)、车辆、人、道路等场景的仿真、动态化的参数调节目标数量 , 用于重构无穷无尽的数据流从而重构各种场景来不断训练与提升模型的边界 。
同时 , 特斯拉也对外展示了自研的dojo集群 , 一种对称的分布式计算架构 , 区别于主流的非对称的分布式架构 , 如此的设计为tesla带来了横向扩展算力 , 兼顾算力的同时 , 具备很好的编程灵活性 。“算法+数据+算力”三轮驱动铸造了特斯拉的万亿市值 , 并使其将竞争对手远远甩在身后 。
结合今年技术的突破创新 , 面向未来的思考 , 从人工智能的三驾马车—算法、数据和算力 , 笔者总结了以下三大趋势:
2022 , 三大趋势值得关注
面向内容生成的AIGC(算法层面)
我们已经逐步迈向了元宇宙时代 。
元宇宙区别于传统的游戏世界的最大差异是 , 元宇宙是现实宇宙的数字孪生 , 遵循客观世界的物质唯一性等客观规律 , 因此元宇宙世界也需要孪生大量现实世界的物体或是对于现实世界的人物进行重建 , 而这些海量的重建必然不能是按照传统游戏世界中的方法 , 由CG工程师一个个手工制作、其效率远远无法满足实际场景的需求 。
因此面向内容生成的AIGC(算法层面)是必要的 。相关技术方向包括:图像超分、domain迁移、外推、类似CLIP(对比式语言图像预训练模型 , 可以从自然语言监督中有效学习视觉模型)的隐式神经表示—通过文字描述来生成图像等多模态的(CV+NLP)等相关技术 。
SCV合成(数据层面)
虚拟现实引擎有专门的生成合成数据的组件(比如NVIDIAIsaacSim , UnityPerception) , 这些合成数据不仅美观 , 而且有助于训练更好的算法 。
生成/合成的数据不仅仅作为元宇宙的必备要素 , 同时也是训练模型的重要原料 。如前面提到的特斯拉会利用虚拟现实技术来生成驾驶场景的边缘场景和生产更多的新视角 。如果我们有合适的工具来构建数据集 , 就可以省去繁琐地给数据手工打标的过程 , 更好地对计算机视觉算法进行开发和训练 。