为数据打上“价值标签”,这个基地不一般

本文转自:科技日报
科技日报采访人员 王延斌
24岁的黄灿辉坐在位于山东省济南市明水国家经济开发区核心地段的办公室里 , 他左手敲打键盘 , 右手点击鼠标 , 目不转睛地对着面前的两台显示器操作 。
在人社部公布的国家职业分类目录中 , 黄灿辉的职业被认定为“人工智能训练师”(以下简称“AI训练师”) 。他所在的基地全名是百度智能云(山东)人工智能基础数据产业基地(以下简称“基地”) , 这是百度在全国布局的第二家、山东布局的第一家数据标注基地 。
目前 , 像黄灿辉一样的AI训练师 , 该基地内已经超过了1500名 。
为数据打上“价值标签”,这个基地不一般
文章图片

文章图片

正在工作的“人工智能训练师”(王延斌?摄)
“AI的老师” , 可让机器更“懂”数据
AI训练师是什么?在《人工智能训练师国家职业技能标准(2021年版)》中 , 他们是“使用智能训练软件 , 在人工智能产品实际使用过程中进行数据管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅助作业的人员 。”
数据是人工智能的“燃料” , 而数据标注是AI训练师的重要工作之一 , 被称为“人工智能的老师” 。在上述基地相关负责人李志伟看来 , “简单理解 , 数据标注就是为数据贴上标签 , 让AI机器人容易识别数据 , 更‘懂’数据 , 从而按照算法做出判断 , 更好的为人类服务 。”
中国工程院院士邬贺铨曾对此职业有过解释 。他表示:“比如AI训练师会进行智能驾驶的训练 。智能驾驶中需要让汽车自动识别马路 , 但如果只是将视频单纯地传给计算机 , 计算机无法识别 , 需要人工在视频中将道路框出 , 再交由计算机 , 计算机多次接受此类信息后 , 才能逐渐学会在视频和照片中识别出道路 。”
实际上 , 现在人们生活中常见的小度智能屏、小爱同学、天猫精灵等智能产品背后 , 都有AI训练师的身影 。
邬贺铨院士提到的智能驾驶 , 李志伟有着切身体会 。
自动驾驶是数据服务需求最大的行业之一 , 还需要大量的标注数据对模型进行训练和调优 。同时 , 除了“聪明的车” , 自动驾驶同样需要“智慧的路” , 通过车路协同的共同数据训练 , 才能实现降本增效 。因此 , 专业、高质量的数据才能够保证自动驾驶的精准和安全 。
“实现自动驾驶并不容易 , 因为数据大多是碎片化、非结构化 , 需要经过清洗、标注才能唤醒价值 。”李志伟说 。这就需要一支庞大数据采集团队 , 他们需要将全国各地路况信息 , 及时传送上来 , 此外还需要组建一支专业的数据加工处理团队 。
这些正是上述基地的强项 。
既培育AI训练师 , 也孵化科技企业
在8000多平方米的工作区里 , 1500多名AI训练师创造的价值十分惊人 。
“这里可提供连续帧标注、路况信息提取、停车点标注 , 包括3D点云障碍物、红绿灯、车道线 , 可为行人识别、车辆识别、红绿灯识别等技术提供精确训练数据 。”李志伟表示:这些数据经过模型训练 , 会应用到自动驾驶、智能交通、智慧城市等各个人工智能场景中 。
如果从去年六月份 , 百度智能云与明水开区签约共建百度山东数据标注基地之日算起 , 该基地的运行刚刚超过一年 。数据显示:截至今年四月份 , 累计产值超过3700万元 , 培育数据标注师1500余人 。
但在上述成绩单之外 , 该基地还有另一项重要职能 。
孙姣娜是数字经济领域的老兵 , 最终走上了自主创业的道路 。她在7年前便开始接触数据标注 , 但一路走来并不顺 , 特别受到疫情影响 , 企业陷入危机之中 。加入百度智能云山东数据标注基地成为孙姣娜的转折点 , 后者的赋能、培训为后者打开了另一扇门 。如今 , 孙姣娜的企业业务从山东扩展到了山西 。