ICML国际机器学习顶会来袭,格物钛分享AI开放数据
文章图片
文章图片
ICML 2021
第三十八届国际机器学习大会(ICML)于2021年7月18日正式召开 。ICML作为由国际机器学习学会(IMLS)主办的年度机器学习国际顶级会议 , 致力于展示和发表与人工智能、统计学和数据科学等密切相关领域以及重要应用领域的研究成果 , 推动人工智能分支机器学习的发展 。
一年一度的ICML汇聚了众多高水平的学者、工业研究人员、企业家以及工程师 , 共同分享科技领域的前沿资讯 。格物钛作为今年ICML 2021的主办人之一 , 有幸参与ICML Expo分享大会 , 与机器学习领域内的研究者们共同探讨开放数据的未来 。
文章图片
文章图片
ICML Sponsor
在过去的几十年里 , ImageNet、KITTI 和 MNIST 等开放数据一直是人工智能研究的核心 。随着开放数据的兴起 , 越来越多的研究人员开始意识到数据在人工智能发展中的重要性 。行业专家吴恩达和许多其他开发人员正在倡导从以模型为中心的 AI 过渡到以数据为中心的 AI 开发 。
在ICML 2021 Expo上 , 格物钛创始人兼CEO崔运凯从当前开放数据的一些痛点角度出发 , 分享了格物钛对于公开数据集的思考以及解决方案 。
以下是崔运凯演讲《探究开放数据的未来》中分享的有关“开放数据的痛点”:
数据是AI研究的核心
文章图片
文章图片
MNIST 数据集
第一个我想分享给大家的例子是MNIST数据集 。这是一个非常有名的数据集 , 最初在1998年被创造出来 。根据谷歌学术(google scholar) , 目前已经有大约50000篇研究论文是与该数据集有关或直接使用该数据集 。最初 , 这个数据集的量就非常大 , 包含了60000张训练图像以及10000张测试图像 。但是每张图像都非常小 。一张图像只有28*28个像素点 。MNIST数据集激发了很多机器学习算法方面的创新:从线性回归模型到支持向量机再到神经网络 。
文章图片
文章图片
ImageNet 数据集
第二个我想分享的数据集是ImageNet数据集 。它同样非常有名---李飞飞教授在2009年的国际计算机视觉与模式识别会议(CVPR)中初次展示了该数据集 。根据谷歌学术的数据 , 一篇基于ImageNet数据集的论文“ImageNet: a Large-Scale Hierarchical Image Database”也被引用了30000次 。比起MNIST数据集 , ImageNet数据集会更大:该数据集包含了40000000(40million)张数据集并涵盖了20000个种类 。在这张PPT的右边 , 我们可以看到ImageNet比赛中的模型预测错误率(error rate)在逐年降低 。颠覆性的机器学习模型AlexNet也使用了ImageNet数据集作为基准并获得了10%的预测准确性提升 。比起之前的许多模型 , 这也是非常显著的进步 。
文章图片
文章图片
KITTI 数据集
第三个我想介绍的数据集是KITTI 。该数据集在自动驾驶领域也是非常有名 。KITTI是一个相对而言比较新的数据集 , 在Max Plank Institute , Toyota institute和KIT合作下 , KITTI于2012年被创造出来 。关于KITTI的论文“Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite”被引用了7000次 。在自动驾驶领域 , KITTI是最早并且最有名的数据集之一 , 相信在座的很多人也或多或少接触过这个数据集 。
- 冬奥在即!“AI教练”、滑雪机器人,沪上高校科技助力“冰雪精灵”!
- 小米智能设备再次荣获国际安全认证 理论与实践并行物联网安全迈向新征程
- 京东集团与Shopify达成战略合作 打造京东国际海外商家入华新通道
- 打疫苗不靠人?不用针?智能无针机器人有望“代劳”
- 身姿矫健!上海交大自主研发滑雪机器人:有六只脚,能灵活避障
- 酷炫!南海教师花费七年心血,研发出独家魔方机器人!
- 小米机器狗“铁蛋”升级,支持app快连
- “螺旋桨”机器人
- 仙籁Silent Angel首次亮相2022国际CES展
- 谷小御解放家庭主妇双手——智能炒菜机器人