ICML国际机器学习顶会来袭，格物钛分享AI开放数据( 三 ) ICML2021第三十八届国际机器学习

不仅如此……

文章图片

文章图片
除了以上几个使用公开数据集的问题，创造一个公开数据集也是非常难的。首先，收集数据就有很大的开销。如果你想准备一个类似KITTI的数据集，那么你就必须购买很多昂贵的传感器（包括雷达），然后要把它们组装在一起并装载到车上。当然了，你也得雇佣一个司机。无论天气如何，你都得开车出去收集数据。在收集完了数据之后，你还需要把数据从硬盘中导出，然后进行数据清理，并把处理好的数据发送给人工去标注。每一个步骤都很费时费力，同时也会产生很大的花费。
即使你把以上的步骤都做好了，下一步的托管也需要很多的资源：你可能需要雇一些人（学生或者是工程师）来建立托管数据的服务器和网站以及添加一些其他的功能来方便用户上传和比较数据集。
当一切前期准备都完成了之后，除了干等着别人来使用你的公开数据集，有时候你也要去主动地宣传一个新的数据集，但本质上你也在做市场的工作。这就导致了吸引用户来使用你的公开数据集会很难。你可能要去很多的展会和论坛露脸来给你的数据集打广告，由此来吸引对的人来瞧并使用你的数据集。
除此之外，如何获得最初的社群成员并和他们互动也不简单。你很有可能在最开始要通过邮件回答社区成员的每一个问题，即使这些问题会有重复。在前期你很难号召社区成员主动的互帮互助。
想要了解格物钛如何通过公开数据集解决以上行业内的痛点：
请关注《ICMLExpo Talk：如何解决开放数据的行业痛点》
来源：搜狐