张璇法官:不当抓取新浪微博数据,舆情服务公司被判500余万元丨一等奖文书展示( 三 )


(二)某软件公司抓取的微博平台数据类型及该行为的性质
基于前文对微博平台数据类型的区分 , 某软件公司第一项被诉行为是否构成不正当竞争 , 关键在于判断其所抓取的数据是微博平台公开数据或非公开数据 。对此 , 本院评述如下:
第一 , 鹰击系统中展示的新浪微博发布时间较之微博平台前端的发布时间更为精确 , 某软件公司虽称该展示效果系因其网络爬虫抓取了微博平台网页源代码中存在精确到秒的代码所致 , 但其并未就此提交证据;其专家辅助人所展示的微博平台网页爬虫视图截图来源及制作时间均不明确 , 不足以证明微博平台中微博精确到秒的发布时间系某技术公司未设定访问权限的公开数据 。
第二 , 法庭勘验显示 , 在用户未登录状态下 , 仅可查看数量有限的新浪微博 , 仅可使用有限的微博平台功能 , 用户登录后才可访问到更多数据 , 使用更多功能 。而根据某技术公司提交的公证书 , 当鹰击系统用户输入关键词时 , 不论是否属于微博平台用户登录后才可访问的微博平台数据 , 均可被实时采集和展示;此外 , 鹰击系统中的数据分析报告显示其监测到的、与一个关键词相关的新浪微博数量及内容均超出了用户在非登录状态下可正常访问到的内容 。某软件公司称数据分析报告中显示的新浪微博数量包括了微博的转发数 , 明显与其产品逻辑矛盾;其所称“实时”采集仅指实时响应用户需求 , 亦与其公开宣传的产品特点存在矛盾 。
第三 , 微博平台用户发布微博后自行删除或因其他原因被删除的微博 , 用户即便在登录状态下亦无权限查看 , 但这部分数据却可在鹰击系统中得到展示 。根据某技术公司专家辅助人阐述 , 此部分数据虽在微博产品任何前端均无法展示 , 但仍存储在微博平台服务器中并需调用特定接口才可获取 。某软件公司虽称该些数据系在其被删除之前即采集 , 但该种说法显然与其关于鹰击系统只有在用户输入相关关键词后才开始采集微博平台数据的说法存在矛盾 。
据此 , 在某软件公司未就鹰击系统展示的微博平台数据不符合某技术公司所作正常的访问限制之情形进行合理解释并提交相应证据证明的情况下 , 本院认定某软件公司抓取的微博平台数据包括某技术公司已设置了访问权限的非公开数据 。在某软件公司与某技术公司不存在合作关系的情形下 , 即便某软件公司自称系使用网络爬虫抓取微博平台数据属实 , 其要获取微博平台非公开数据 , 显然只能利用技术手段破坏或绕开某技术公司所设定的访问权限 , 而此种行为显然具有不当性 。
此外 , 某技术公司在本案中主张包括微博平台公开数据的部分数据 , 理论上 , 某软件公司通过微博平台服务器抓取微博平台数据会同时抓取公开和非公开数据 。据此 , 结合前述关于他人合法获取平台经营者已公开的数据系正当之论述 , 某软件公司抓取微博平台公开数据行为正当的要件之一为其抓取数据的手段系合法正当 。但结合如下因素:第一 , 根据某技术公司提交的时间戳认证证书及法庭勘验 , 微博平台公开数据有其特定的展示规则 , 例如 , 需要用户行为触发才看查看更多的已公开微博评论;第二 , 某技术公司专家辅助人从技术层面对网络爬虫技术无法实现用户行为触发后才能展示的结果进行了合理解释 , 但某软件公司未就此做进一步回应或提交相反证据;因此 , 某软件公司关于其抓取微博平台公开数据系使用网络爬虫技术的辩称缺乏事实证明 。综上 , 因某软件公司不能证明其系通过正常途径抓取微博平台公开数据 , 故即便鹰击系统中存在该部分数据 , 亦不能证明其该项行为正当 。