“跑马圈数据”时代,12位产学研专家眼中数据要素与数字金融的“真相”


“跑马圈数据”时代,12位产学研专家眼中数据要素与数字金融的“真相”
文章图片

文章图片
本周 , “2021人工智能产业论坛:数据要素与隐私计算”在成都举办 , 由中国人工智能学会主办 , 星云Clustar承办 。论坛上 , 近二十位来自人工智能、金融科技的学术界、产业界人士 , 围绕隐私计算、数字金融等话题展开了深入的探讨 。
专家们在会上一一指出数据要素从诞生到使用、交易的各种痛点所在 , 并结合自身实践经验给出了发展路径的思考;金融机构、政企合作如何借此良机推动数字化进程、摆脱种种陷阱 , 也同样是论坛的一大重点 。
恒生电子研究院院长、原上海交易所总工程师白硕就指出 , “跑马圈数据”时代的两大痛点 , 是合作难和链条长 。解决方案是加宽加高底座 , 打造一个开放的生态 。数据智能革命会从数字化的中台开始 , 数据是基础 , 中台是关键场景的规划 , 隐私计算是当中较为突出的技术之一 。
数据容易被复制、泄露、扩散 , 这种特性对市场非常不利 , 以至于有些人认为数据的经营和交易有可能是一个伪命题 。
数据的构成也相比之前变化颇大 。例如资本市场 , 从资讯商提供主流数据行情、上市公司标准化解决数据等 , 进入到非标数据分析的时代 , 大量的另类数据、非结构化数据出现 。
数据生态起了根本性变化 , 为此有四种选择诞生:过去互联网平台的发展模式;政府数据所谓的数据服务模式;万德、同花顺这类私有终端的传统模式 , 单一厂家掌控所有的数据来源;数据联盟 。
传统打法可能不再是主流 , 私有终端也未必能应对另类数据的庞大体量 , 联邦化的技术发展正值窗口机遇期 。
数据到场景的链条过长 , 从附加值低的裸数据 , 转型艰难的带标数据 , 再到智能化深加工的数据、场景数据 , 各阶段所需技术不同 , 不同技术的拥有者变成了要“分段”体现自己的价值 。这意味着谁能打通全链条 , 就可能占据生态上的优势 。随着隐私计算走向成熟 , 机会也出现在了to B的联邦化数据经营战场 。
新的机会 , 纵向看 , 内容集成商对接数据到场景的旧做法 , 可能会演化到全栈服务商提供内容深加工的形式;横向看 , 外部数据、服务会通过带保护的方式 , 进入到基础业务能力 , 合并形成统一的联邦化中台再对接业务 。
加拿大工程院院士、加拿大皇家科学院院士杨强 , 则就《数据要素与联邦学习》为主题带来分享 。他指出 , 数据的特点之一是增长迅猛 , 布置起来零成本;数据的价值属于场景的定义 , 场景不同、价值不同;同时它也具有马太效应 , 更容易形成垄断 。
数据分为可用和不可能 , 前者又细分为可见和不可见 。我们如今感兴趣的 , 实际上发展的是可用和不可见的分支上 。
第一阶段 , 上世纪七八十年代 , 安全多方计算 , 针对精确计算和数据库查询的隐私保护需求而提出 。安全性非常强 , 有理论证明 , 效率却非常低 。
第二阶段 , 针对效率问题 , 提出差分隐私概念 。通过概率方法引入噪音 , 使得查询方不能窥探数据库内 。缺点是不能完全保障安全 , 且大量增加通知量 。
第三阶段 , 集中硬件加密计划 。硬件厂商提出新的芯片 , 使数据进入安全加密计算 , 一方看不到其他方数据 , 计算结果大家可以得到 。
第四阶段 , 联邦学习 , 针对这种大规模复杂的计算多方计算而建立 。
机构间建模时 , 多数依靠特征补充来建立更好的模型 。当机构和设备重叠不多时 , 可引入迁移学习的概念 , 把数据空间给迁移到一个新的空间 , 这多数是用在异构的数据 。