“跑马圈数据”时代，12位产学研专家眼中数据要素与数字金融的“真相” 本周

文章图片

文章图片
本周， “2021人工智能产业论坛：数据要素与隐私计算”在成都举办，由中国人工智能学会主办，星云Clustar承办。论坛上，近二十位来自人工智能、金融科技的学术界、产业界人士，围绕隐私计算、数字金融等话题展开了深入的探讨。
专家们在会上一一指出数据要素从诞生到使用、交易的各种痛点所在，并结合自身实践经验给出了发展路径的思考；金融机构、政企合作如何借此良机推动数字化进程、摆脱种种陷阱，也同样是论坛的一大重点。
恒生电子研究院院长、原上海交易所总工程师白硕就指出， “跑马圈数据”时代的两大痛点，是合作难和链条长。解决方案是加宽加高底座，打造一个开放的生态。数据智能革命会从数字化的中台开始，数据是基础，中台是关键场景的规划，隐私计算是当中较为突出的技术之一。
数据容易被复制、泄露、扩散，这种特性对市场非常不利，以至于有些人认为数据的经营和交易有可能是一个伪命题。
数据的构成也相比之前变化颇大。例如资本市场，从资讯商提供主流数据行情、上市公司标准化解决数据等，进入到非标数据分析的时代，大量的另类数据、非结构化数据出现。
数据生态起了根本性变化，为此有四种选择诞生：过去互联网平台的发展模式；政府数据所谓的数据服务模式；万德、同花顺这类私有终端的传统模式，单一厂家掌控所有的数据来源；数据联盟。
传统打法可能不再是主流，私有终端也未必能应对另类数据的庞大体量，联邦化的技术发展正值窗口机遇期。
数据到场景的链条过长，从附加值低的裸数据，转型艰难的带标数据，再到智能化深加工的数据、场景数据，各阶段所需技术不同，不同技术的拥有者变成了要“分段”体现自己的价值。这意味着谁能打通全链条，就可能占据生态上的优势。随着隐私计算走向成熟，机会也出现在了to B的联邦化数据经营战场。
新的机会，纵向看，内容集成商对接数据到场景的旧做法，可能会演化到全栈服务商提供内容深加工的形式；横向看，外部数据、服务会通过带保护的方式，进入到基础业务能力，合并形成统一的联邦化中台再对接业务。
加拿大工程院院士、加拿大皇家科学院院士杨强，则就《数据要素与联邦学习》为主题带来分享。他指出，数据的特点之一是增长迅猛，布置起来零成本；数据的价值属于场景的定义，场景不同、价值不同；同时它也具有马太效应，更容易形成垄断。
数据分为可用和不可能，前者又细分为可见和不可见。我们如今感兴趣的，实际上发展的是可用和不可见的分支上。
第一阶段，上世纪七八十年代，安全多方计算，针对精确计算和数据库查询的隐私保护需求而提出。安全性非常强，有理论证明，效率却非常低。
第二阶段，针对效率问题，提出差分隐私概念。通过概率方法引入噪音，使得查询方不能窥探数据库内。缺点是不能完全保障安全，且大量增加通知量。
第三阶段，集中硬件加密计划。硬件厂商提出新的芯片，使数据进入安全加密计算，一方看不到其他方数据，计算结果大家可以得到。
第四阶段，联邦学习，针对这种大规模复杂的计算多方计算而建立。
机构间建模时，多数依靠特征补充来建立更好的模型。当机构和设备重叠不多时，可引入迁移学习的概念，把数据空间给迁移到一个新的空间，这多数是用在异构的数据。