阿里李飞飞:在云计算时代,云原生数据库变得越来越重要( 二 )


HTAP(Hybrid Transaction and Analytical Processing , 混合事务和分析处理)是当今云原生数据库系统追求的另外一个趋势 , 它的目标是在双11购物节时 , 为集群用户的数据处理和分析需求提供一站式解决方案 。
【阿里李飞飞:在云计算时代,云原生数据库变得越来越重要】最后 , 很重要的一点是 , 自驱动数据库(又称“自治数据库”)技术通过将机器学习技术与云原生编排组件(如kubernetes)和各种数据库模块(如慢SQL诊断、索引推荐)相结合 , 简化了云设施上云原生数据库的部署、维护和操作 。例如 , 我们在阿里云建立了DAS(database autonomy service , 数据库自治服务) , 为双11运营和云客户提供服务 , 以确保我们的系统尽可能具有自我修复、自我调整和自适应能力 。
ACM:您最著名的研究工作之一“Wander Join: Online Aggregation via Random Walks”在2016年第35届ACM SIGMOD会议上获得了最佳论文奖 。在这项工作中 , 您和您的合作者提出了一种新的方法来处理复杂连接的在线查询 。这篇论文的主要观点是什么?目前在查询处理领域有哪些创新性探索?
李飞飞:查询处理和优化是数据库系统最关键的组成部分之一 。在这方面 , JOIN(一种用来从多表数据中查询和访问数据的SQL子句)是最常见但也最昂贵的数据库操作 。采样提供的估测比计算精确结果要快得多 , 这对于查询处理和优化任务来说非常重要 。但是用JOIN来进行采样是很困难的 , 这是近20年以来数据库领域一直面临的挑战 。在这项工作中 , 我们引入了新的数据采样技术 , 以实现近似和交互式查询处理(比如 , 提供在线的近似结果 , 并对结果的质量进行持续地改进) 。在线估计器的质量会随着时间的推移而提高 , 最终它会得到准确的结果 。这对于大数据分析和查询处理而言非常具有吸引力 , 因为用户可以根据自己的意愿来发出查询需求 , 并立即看到查询结果 , 而且输出的结果质量会逐渐提高 , 直到找到准确的结果为止(如果需要的话);否则用户必须等待 , 不知道什么时候才能获得最终的准确结果 。它们还可用于查询优化(例如 , 估计复杂查询项目的中间查询结果的基数) 。
本文提出的漫游连接算法通过在连接图上随机游走 , 巧妙地实现了采样 。连接图不是具体化的 , 而只是通过仔细的加权采样过程和估计中的偏差调整来进行概念上的探索 。这使得漫游连接算法在数量级上优于现有的方法 , 这大大推动了最先进技术的发展 。正如我们在2017年ACM SIGMOD会议上被评为“研究亮点”的一篇论文中所说的 , 「在数据库管理系统的研究历史中 , 有大量的研究都曾利用采样以一种比精确计算更快的速度来估计查询结果 。本文提出了一种高效的替代方案 , 实现了比以前最先进的技术还要更好的计算和统计特性;通过Postgres中的一种开源实现来进行的实验令人信服地证明了这一点」 。
漫游连接产生的是独立但不均匀的样本;但有时候 , 更复杂的分析操作(机器学习方法 , 比如支持向量机)需要的是独立且均匀的随机样本 。我们在SIGMOD'18中的后续工作展示了如何获得复杂连接的真正随机样本 。这项研究还带来了一些领域的创新 , 比如基于学习的查询处理和优化方法 。这些想法在“DeepDB: Learn from Data, not from Queries!” 以及“BlinkML: Efficient Maximum Likelihood Estimation with Probabilistic Guarantees”等论文中都有所概述 。我们这项工作还启发了真实系统中的实际运用和设计问题 。
ACM:机器学习方法是如何改变阿里巴巴等大型电子商务公司的?最重要的改变方式是什么?