阿里李飞飞:在云计算时代 云原生数据库变得越来越重要

编译|Ailleurs

作者|陈彩娴

阿里巴巴集团副总裁、阿里巴巴云数据库产品业务部负责人李飞飞也是达摩学院数据库首席科学家、达摩学院数据库和存储研究实验室主任。在加入阿里巴巴之前,他是犹他大学计算学院的教授。他的研究兴趣包括数据库系统、大规模数据管理、数据安全、数据分析和机器学习方法,用于系统性能和监控。与此同时,他仍然是ACM Transactions on Database Systems(ACM TODS)期刊副主编多次担任ACM SIGMOD和ACM SIGKDD高级区域主席曾担任过各种领导角色(如总联合主席)和多个领导角色ACM SIGMOD会议项目委员会成员。

近日,ACM对李飞飞的采访主要包括李飞飞团队在阿里巴巴云基础设施建设中的目标规划、云原生数据库系统的应用、漫游连接算法的介绍以及机器学习技术对电子商务的巨大影响。最后,李飞飞还谈到了他对学术界和行业工作差异的看法。

本文将采访编译如下:

ACM:作为阿里巴巴数据库的首席科学家,么?

李飞飞:我们团队的主要目标是为阿里巴巴自己的业务运营和阿里巴巴云企业客户建立一个先进的、世界级的云本地数据库系统,如我们的云本地关系数据库PolarDB和云原生数据仓库AnalyticDB(ADB)。

在云计算时代,由于对弹性、高可用性和可扩展性的需求以及来自不同业务领域的应用程序需求的增长,云本地数据库变得越来越重要。云应用程序的这些需求为云本地数据库提供了新的机会,而传统的企业内部数据库系统无法完全满足这些需求。探索共享存储和完全共享的架构(shared-everything architecture),云原生数据库利用底层云基础设施提供的资源池将计算与存储分离,从而获得优异的弹性和高可用性。云原生数据库可以进一步利用要求水平扩展的高并发工作负载(shared-nothing layer)提供分布式查询和交易处理能力。我们的最终目标是为我们的业务运营和云客户提供高效、易用、高度可靠的数据库服务。

ACM:在阿里巴巴双11全球购物节期间,该网站的流量可以在几秒钟内激增150倍。您的团队开发了哪些工具来处理此类网站的流量波动?您如何看待这些技术在未来的发展趋势?

李飞飞:如上所述,在处理此类应用场景时,成功的关键是通过底层数据库系统产生高弹性和高可用性。转眼间,流量将突然激增。可操作的数据库系统必须以经济有效的方式抵御这种海啸「袭击」。对于典型和传统的本地数据库系统,必须提前提供大量的硬件资源,以满足峰值时的工作负荷。一旦峰值流量在短时间内减少,就可能导致高成本和资源浪费。

相比之下,云原生数据库系统可以通过探索共享存储和完全共享的架构来自适应和灵活地分配和释放资源。计算和存储的解耦,以及各种资源(计算机和存储资源)的共享,使云原生数据库系统具有自适应性。我们还利用分布式查询和交易处理,通过水平分区提供进一步的可伸缩性,以满足高并发性的需求。

此外,Raft或Paxos等分布式共识协议式共识协议,使可用区(available zone,AZ)内部和可用区之间的可用性很高,可以处理任何故障,而不用担心数据丢失、业务停机或中断。同时,利用软硬件协同设计进行探索RDMA、NVMe等新硬件和DPDK等内核旁路协议所具有的加速和优化作用。

HTAP(Hybrid Transaction and Analytical Processing,混合事务和分析处理)是云本土数据库系统追求的另一种趋势。其目标是在双11购物节为集群用户的数据处理和分析需求提供一站式解决方案。

最后,自驱动数据库(又称自治数据库)技术通过编排机器学习技术和云原生组件(如kubernetes)以及各种数据库模块(如慢慢)SQL结合诊断和索引推荐,简化了云设施上云原生数据库的部署、维护和操作。例如,我们在阿里云建立了DAS(database autonomy service,数据库自主服务)为双11运营和云客户提供服务,以确保我们的系统具有自我修复、自我调整和自适应性。

ACM:你最著名的研究工作之一Wander Join: Online Aggregation via Random Walks”在2016年第35届ACM SIGMOD会议获得了最佳论文奖。在这项工作中,您和您的合作伙伴提出了一种新的方法来处理复杂的在线查询。本文的主要观点是什么?查询处理领域的创新探索是什么?

李飞飞:查询处理和优化是数据库系统最关键的组成部分之一。JOIN(一种用于查询和访问多表数据中的数据SQL子句)是最常见但最昂贵的数据库操作。采样提供的估计速度远快于计算的准确结果,这对查询处理和优化任务非常重要。JOIN采样非常困难,这是数据库领域近20年来面临的挑战。在这项工作中,我们引入了一种新的数据采样技术,以实现近似和交互查询处理(例如,提供在线近似结果,并不断提高结果的质量)。在线估计器的质量将随着时间的推移而提高,最终得到准确的结果。这对大数据分析和查询处理非常有吸引力,因为用户可以根据自己的意愿发送查询需求,并立即看到查询结果,输出结果的质量将逐渐提高,直到找到准确的结果(如果需要);否则,用户必须等待,不知道什么时候才能得到最终的准确结果。它们也可用于查询优化(例如,估计复杂查询项目中间查询结果的基础)。

本文提出的漫游连接算法通过在连接图上随机行走,巧妙地实现了采样。连接图不是具体的,而是通过仔细的加权采样过程和估计的偏差调整来探索概念。这使得漫游连接算法在数量级上优于现有方法,极大地促进了最先进技术的发展。就像我们在2017年一样ACM SIGMOD一篇论文在会议上被评为研究亮点,「在数据库管理系统的研究历史上,大量的研究使用采样以比精确计算更快的速度估计查询结果。本文提出了比最先进的技术更好的计算和统计特性的高效替代方案;Postgres开源实现的实验令人信服地证明了这一点」。

漫游连接产生独立但不均匀的样本;但有时,更复杂的分析操作(机器学习方法,如支持向量机)需要独立和均匀的随机样本。我们在那里SIGMOD18中的后续工作展示了如何获得复杂连接的真正随机样本。这项研究还带来了一些创新,如基于学习的查询和优化方法。这些想法是DeepDB: Learn from Data,not from Queries!” 以及“BlinkML: Efficient Maximum Likelihood Estimation with Probabilistic Guarantees其他论文都有概述。我们的工作也激发了真实系统的实际应用和设计。

ACM:如何改变阿里巴巴等大型电子商务公司的机器学习方法?最重要的改变方式是什么?

李飞飞:机器学习在现代的进步对更多的组织和社会产生了根本和持久的影响,包括阿里巴巴。例如,阿里巴巴电子商务网站和应用程序中的推荐框架依赖于精心设计和微调的深度学习模型,为浏览网站和应用程序的客户提供更有效的商品匹配。当然,机器学习的影响不仅体现在推荐上。在阿里巴巴数据中心的运营中,我们探索并利用机器学习技术构建了它AIops这种智能监控和协调工具,以提高数据中心运营的效率和有效性。还有许多其他的场景和例子,也都可以表明机器学习和人工智能方法的变革性影响,它们越来越成为许多系统中的关键构建组件,包括上面提到的云原生数据库系统(例如使云原生数据库系统能够进行自我调整)。

ACM:在加入阿里巴巴之前,你在美国犹他大学教授。与学术界相比,在工业界工作最明显的区别是什么?

李飞飞:在犹他大学计算机学院工作期间,我在计算机科学领域的研究和工程生涯的增长和丰富是巨大而难以形容的。它拥有世界上最好的计算机教育和研究项目之一。我将永远感谢我的学院和学校。然而,在阿里巴巴这样一家伟大的公司工作无疑为我理解计算机科学提供了不同而丰富的视角,这不仅是一门技术学科,也是一个日益重要的商业领域。为一家公司工作意味着你必须始终把业务和客户需求放在第一位,并专注于由业务驱动的实际客户需求。这并不一定意味着你可以没有长期的规划目标,但这些目标必须非常集中,并对战略计划和具有精心设计和明确描述的商业价值的实际应用具有价值。

这与在学术界工作完全不同。在学术界,首要任务不是创造商业价值,而是创造智力价值。最终目标往往是探索一个未解决的问题或挑战,即使这种努力最终只是一种智力练习。然而,正是通过追求这种好奇心,我们才能取得创新性的突破。项目的努力最终可以在实践中推广和扩展新技术的应用。

归根结底,无论是在学术界还是在工业界,这一切都是为我们整个社会和文明的良好运作创造价值和贡献。从我目前的角度来看,我相信我在学术界和工业界的职业生涯已经相互补充和丰富!

   


返回列表

相关文章

相关案例