ACM

ACM通信

首页 / 杂志存档 / 2022年8月(第65卷第8期) / 西雅图数据库研究报告 /全文

评论文章

西雅图数据库研究报告

作者:Daniel Abadi, Anastasia Ailamaki, David Andersen, Peter Bailis, Magdalena Balazinska, Philip A. Bernstein, Peter Boncz, Surajit Chaudhuri, Alvin张，Anhai Doan, Luna Dong, Michael J. Franklin, Juliana Freire, Alon Halevy, Joseph M. Hellerstein, Stratos Idreos, Donald Kossmann, Tim Kraska, Sailesh Krishnamurthy, Volker Markl, Sergey Melnik, Tova Milo, C. Mohan, Thomas Neumann, Beng Chin Ooi, Fatma Ozcan, Jignesh Patel, Andrew Pavlo, Raluca Popa, Raghu Ramakrishnan, Christopher Re迈克尔·斯通布雷克，丹·苏丘
ACM通信，2022年8月，第65卷第8期，72-79页
10.1145 / 3524284
评论

认为: 打印手机应用程序 ACM数字图书馆全文(PDF) 数码版分享: 通过电子邮件发送在reddit分享在StumbleUpon分享分享到黑客新闻在推特上分享在Facebook上分享

从该领域诞生之日起，学术数据库研究就对数据库行业产生了强烈的影响，反之亦然。数据库社区，无论是研究领域还是行业，在过去几年里都有了长足的发展。仅关系数据库市场的收入就超过500亿美元。在学术方面，数据库研究人员继续获得重大奖项。随着2014年Michael Stonebraker的图灵奖，该社区现在可以夸耀四个图灵奖和三个ACM系统软件奖。

回到顶部

关键的见解

在过去的十年中，我们的研究界率先使用柱状存储，它被用于所有商业数据分析平台。作为云服务提供的数据库系统见证了爆炸性的增长。混合交易/分析处理(HTAP)系统现在是该行业的一个重要部分。此外，内存优化的数据结构、现代编译和代码生成大大提高了传统数据库引擎的性能。所有数据平台都采用sql风格的api作为查询和检索数据的主要方式。数据库研究人员在影响流数据平台和分布式键值存储的发展方面发挥了重要作用。新一代的数据清洗和数据争吵技术正在积极探索中。

这些成就表明我们的社区是强大的。然而，在技术领域，唯一不变的是变化。当今社会是一个数据驱动的社会，决策越来越多地基于数据分析的见解。这种社会变革将我们完全置于技术颠覆的中心。这使得该领域变得更加广阔，也为数据管理研究带来了许多新的挑战和机遇。

2018年秋天，该报告的作者在西雅图会面，确定了我们这个领域特别有前途的研究方向。这种会议有着悠久的传统，自1988年以来每五年举行一次。^{1，3.，4，7，8，11，12，13}这份报告总结了西雅图会议的发现^2，9以及随后的讨论，包括ACM SIGMOD 20 20的小组讨论⁶和VLDB 2020。⁵我们首先回顾对我们的领域影响最大的关键技术趋势。报告的中心部分涵盖了研究主题和研究挑战的具体例子，会议与会者认为，对数据库研究人员来说，他们的独特技术专长尤其重要，如清洗和转换数据，以支持数据科学管道，分解引擎架构，以支持多租户云数据服务。我们通过讨论社区在解决技术研究挑战之外可以采取的影响措施来结束。

与ACM SIGMOD和VLDB等数据库会议记录不同，本报告不试图提供数据库研究人员正在追求的广泛的技术挑战或许多由行业引入的创新的全面总结，例如，机密计算，云安全，区块链技术，或图形数据库。

回到顶部

在过去的五年里，数据库社区发生了什么变化?

上一份报告指出，大数据是我们这个领域的核心挑战。¹然而，在过去的五年里，这种转变的速度远远超过了我们的预期，部分原因是技术上的突破机器学习(ML)和人工智能(AI)。编写基于ml的应用程序的障碍已经被广泛使用的编程框架大幅降低，例如TensorFlow和PyTorch，神经网络的架构创新导致BERT和GPT-3，以及用于私有和公共云的专用硬件。基于我们在数据发现、版本控制、清理和集成方面的专业知识，数据库社区可以为ML用户提供很多东西。这些技术对于机器学习的衍生是至关重要的有意义的从数据的见解。鉴于企业的大部分有价值的数据资产都由数据库系统管理，探索如何将SQL查询功能与ML无缝集成已经成为当务之急，社区也在积极探索如何利用ML来改善数据库平台本身。

一个相关的发展是数据科学作为一门结合了数据清洗和转换、统计分析、数据可视化和ML技术等元素的学科。今天的数据科学与上一代的统计和数据集成工具有很大的不同。笔记本电脑已经成为目前最流行的交互环境。我们在声明式查询语言方面的专业知识可以使领域专家(尤其是那些没有传统计算机科学背景的专家)更容易访问数据科学，从而丰富数据科学的世界。

随着个人数据对应用程序行为的定制越来越有价值，社会也越来越关注状态数据治理以及道德和公平地使用数据。这种担忧影响到计算机科学的所有领域，但对数据平台尤其重要，数据平台必须执行数据保管人这样的政策。数据治理还导致了机密云计算的兴起，其目标是使客户能够利用云来执行计算，即使客户将其数据加密在云中。

的使用托管云数据系统相比于在云中简单地使用虚拟机，自从我们的上一份报告观察到“云计算已经成为主流”以来，它的增长非常惊人。²该行业现在提供按需提供的资源，这些资源提供极其灵活的弹性，通常称为serverless。对于云分析，行业已经集中在一个数据架构湖，使用按需弹性计算服务对存储在云存储中的数据进行分析。弹性计算可以是大数据系统(如Apache Spark、传统的SQL数据仓库查询引擎或ML工作流)上的提取、转换和加载(ETL)任务。它运行在云存储和网络之间。此体系结构无组织的计算和存储，使它们能够独立扩展。这些变化对我们设计未来数据系统的方式有着深远的影响。

工业物联网(物联网)，专注于制造、零售和医疗等领域，在过去五年中，得益于更便宜的传感器、多功能连接、云数据服务和数据分析基础设施，该公司的发展速度大大加快。物联网进一步测试了我们在边缘进行高效数据处理的能力，从边缘设备到云数据基础设施的快速数据摄取，以及在实时场景(如监控)中以最小延迟支持数据分析的能力。

最后,还有硬件方面的重大变化。随着登纳德攀登的结束¹⁰以及深度神经网络(DNN)等计算密集型工作负载的崛起，利用fpga、gpu和asic的新一代强大加速器现在已经可用。随着更快的ssd和低延迟NVRAM的出现，内存层次结构继续发展。网络带宽和延迟的改进是显著的。这些发展表明需要重新考虑下一代数据库引擎的软硬件协同设计。

回到顶部

研究挑战

这里提到的变化提供了新的研究机会，虽然我们在上一份报告中就关键挑战取得了进展，²其中许多问题需要更多的研究。在这里，我们总结了这两组研究挑战，分为四个小节。第一部分涉及数据科学，我们的社区可以在其中发挥重要作用。下面一节重点介绍数据治理。最后两节将介绍云数据服务以及与之密切相关的数据库引擎。ML技术的进步已经全面影响了数据库界的研究议程。工业物联网和硬件创新影响了云架构和数据库引擎。因此，ML、物联网和硬件是本节其余部分中的三个横切主题和特性。

科学数据。NSF CISE咨询委员会^一个将数据科学定义为“能够从各种形式的数据(无论是结构化的还是非结构化的)中提取知识或见解的过程和系统。”在过去的十年中，它已经成为一个主要的跨学科领域，它的使用推动了企业的重要决策和科学发现。

从技术的角度来看，数据科学是关于从原始输入数据到需要使用数据清洗和转换、数据分析技术和数据可视化的洞察的管道。在企业数据库系统中，有一些开发良好的工具可以将数据从OLTP数据库转移到数据仓库中，并通过使用复杂的SQL查询、联机分析处理(OLAP)、数据挖掘技术和统计软件套件从精心设计的数据仓库中提取见解。尽管数据科学中的许多挑战与企业数据系统中出现的问题密切相关，但现代数据科学家的工作环境不同。他们大量使用数据科学笔记本，如Jupyter、Spark和Zeppelin，尽管它们在版本控制、IDE集成和对异步任务的支持方面存在弱点。数据科学家依赖于丰富的开源库生态系统(如Pandas)进行复杂的分析，包括最新的ML框架。他们还使用数据湖来存储不同数据质量级别的数据集——这与精心策划的数据仓库有很大的不同。这些特征为数据库社区创造了新的需求，与机器学习、统计和数据可视化方面的研究人员和工程师合作。

数据到洞察的管道。数据科学管道通常是复杂的，有几个阶段，每个阶段都有许多参与者。一个团队准备数据，这些数据来自数据湖中的异构数据源。另一个团队根据数据建立模型。最后，最终用户通过交互式仪表板访问数据和模型。数据库社区需要开发简单而有效的工具来支持构建和维护数据管道。数据科学家反复强调，数据清洗、集成和转换总共消耗了他们80%-90%的时间。这些都是数据库社区在企业数据环境中经历了几十年的问题。然而，我们过去的工作主要集中在解决重要的“点问题”的算法挑战，例如模式映射和实体解析。未来，我们必须调整社区在数据清洗、集成和转换方面的专业知识，以帮助数据到洞察管道的迭代端到端开发。

数据上下文和来源。与建立在精心策划的数据仓库之上的应用程序不同，今天的数据科学家利用不同质量的数据源，数据的正确性、完整性、新鲜度和可信赖性都不是理所当然的。数据科学家需要理解和评估数据的这些属性，并推断它们对数据分析结果的影响。这需要理解传入数据的上下文以及处理数据的流程。这是一个数据来源问题，这是一个活跃的研究领域的数据库社区。它涉及到跟踪跨存储库移动的数据，集成和分析元数据以及数据内容。除了解释结果之外，数据来源还支持可再现性，这是数据科学的关键，但很难，特别是当数据的保留策略有限时。我们的社区已经取得了进步，但还需要做更多的工作来发展可伸缩的数据来源技术。

大规模数据探索。随着数据的数量和种类不断增加，我们的社区必须开发更有效的技术来发现、搜索、理解和总结分布在多个存储库中的数据。例如，对于给定的数据集，用户可能希望搜索经过适当转换后可与该数据集接合的公共和特定于企业的结构化数据。连接的数据可以为原始数据集提供额外的上下文和内容。此外，用户需要具有支持功能的系统互动探索性分析可以扩展到大型数据集，因为高延迟降低了用户进行观察、归纳和生成假设的速度。为了支持这些需求，需要使用算法和系统技术进一步优化用于数据探索的系统堆栈。具体地说,数据概要分析，它提供数据的统计特性，必须是高效的，并可扩展到大型数据存储库。它还应该能够在低延迟的情况下为大型数据集生成近似概要文件，以支持交互式数据发现。为了使数据科学家能够通过数据转换和分析从大量原始数据中获得洞见，需要低延迟和可伸缩的数据可视化技术。可扩展的数据探索也是解决数据湖中出现的挑战的关键(参见“数据库引擎”)。

声明性编程。尽管Pandas等流行的数据科学库支持使用DataFrame抽象的数据表格视图，但它们的编程范式与SQL有重要的区别。声明式查询语言在提高关系数据库和大数据系统中程序员的生产力方面的成功，为研究语言抽象提供了一个机会，从而利用声明式编程的全部功能来指定数据到洞察管道的所有阶段，包括数据发现、数据准备以及ML模型训练和推理。

元数据管理。我们的社区可以推进与数据科学实验和ML模型相关的跟踪和管理元数据的技术水平。这包括自动标记和注释数据，例如识别数据类型。元数据注释和出处需要是可搜索的，以支持不同模型和模型版本控制的实验。数据来源可能有助于确定何时对模型进行再训练。另一个元数据挑战是随着模式的发展最小化修改应用程序的成本，这是一个老问题，需要更好的解决方案。现有的关于图式进化的理论解决方案在实践中几乎没有得到应用。

数据治理。消费者和企业正在以前所未有的速度产生数据。我们的家有智能设备，我们的医疗记录是数字化的，社交媒体是公开的。所有数据生产者(消费者和企业)都有兴趣限制应用程序如何使用他们的数据，同时最大化其效用，包括受控的数据共享。例如，一组用户可能允许将他们的个人健康记录用于医学研究，但不允许用于军事应用。数据治理是一套支持此类规范及其实施的技术。我们现在讨论数据治理的三个关键方面，西雅图数据库会议的与会者认为这些方面值得更多的关注。就像数据科学一样，数据库社区需要与其他在这些重要问题上有共同兴趣的社区合作，以带来变革性的变化。

数据使用政策。欧盟的《通用数据保护条例》(GDPR)就是此类指令的一个典型例子。为了实现GDPR和类似的数据使用策略，在根据数据使用策略共享、移动或复制数据时，数据项必须附带元数据注释和来源。数据治理的另一个基本元素是审计，以确保根据数据使用策略，数据被正确的人用于正确的目的。由于数据量持续急剧增长，这种审计技术的可伸缩性至关重要。还需要做大量工作来制定一个数据收集、数据保留和数据处理的框架，以支持政策限制，并能够研究数据利用和限制数据收集之间的权衡关系。这样的框架还可以帮助回答，给定一组数据使用目标，何时可以安全地丢弃数据。

数据隐私。数据治理的一个非常重要的支柱是数据隐私。除了保护数据隐私的加密技术之外，数据隐私还包括如何确保聚合和其他数据分析技术能够有效地应用于数据集，而不暴露数据集的任何单个成员的挑战。尽管差分隐私和局部差分隐私等模型可以解决这些挑战，但还需要做更多的工作来理解如何在不显著限制查询表达式类的情况下最好地利用数据库平台中的这些模型。同样，在不牺牲隐私的情况下实现有效的多方计算以实现跨组织的数据共享也是一个重要的挑战。

道德的科学数据。在利用数据科学技术(尤其是ML)对抗偏见和歧视方面的挑战，已经在研究和实践中获得了动力。偏差通常来自输入数据本身，比如当使用代表性不充分的数据来训练模型时。我们需要与其他研究团体合作，帮助缓解这一挑战。负责数据管理最近已成为一个新的研究方向的社区，并有助于跨学科研究在更广泛的领域公平、问责、透明和道德(命运)。

云服务。工作负载向云的转移导致了云数据库服务的爆炸性增长，这反过来又带来了实质性的创新和新的研究挑战，其中一些将在下面讨论。

Serverless数据服务。与类似于租赁服务器的基础设施即服务(IaaS)相比，无服务器云数据库服务支持一种消费模式，它具有基于使用的定价，以及按需自动伸缩计算和存储资源。虽然第一代无服务器的云数据库服务已经可用，而且越来越受欢迎，但仍需要研究创新来解决这种消费模式的一些基本挑战。具体来说，在无服务器数据服务中，用户不仅要为他们所消耗的资源付费，还要为这些资源分配到他们工作负载的速度付费。然而，今天的云数据库系统并没有告诉用户他们能够以多快的速度自动伸缩(向上和向下)。换句话说，服务水平协议(SLA)缺乏透明度，该协议捕捉了自动伸缩资源的成本和延迟之间的权衡。相反，云数据服务中的架构更改需要从头开始理解，才能最好地满足自动伸缩和随用随付的需求。目前已经可用的无服务器现收现付方法的第一个例子是功能即服务(FaaS)模型。数据库社区为开发下一代无服务器数据服务做出了重大贡献，这仍然是一个活跃的研究领域。

解集。云服务使用的商用硬件会出现硬件和软件故障。它将直接连接的存储视为临时存储，而依赖于支持持久性、可伸缩性和高可用性的云存储服务。存储和计算的分解也提供了能力独立扩展计算和存储。然而，为了确保数据服务的低延迟，这种分解架构必须廉价地跨多层内存层次使用缓存，并且可以从存储服务中的有限计算中受益，以减少数据移动(请参阅“数据库引擎”)。数据库研究人员需要开发有原则的适合于分解架构的OLTP和分析工作负载解决方案。最后，利用内存与计算的分离仍然是一个大问题。这种分解将允许计算和内存独立扩展，并在计算节点之间更有效地使用内存。

多租户。云提供了一个重新思考数据库的机会，这个世界上有丰富的资源可以汇集在一起。但是，高效地支持多租户非常关键，要仔细进行容量管理，以控制成本和优化利用率。研究界可以通过重新考虑考虑多租户的数据库系统的资源管理方面来领导。这里需要的创新包括将数据库系统重新设想为复合微服务、开发敏捷响应机制以缓解需求引起的本地峰值时的资源压力、在活动租户之间动态重组资源，同时确保租户与嘈杂的邻居租户隔离。

边缘和云。物联网导致连接到云上的计算设备数量激增，在某些情况下只是间歇性的。这些设备的能力有限，其连接特性各异(例如，经常断开连接，海上设备带宽有限，5g连接设备带宽充足)，以及它们的数据配置将为分布式数据处理和分析带来新的优化挑战。

混合云和多云。现在迫切需要确定一种架构方法，使内部数据基础设施和云系统能够相互利用，而不是依赖于“仅云”或“仅内部设施”。在理想的情况下，本地数据平台将无缝地利用云“按需”提供的计算和存储资源。今天，我们离这个愿景还很远，尽管跨内部设备和云数据的单一控制平面已经开始出现。企业客户需要利用仅在一个云上可用的特定服务，避免被锁在单个基础设施云的“围墙花园”中，并提高对故障的恢复能力，这导致他们将数据资产分散到多个公共云上。最近我们看到出现了数据云通过多云数据服务提供商，不仅支持跨基础设施云的数据移动，而且允许其数据服务在跨多个基础设施云的数据分割上操作。理解新的优化挑战以及有选择地利用过去对异构和联邦数据库的研究值得我们关注。

调音。虽然自动调优一直是可取的，但它对云数据服务已经变得至关重要。对云工作负载的研究表明，许多云数据库应用程序没有使用适当的配置设置、模式设计或访问结构。此外，如前所述，云数据库需要支持多种时变多租户工作负载。没有一种单一的配置或资源分配能够普遍有效。我们需要一个可以帮助指导配置设置和资源重新分配的预测模型。幸运的是，遥测日志对于云服务来说非常丰富，并且提供了一个通过使用高级分析来改进自动调优功能的绝佳机会。但是，由于不允许云提供商访问租户的数据对象，这种遥测日志分析必须在“eyes off”模式下进行，即在租户的遵从性边界内进行。最后但并非最不重要的是，云服务提供了一个独特的机会来试验数据服务的更改并衡量其更改的有效性，就像互联网搜索引擎如何利用查询日志和试验排名算法的更改一样。

SaaS云数据库应用程序。软件即服务(Software-as-Service, SaaS)数据库应用程序的所有租户共享相同的应用程序代码，并拥有大致(或完全)相同的数据库模式，但没有共享数据。为了提高成本效益，此类SaaS数据库应用程序必须是多租户的。支持这种多租户SaaS应用程序的一种方法是让所有租户共享一个数据库实例，该实例具有支持将多租户推入应用程序堆栈的逻辑。虽然从数据库平台的角度来看，这很容易得到支持，但它使定制(例如，模式演化)、查询优化和租户之间的资源共享变得更加困难。另一种极端是为每个租户生成一个单独的数据库实例。虽然这种方法很灵活，并提供与其他租户的隔离，但它无法利用租户之间的共性，因此可能会导致更高的成本。另一种方法是将租户打包到碎片中，而将大型租户放置在它们自己的碎片中。尽管这些体系结构替代方案已经为人所知，但它们之间的原则性权衡以及在数据库服务层确定可能有利于SaaS数据库应用程序的额外支持，值得深入研究。

随着数据的数量和种类不断增加，我们的社区必须开发更有效的技术来发现、搜索、理解和总结分布在多个存储库中的数据。

数据库引擎。云平台和硬件创新引领着对数据库系统新架构的探索。现在我们将讨论数据库引擎研究中出现的一些关键主题:

异构计算。随着Dennard扩展的消亡和新的加速器的出现，我们看到了一种不可避免的异构计算趋势。gpu和fpga现在都有，用于gpu的软件栈比用于fpga的软件栈要好得多。网络技术的进步，包括RDMA的采用，也受到数据库界的关注。这些开发为数据库引擎提供了利用堆栈旁路的机会。内存和存储层次结构比以往任何时候都更加异构。高速ssd的出现改变了内存系统和基于磁盘的数据库引擎之间的传统权衡。带有新一代ssd的引擎注定会侵蚀内存系统的一些关键优势。此外，NVRAM的可用性可能会对数据库引擎产生重大影响，因为它们支持持久性和低延迟。使用正确的抽象来重新构建数据库引擎，以在变化的环境中探索软硬件协同设计(包括在云环境中进行分解)，具有很大的潜力。

分布式事务。云数据管理系统越来越多地在区域内(跨多个可用性区域)和跨多个地理区域进行地理分布。这重新激起了工业界和学术界对处理分布式交易的挑战的兴趣。故障场景的复杂性和可变性的增加，加上分布式体系结构中通信延迟和性能可变性的增加，导致在一致性、隔离级别、可用性、延迟、争用下的吞吐量、弹性和可伸缩性之间进行广泛的权衡。两种思想流派之间有一个持续的争论:(a)分布式事务很难在不放弃一些传统事务保证的情况下大规模地处理高吞吐量、可用性和低延迟。因此，一致性和隔离性保证的降低是以增加开发人员复杂性为代价的。(b)除非系统能保证很强的一致性和隔离性，否则实现无bug应用程序的复杂性是非常高的。因此，系统应该提供最好的吞吐量、可用性和低延迟服务，而不牺牲正确性保证。这种争论可能不会很快得到完全解决，而工业界将提供与每个思想流派一致的系统。然而，重要的是，在实践中，由于较弱的系统而导致的应用程序bug和限制应该得到更好的识别和量化，并构建工具来帮助使用这两种类型的系统的应用程序开发人员实现其正确性和性能目标。

数据湖泊。使用来自各种数据源(结构化、半结构化和非结构化)的数据来转换和执行复杂分析的需求越来越大灵活。这导致了从传统数据仓库到数据的过渡湖架构分析。传统的设置是将数据纳入OLTP存储，然后通过ETL流程(可能由Spark等大数据框架提供支持)将数据扫入精心设计的数据仓库，而数据湖是一个灵活的存储库。随后，各种计算引擎可以对不同数据质量的数据进行操作，对其进行管理或执行复杂的SQL查询，并将结果存储在数据湖中或将其吸收到操作系统中。因此，数据湖是计算和存储分离的一种分解架构。数据湖面临的一个重要挑战是高效地为给定任务寻找相关数据。因此，在数据科学部分中讨论的可扩展数据探索和元数据管理中的开放问题的解决方案是很重要的。虽然数据湖的灵活性很吸引人，但牢牢地坚持数据治理的护栏是至关重要的，我们建议读者参阅报告的这一节以了解更多细节。为了确保数据的一致性和高数据质量，从而使分析结果尽可能准确，支持事务、实施模式约束和数据验证是核心问题。在异构数据集合上启用可伸缩查询需要缓存解决方案来权衡性能、伸缩性和成本。

云提供了一个重新思考数据库的机会，这个世界上有丰富的资源可以汇集在一起。然而，有效地支持多租户以控制成本和优化利用率是至关重要的。

查询回答中的近似。随着数据量的不断增长，我们必须寻找减少延迟或增加查询处理吞吐量的技术。例如，利用近似快速进步的可视化数据湖查询的答案可以帮助探索性的数据分析，解锁对数据的洞察。数据草图已经是主流，并且是有效逼近的经典例子。抽样是另一个用于降低查询处理成本的工具。然而，在当今的大数据系统中，对采样的支持是相当有限的，并且不能满足SQL等查询语言的丰富功能。我们的社区已经在近似查询处理方面做了很多基础性的工作，但是我们需要一种更好的方法，以一种程序员友好的、具有明确语义的方式来公开它。

机器学习的工作负载。现代数据管理工作负载包括ML，它为数据库引擎增加了一个重要的新需求。虽然ML工作负载包括训练和推理，但有效地支持后者是迫在眉睫的需求。今天，有效支持“数据库内”推理的挑战是通过利用数据库可扩展性机制来实现的。当我们展望未来时，作为推理的一部分调用的ML模型必须被视为数据库内的一等公民。ML模型可以作为数据库对象进行浏览和查询，数据库系统需要支持流行的ML编程框架。虽然今天的数据库系统可以支持相对简单的模型上的推理，但像BERT和GPT-3这样的超大型模型越来越流行和有效，这要求数据库引擎开发人员利用异构硬件，并与负责使用fpga、gpu和专用专用集成电路构建ML基础设施的架构师一起工作。

用于重构数据平台组件的机器学习。ML的最新进展激发了我们社区的思考，数据引擎组件可能如何利用ML来显著提高技术水平。这样的机会最明显的是自动调优。数据库系统可以用ML模型系统地替换“幻数”和阈值，以自动调优系统配置。大量训练数据的可用性也为探索利用ML进行查询优化或多维索引结构的新方法提供了机会，特别是在这些问题的最先进的解决方案在过去20年只看到了适度的改进。当测试数据或测试查询偏离训练数据和训练查询时，ml模型驱动的引擎组件必须显示出显著的好处和健壮性。为了处理这种偏差，ML模型需要增加护栏，以使系统优雅地退化。此外，一个经过深思熟虑的软件工程管道来支持ml模型驱动组件的生命周期也很重要。

基准测试和再现性。基准测试极大地推动了数据库行业和数据库研究社区的发展。有必要关注新的应用程序场景和数据库引擎架构的基准测试。现有的基准(例如，TPC-E, TPC-DS, TPCH)非常有用，但不能全面反映我们的领域，例如，流媒体场景和视频等新类型数据的分析。此外，如果没有适当的基准和数据集的开发，就不可能对传统的数据库架构和基于ml的引擎组件架构修改进行公平的比较。云环境中的基准测试也带来了独特的挑战，因为不同云提供商之间的基础设施差异使得苹果与苹果之间的比较更加困难。与此密切相关的一个问题是数据库发布中的性能结果的可重复性。幸运的是，自2008年以来，数据库会议一直鼓励在ACM SIGMOD和VLDB中接受的论文结果的可重复性。关注可再现性还增加了选择工作负载、数据库、为实验选择的参数以及如何聚合和报告结果的严谨性。

回到顶部

社区

除了技术上的挑战，与会者还讨论了数据库研究人员社区可以采取的步骤，以提高我们对新出现的数据挑战作出贡献和从中学习的能力。

我们将继续向系统用户学习的丰富传统，并使用数据库会议作为用户和系统革新者的会议场所。我们的会议通过讨论行业挑战和实践创新，促进了这种互动。由于当今快速变化的数据管理挑战，这一点变得更加重要。我们必须加倍努力，向垂直行业的应用程序开发者或SaaS解决方案提供商学习。

随着我们的社区开发新的系统，将它们作为现有流行的开源工具或易于使用的云服务生态系统的一部分发布，将大大增强接收反馈和进行迭代改进的能力。最近受益于数据库社区大量输入的此类系统的例子包括Apache Spark、Apache Flink和Apache Kafka。此外，作为一个社区，我们应该利用每一个机会来接近应用程序开发人员和数据库技术的其他用户，了解他们独特的数据挑战。

数据库学界必须更好地将数据库研究与数据科学生态系统相结合。用于数据集成、数据清洗、数据处理和数据可视化的数据库技术应该很容易从Python脚本调用。

回到顶部

结论

在当今数据驱动的世界中，我们看到了许多令人兴奋的研究方向，包括数据科学、机器学习、数据治理、云系统的新架构和下一代数据平台。这份报告总结了西雅图数据库会议和随后的社区讨论的结果，^5，6它确定了一些重要的挑战和机会，数据库社区继续其传统的强大影响研究和工业。会议的补充材料可以在活动网站上找到。⁹

致谢西雅图数据库会议由谷歌、Megagon Labs和微软公司捐款支持。感谢Yannis Ioannidis、Christian Konig、Vivek Narasayya和匿名审稿人对早期草稿的反馈。

数字观看作者对这部作品的独家讨论通信视频。//www.eqigeno.com/videos/the-seattle-report

回到顶部

参考文献

1.Abadi D.等。贝克曼数据库研究报告。Commun。ACM 59， 2(2016年2月)，92-99。

2.阿巴迪，D.等。西雅图数据库研究报告。SIGMOD Rec。48， 4 (2019) 44-53 (2019)

3.Abiteboul, S.等人。洛厄尔数据库研究自我评估。Commun。ACM 48， 5(2005年5月)，111-118。

4.Agrawal等人。克莱蒙特数据库研究报告。Commun。ACM 52， 6(2009年6月)，56-65。

5.Bailis, P.， Balazinska, M.， Luna Dong, X.， Freire, J.， Ramakrishnan, R.， Stonebraker, M.， Hellerstein, J. Winds来自西雅图:数据库研究方向。在VLDB基金会议记录， 12(2020)， 3516。

6.Balazinska, M.， Chaudhuri, S.， Ailamaki, A.， Freire, J.， Krishnamurthy, S.， Stonebraker, M.未来5年:数据库社区应该抓住哪些机会来最大化其影响?在会议论文集。(2020), 411 - 414。

7.数据库管理系统研究的未来方向—拉古纳海滩参与者。ACM SIGMOD记录18， 1(1989)， 17-26。

8.Bernstein, P.等人。阿西洛玛数据库研究报告。ACM SIGMOD记录27， 4(1998)， 74-80。

9.数据库研究自评会，2018;https://db.cs.washington.edu/events/other/2018/database_self_assessment_2018.html

10.Dennard, r.h出版社。离子注入MOSFET的设计与非常小的物理尺寸。固体电路学报， 5(1974年10月)，256-268。

11.Silberschatz, A.， Stonebraker, M.和Ullman, J.D.数据库系统:成就和机会。Commun。ACM 34， 10(1991年10月)，110-120。

12.Silberschatz, A.等人。数据库系统的战略方向——打破常规。ACM计算调查28， 4(1996)， 764-778。

13.Silberschatz, A.， Stonebraker, M.和Ullman, J.D.数据库研究:成就和机会进入21^圣世纪。ACM SIGMOD记录25， 1(1996)， 52-63。

回到顶部

作者

Surajit乔杜里（surajitc@microsoft.com)为本文通讯作者。

回到顶部

脚注

一个。https://www.nsf.gov/cise/ac-data-science-report/CISEACDataScienceReport1.19.17.pdf

版权由作者/所有者持有。
向所有者/作者请求(重新)发布许可

没有发现记录

西雅图数据库研究报告

关键的见解

在过去的五年里，数据库社区发生了什么变化?

研究挑战

社区

结论

参考文献

作者

脚注

文章内容:

机器学习可以帮助解决发展中国家滥用药物的耻辱

算法焦虑的时代

计算机的摇篮在哪里?