acm-header
登录

ACM通信

研究突出了

技术角度:用于存储管理自动化的磁盘阵列模型


大型磁盘阵列无处不在,即使我们作为计算机服务的最终用户很少注意到它们。当我们在互联网零售商购物时,产品和帐户数据来自数据中心的磁盘阵列。我们的电子邮件、银行、工资、保险和税务数据都位于磁盘阵列上。所使用的硬件通常是不同的,在不同的时间从多个供应商获得。根据应用程序对吞吐量、响应时间、可用性和可靠性的要求,其数据可能分布在多个磁盘阵列,甚至跨多个数据中心,并通过复制或添加纠错代码来恢复故障。

管理磁盘阵列存储极其复杂,涉及的任务包括初始放置数据、安排数据备份、设置数据访问的优先级以便每个应用程序都能获得所需的性能、定期将数据从一个磁盘阵列迁移到另一个磁盘阵列、监控性能以及诊断发现的任何性能问题。一些部分自动化的工具可以辅助操作员,但最终,存储管理是一个人工密集型的过程。因此,管理决策倾向于简化实现,而不是优化应用程序性能。

降低成本、提高存储性能和可靠性的关键是实现管理任务的自动化,因为计算机可以比人类更好地跟踪复杂的环境和复杂的决策。但是,管理系统必须了解它所管理的存储系统的行为。例如,当要安装一个新的数据库服务器时,它的数据应该放在哪里?数据中心中现有的一个磁盘阵列就足够了吗,还是需要一个新的?自动化管理系统可以考虑许多选项来做出明智的决定,但它必须能够预测每个选项的性能影响。换句话说,管理系统需要一个模型来回答这个问题:“如果我采用这个选项,我的应用程序的存储性能将如何变化?”

长期以来,构建存储系统的精确性能模型一直是设计自动化存储管理系统的绊脚石,因为人们需要能够快速、轻松地为使用中的大量磁盘阵列和各种工作负载构建模型。虽然我们知道用于简单工作负载的基本磁盘驱动器的模型,但大多数数据中心使用的磁盘阵列要复杂得多,因为它们将大量磁盘与缓存和控制固件聚合在一起。早期的磁盘阵列性能模型要么是为每个磁盘阵列模型手工构建的,需要大量调优以获得良好的准确性,要么是基于设备上一些工作负载的基准测量。在任何一种情况下,模型只对与用来构建模型的工作负载相似的工作负载准确。

为了解决这个问题,Michael Mesnier, Matthew Wachs, Raja Sambasivan, Alice Zheng和Gregory Ganger提出了一种新的方法,叫做相对健康的建模.作者建议,与其直接为每个磁盘阵列建立性能模型,不如更容易地描述不同磁盘阵列之间的性能差异。这些模型是通过测量一组具有代表性的工作负载的给定数组之间的性能差异而构建的,通过实践证明,这些模型适用于更大的工作负载集。然后,如果我们对两个数组之间的差异有一个相对适合度模型,并且我们知道给定工作负载在第一个数组上的表现,那么我们就可以预测工作负载在第二个数组上的表现。这种情况很常见。例如,用户可能已经测量了应用程序在现有阵列上的平均I/O响应时间;如果磁盘阵列供应商能够提供用户现有磁盘阵列与新磁盘阵列之间差异的相对适应度模型,那么就可以预测新阵列上应用程序的I/O响应时间。

相对适应度法是阵列性能建模的重要步骤,但仍存在许多挑战。特别是,鉴于数据中心的存储整合趋势日益增长(即在同一个磁盘阵列上存储多个应用程序数据集),磁盘阵列模型必须能够准确地预测任意工作负载组合的性能,而这个问题仍然存在。相对适应度方法的成功为我们提供了希望,类似的技术可以用于预测工作负荷组合的绩效;这是存储系统研究人员的一个活跃领域。

回到顶部

参考文献

1.从数据到容器的数据服务(特邀演讲)。在03年文件与存储技术会议论文集。(加州旧金山,3月- 4月)2003);www.usenix.org/events/fast03/tech/fast03_keynote.pdf。

回到顶部

作者

Arif商人(arif_merchant@hp.com)是加州帕洛阿尔托惠普实验室的首席研究科学家。

回到顶部

脚注

DOI: http://doi.acm.org/10.1145/1498765.1498788


版权归作者所有。

数字图书馆是由计算机协会出版的。版权所有©2009 ACM有限公司


没有发现记录

登录为完全访问
»忘记密码? *创建ACM Web帐户
文章内容:
Baidu
map