acm-header
登录

ACM通信

实践

CTO存储圆桌会议,第二部分


以下对话是7位世界级存储技术专家参加的CTO圆桌论坛的第二部分。这一系列的CTO论坛关注商业计算社区面临的近期挑战和机遇。在ACM专业委员会的监督下,该系列的目标是为IT经理提供访问专家建议的途径,以帮助他们在投资新体系结构和技术时作出决定。

我们要再次感谢USENIX的执行董事Ellie Young,他慷慨地邀请我们在2008年2月27日在加州圣何塞举行的USENIX文件和存储技术会议(FAST '08)期间举行我们的小组讨论。Ellie和她的工作人员在会议期间对我们的支持给予了极大的帮助,我们ACM的所有人都非常感谢他们的努力。
斯蒂芬·伯恩

回到顶部

参与者

史蒂夫·克雷曼网络设备高级副总裁兼首席科学家。

Eric Brewer加州大学伯克利分校计算机科学部教授,Inktomi联合创始人(已被雅虎收购)。

埃里克·里德尔希捷技术研究所接口与架构部主管。

Margo苏打水Herchel Smith计算机科学教授,哈佛大学工程与应用科学系教授,Sleepycat软件创始人(被甲骨文公司收购),甲骨文公司架构师。

格雷格领班卡内基梅隆大学计算机学院电气与计算机工程教授,并行数据实验室主任。

玛丽贝克研究科学家,惠普实验室,惠普

柯克McKusickUsenix协会前任主席,BSD和FreeBSD架构师。

回到顶部

主持人

马谢CreegerEmergent Technology Associates的负责人。

马谢CREEGER:那些以管理仓库为生的人能从这次谈话中得到什么呢?我们能提出什么建议?你认为未来有哪些技术可以帮助他们?

史蒂夫·克雷曼:当今的存储管理员面临着许多问题,这些问题没有任何工具能够充分解决。有主目录、数据库、lun。它不仅仅是一组驱动器上的一组位;它们到处都是。他们有副本,可能需要管理副本之间的镜像关系。他们必须管理灾难恢复场景和另一个站点上的服务器基础设施,如果整个事情都失败了。他们有所有这些机制来处理所有这些数据,他们必须日复一日地处理,他们必须监控整个事情,看看它是否正常工作。仅仅是能够管理这些混乱,他们必须处理成千上万的数据集,是一个尚未解决的大问题。

马谢CREEGER:没有人从事企业级存储基础设施管理的业务吗?

史蒂夫·克雷曼:过去解决这个问题最好的人是备份人员。它实际上给了你一个数据传输机制在后台管理一切,它给你一个图形用户界面,让你说,“我想找这个特定的数据集,我想看看我有多少个它的副本,我想恢复那个特定的东西。”或者“我想知道这些拷贝是在这么长的时间内完成的。”

当然,问题是所有这些都被炸毁了。所以现在,问题不仅仅是“我有什么磁带副本?”我在世界各地的不同地方有什么副本?我有什么样的镜像关系?”问题是,今天的一切都是在某人的脑子里进行的。我称之为“镜像死亡”。是很困难的。我们最终会解决的。

柯克MCKUSICK:你认为可能的解决办法是什么?

史蒂夫·克雷曼:目前,人们正在构建非常特别的系统脚本、sperl脚本和其他类型的脚本。我的公司正在研究这个问题,仓储行业的很多人也在研究这个问题,但这不仅仅是一个箱子的问题。它是跨框管理,甚至是异构管理。我们必须明白,我们正在解决QoS、复制、灾难恢复、归档和备份的融合问题。我们需要的是一个统一的UI来处理所有这些功能,每个功能过去都是由不同的机制根据不同的原因来处理的。

ERIC BREWER:这是一个核心问题。你有多少份副本,为什么要有?每个副本都有自己的用途,无论是作为备份,还是用于读吞吐量的复制,或者是flash中的缓存副本。因为它们是自动分布的你无法跟踪所有这些东西。我认为你实际上可以管理文件系统,广义上说,存储系统,你可以主动分配你有多少副本。

MARGO苏打水:用户总是在存储管理员权限范围之外进行拷贝操作。

埃里克·里德尔:因为数据的数量和它的用途都在不断增加,你必须让机器帮助用户用元数据标记内容,帮助他们知道数据是什么,副本是干什么的,它从哪里来,为什么他们有它,以及它实际代表什么。

MARGO苏打水:通过数据来源,您可以识别副本,无论它们是有意的还是无意的。这是一个开始。然而,回答其他语义问题,如“为什么要复制?”仍然需要用户干预,而这在过去是非常困难的。

史蒂夫·克雷曼:每个数据库的数据集,用户的主目录都有与之相关联的某些属性。对于数据库,您需要确保它具有一定的服务质量、灾难恢复策略和一定数量的归档副本,以便它们可以追溯到数年前。他们可能还希望有一定数量的备份检查点,以便在发生损坏时返回。

这些都是数据集可以预定义的属性。一旦设置好,系统就可以做正确的事情,包括复制尽可能多的副本。这并不是说人们为了复制而复制;他们试图完成这个更高层次的目标,却没有告诉系统这个目标是什么。

MARGO苏打水:你说你需要出处,你需要添加出处的工具,这样当Photoshop复制一份文件时,就会有一个记录说,“好吧,这现在是一个Photoshop文档,但它来自另一个文档,然后它被Photoshop改造了。”

ERIC BREWER:我完全同意出处,但我想你说过它本质上是行不通的,因为用户总是可以复制不受任何人控制的副本。我认为这是违反,而不是遵守。大多数拷贝是由软件制作的。

MARGO苏打水:我同意,但我认为这些副本有一种方式泄漏到域外,像重复数据删除这样的东西对它们无能为力。通常的情况是,我通过防火墙,打开公司服务器上的一些东西,然后,当我要开始我的旅行时,我把一个文件保存到我的笔记本电脑上,然后拿走我的笔记本电脑。史蒂夫的重复数据删除软件再也不会出现在我的笔记本电脑上了。

ERIC BREWER:是的,这就是我之前关于数据管理的观点。如果你去找任何有这种情况的系统管理员,他们会睁大眼睛,非常害怕。按照你刚才说的去做应该会困难很多。这个特殊的问题被各地的律师和系统管理员视为一个巨大的问题。这些数据的泄露是个大问题。


STEVE KLEIMAN:在未来的十年里,企业级数据将会迁移到一个压缩和重复数据删除的中央归档功能,可能还会有遵从性和其他您可能想要的灾难恢复功能。


史蒂夫·克雷曼:真正拥有最终用户应用程序的公司将不得不围绕这一领域设置体系结构和政策。他们肯定会签署并加密文件。随着时间的推移,他们还将对我们一直在谈论的事情负责:加密、控制使用和外部拷贝。这个问题的一部分在应用程序领域得到了解决,只有少数公司是该领域的实际所有者。

MARGO苏打水:有时你会想要那种来源,有时你又不想要。

马谢CREEGER:这两者之间会有模糊的界限。定义什么是数据对象的无关复制或派生将与原始对象的语义密切相关。存储系统将被要求对它们存储的对象有更语义上的理解,决定信息是多余的和可删除的将是一个复杂得多的决定。

史蒂夫·克雷曼:好消息是,像微软这样的终端用户应用公司的趋势是对他们的协议相对开放。开放和可访问这些协议将允许人们在整个系统中利用公共模型。所以,是的,如果你一直盲目加密你就会打败重复数据删除因为那时一切都是克林贡诗歌。我应该能够确定两个被复制和单独加密的文档是否相同。我希望这是可能的。

马谢CREEGER:我们能提出什么建议呢?如果IT经理要在解决方案的归档类型、灾难恢复、重复数据删除等方面进行投资,那么他们在今天和未来18个月的架构设计方面应该考虑什么?

史蒂夫·克雷曼:在未来的十年中,企业级数据将迁移到压缩和重复数据删除的中心归档功能,可能具有遵从性和您可能想要的任何其他灾难恢复特性。一旦数据位于该归档文件中并具有某些已知属性,企业存储管理器就可以控制如何访问它。因为性能原因,他们可能在网络边缘有拷贝可能是闪存,可能是高性能的磁盘,可能是其他东西,但所有这些数据都有一个中央访问和控制点。

马谢CREEGER:因此,人们应该考虑建立一个已知属性的中央档案存储库。然后,一旦有了集中式归档,人们就可以利用其他特性,比如虚拟化或重复数据删除,而不用再为外设/边缘存储操心了。

史蒂夫·克雷曼:我现在在家就可以这样做,我使用一种服务,把家里服务器上的所有数据备份到互联网上。当我告诉他们备份我所有的微软文件时,微软文件不会通过网络传播。服务知道他们不需要复制Word.exe。

玛丽·贝克:我有点不同意。过去几年我一直在做的一件事就是研究人们和组织是如何丢失数据的。你丢失东西的方式是惊人的丰富,很多灾难故事都是因为,甚至在虚拟的意义上,一个集中的档案。

在其他管理域下有很多边缘副本。以这种方式保护数据的有效性取决于您希望保存数据的严重程度、保存多长时间以及面临什么样的威胁环境。集中式归档的便利性和经济性非常引人注目,但这取决于您希望在多长时间内使用数据承担什么样的风险。

MARGO苏打水:如果史蒂夫的互联网档案服务倒闭了怎么办?

史蒂夫·克雷曼:对我来说,我还有一份副本。我并不是说归档位于一个位置,并且归档中只有该数据的一个副本。它是一种分布式归档,具有更好的复制特性,因为您需要更高的长期可靠性。从用户的角度来看,它是一个可以从其中提取文档的云。

埃里克·里德尔:过去几年的总趋势是更多的分配,而不是更少。人们使用各种各样的高容量便携设备,如黑莓、便携USB设备和笔记本电脑。对于系统管理员来说,捕获数据的能力现在具有更大的威胁。5年或10年前,你所需要担心的是严格控制的桌面。今天的事情要复杂得多。

我参加了一个会议,有人预测在两三年内,公司将允许你购买自己的设备。你会买自己的笔记本电脑,把它带到公司,他们会给它添加一些软件。但即使是在企业IT部门控制你的笔记本电脑和台式电脑的时代,黑莓、usb和ipod无疑已经成为了人们的首选。因此,对于管理员负责的大部分工作来说,将数据拉回中央存储是行不通的。

马谢CREEGER:这与史蒂夫最初的观点相悖。

史蒂夫·克雷曼:我不这么想。我认为笔记本电脑上会有很多分布式数据。这些数据将会有一些控制,也许是通过DRM机制。记住,在一个企业里,家族的珍宝实际上是两件东西:磁盘上的比特和人的脑细胞。这两者都非常重要,对于企业拥有的东西,它支付给员工生产的东西,它会想要确保这些比特存在于一个安全的地方,而不仅仅是在某人的笔记本电脑上。在某人的笔记本电脑上可能有一个加密的副本,企业可能拥有密钥,但为了让公司对这些比特声明知识产权,您将不得不以某种方式集中管理和保护它们。

ERIC BREWER:我同意这是企业想要的,但实际情况可能大不相同。

史蒂夫·克雷曼:这是我不同意的部分,因为员工合同的一部分是当他们生成对公司很重要的比特时,公司必须有它们的副本。

格雷格领班:让我们小心。这里发生了两件相互关联的事情:公司是否有该信息的副本,公司能否控制其他人获得副本?Erik刚刚提到的是后者的一个例子。史蒂夫一直在谈论的更多的是前者。

史蒂夫·克雷曼:玛戈一直在说,公司可能没有副本。我根本不同意这种说法。这就是它付给员工的报酬。问题是,公司能控制副本吗?我的工作假设是这超出了任何存储系统的范围。数字版权管理系统将不得不发挥作用,然后在此基础上进行密钥管理。

MARGO苏打水我不确定我是否相信这个。是的,公司关心员工做他们的工作,但很少有公司告诉他们的员工如何做他们的工作。如果我的工作是提供一些信息和数据,我可能要旅行一周,这可能需要一些时间来实现。与此同时,我可能正在我的笔记本电脑上生成有价值的企业数据,而这些数据还没有出现在任何企业服务器上。是否达到目标是一个过程问题,而过程问题并不总是以我们想要的方式得到解决。

马谢CREEGER:你们都是对的。玛戈想要为公司创造价值无论她在旅行时在笔记本电脑上用什么方式,无论她在家里用什么方式,只要能给她的雇佣合同带来最高的价值。如果公司重视Margo的工作,他们将愿意在合理的范围内,以Margo的工作方式生活。

另一方面,从Steve的角度来看,Margo迟早要把自由格式的边缘文档签入一个中央保护的存储库,并使用控件。然后她可以进入下一个制作阶段,可能是原作的2版衍生品,或者是完全不同的东西。

埃里克·里德尔:你当然要小心。你这是在逆潮流而动。趋势是去中心化。企业鼓励人们在海滩和家里工作。


ERIK RIEDEL:过去几年的总体趋势是更多的发行,而不是更少。人们使用各种各样的高容量便携设备,如黑莓、便携USB设备和笔记本电脑。对于系统管理员来说,捕获数据的能力现在具有更大的威胁。


史蒂夫·克雷曼:我所说的一切都与此相悖。从本质上讲,经过提炼的知识产权必须在某一时刻回到公司。

MARGO苏打水:有时过程是绝对关键的。是我偷来的代码还是我自己写的?这些信息只被封装在我的笔记本电脑里。不管我是否将它签入了Steve的存储库,当Mary的公司来起诉我因为我偷了她的软件时,你真正关心的是在我的笔记本电脑上发生或没有发生的创建过程。

ERIC BREWER:我不认为这是存储管理员的日常问题。我们要讨论的是,第一个目标是不是要知道你不想丢失哪一份拷贝,这和把拷贝泄露给别人是不同的问题。

史蒂夫·克雷曼:我认为法律体系仍然重要。技术不能让它过时。你仍然对公司负有法律义务。你仍然有不违法的义务。我们能想出的任何技术,都可能会有人找到绕过它的方法,这就需要法律系统来填补空白。这是绝对正确的,对于笔记本电脑上的所有东西,我们现在不知道如何控制。

MARGO苏打水:我也认为我们需要关注的不仅仅是副本;用版权术语来说,它也是衍生作品。它是"看,文件A是文件B的输入文件B是文件C的输入现在我有了文件D,它可能被污染了因为我可以看到它到达那里的完整路径"

马谢CREEGER:也许我们在这里看到的是,我们需要直觉地对我们所存储的比特有更多的语义。文件不仅仅是一堆位;它们有一段历史,并适合于上下文,为了解决这类问题,公司将不得不将流程和过程放在适当的位置,以定义它们想要保留的存储对象的上下文。

玛丽·贝克:您可以在一定程度上限制,但这是隐藏的通道问题,即使是通过没有恶意的进程。假设我在海滩上,我唯一拥有的东西是一台非公司的PDA,我有一些想法,或者我与某人交谈并录制一些东西。将所有这些不同的源纳入一个全面的存储管理策略可能非常困难。存储已经变得如此便宜;它存在于我们周围的一切事物中。将比特存储在许多地方是非常容易的,而这些地方可能很难作为集成系统的一部分。

史蒂夫·克雷曼这些问题的答案不止一个。看看病毒扫描世界发生了什么。这很像腰带和吊带。它们在笔记本电脑、存储系统、网络和网关上进行。毫无疑问,这是个难题。

外包市场有各种各样的技术,如中国和印度,在那里,为特定公司处理特定源代码的人被限制以任何方式、形式或形式复制该源代码。软件会禁用它。

类似的事情也可能发生在我们一直在谈论的信息扩散问题上。所有这些类型的解决方案都有优点和缺点,这取决于您愿意支付的成本。这不仅仅是一个技术问题或存储问题;这是一个政策问题,也包括管理和法律问题。

ERIC BREWER当前位置从某种程度上说,我们已经从主要关注如何存储东西转移到试图管理存储内容的语义,这是存储行业的一个胜利。

马谢CREEGER再次,站在仓库经理的角度,他该做些什么?在接下来的18到24个月里,他应该做些什么?

史蒂夫·克雷曼今天,人们通过服务器虚拟化和存储虚拟化节省了大量的时间、金钱和能源。这两者结合起来非常强大,我认为这是未来2年、3年或4年的趋势。

格雷格领班我们的产品现在已经有货了。在这段时间里,很多人都谈论过快照。如果您正在运行一个规模相当大的IT操作,那么您应该确保您的服务器具有创建快照的能力。

ERIC BREWER:在安全方面,加密。有时,在有限的领域中,您可以进行正确的密钥管理和层次结构,但加密是存储领域中开始以全面方式保护数据的一种已建立的方法。

MARGO苏打水备份、归档和灾难恢复都是至关重要的功能,但它们是不同的功能,您应该仔细考虑您正在做什么,并确保您正在做所有这三种功能。

格雷格领班三种选择中的任何一种,你的选择都可能是什么都不做,但这应该是明确的选择,而不是隐含的选择。

埃里克·里德尔:反过来也一样。当我们在谈论能源效率时,要保证拷贝的效率,不让东西泄露出去,然后你要明确地思考为什么你要再拷贝一次。

ERIC BREWER哪些是你不想丢失的?我区分了主副本和缓存副本,前者是能够存活下来的副本,后者是有意暂时存在的副本。

格雷格领班例如,如果你正在运行一个做软件开发的组织,仓库、CVS、svn不管你使用的是什么,都比每个开发人员单独签出的副本重要得多。

ERIC BREWER这是原稿。你必须用不同的方式对待它。没人能削弱你的主拷贝。

马谢CREEGER当前位置我知道第一个CAD系统是为计算机工作者开发的。他们为IC芯片和印刷电路板设计做了这些,然后扩展到许多其他应用领域。

CVS主开发树方法是否将适用于许多不同的业务和存储问题领域,或者您认为范式将会有本质上的不同?

格雷格领班这绝对会涉及到很多领域。

ERIC BREWER我想大多数系统都有缓存副本和主副本。

格雷格领班事实上,所有这些便携设备基本上都是获取缓存副本的实例。

ERIC BREWER:任何可能丢失的设备都应该只包含缓存副本。

MARGO苏打水:对,但现实情况是,有很多便携设备你可能会丢失它们的真品。我们都知道有些人丢失了他们的手机,也失去了他们生活中所有的联系方式。

格雷格领班他们得到了重要的教训,以后再也不会发生了。

MARGO苏打水不,他们会一遍又一遍地这样做,因为他们会把邮件发送到他们的Facebook网络,上面写着“把你的联系方式发给我”。

马谢CREEGER他们从外围重建。

ERIC BREWER:外围是原稿;这是完全正确的。

马谢CREEGER我们已经讨论了安全和存储基础设施。我们已经接触了版权,档案,并谈了很多关于能源。我们讨论了各种架构,并在存储库和自由云精神之间进行了激烈的争论。

存储管理人员面临着巨大的挑战。他们没有机会从长远的角度看所有这些构造力的移动。他们今天必须表明立场。他们有大量的信息向他们涌来,他们必须以某种方式组织这些信息来证明他们的工作是合理的。他们不得不做所有这些事情,而没有得到管理层的感谢或感激,因为存储被认为是一种公用事业。就像灯光和管道一样,应该没问题。

史蒂夫·克雷曼他们也有政治问题。SAN组不会与网络组通信。后备小组害怕他们的工作将会消失。着眼于技术的融合,即使是像FCoE(以太网光纤通道)这样简单的技术,SAN光纤通道的支持者们也在团团转。

马谢CREEGER:或iSCSI超过10千兆以太网。

史蒂夫·克雷曼:绝对的。其中有很多技术问题,但也有非常严重的人和政治问题。

回到顶部

作者

马谢Creeger(mache@creeger.com)是硅谷科技行业资深人士。同时我还是ACM队列他是Emergent Technology Associates的负责人,该公司为全球技术公司提供市场营销和业务发展顾问服务。

回到顶部

脚注

DOI: http://doi.acm.org/10.1145/1378727.1378741

回到顶部

数据

UF1数字IBM于1965年推出了带磁带机系统的System/360 Model 30。

UF2数字DEC硬盘驱动器组装,大约在1970年。

回到顶部


©2008 acm 0001-0782/08/0900 $5.00

允许制作本作品的全部或部分的数字或硬拷贝用于个人或课堂使用,但前提是该拷贝不是为了盈利或商业利益而制作或分发,并且该拷贝在第一页上带有本通知和完整引用。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定的许可和/或付费。

数字图书馆是由计算机协会出版的。版权所有©2008 ACM有限公司


没有发现记录

Baidu
map