acm-header
登录

ACM通信

实践

那次我从贝尔实验室偷了一万美金


断链

信贷:安德烈Boukreev

如果IT工作者担心他们会因为宕机而受到惩罚,他们就会采取导致更大规模宕机的行为。相反,我们应该庆祝我们的中断:无可指责地记录它们,公开讨论我们从它们中学到的东西,并慷慨地传播这些知识。停机不是一种费用。这是对那些从中吸取教训的人的一种投资。我们可以通过管理实践使投资最大化,这些管理实践使相关人员的学习最大化,并通过在整个组织中传播这些知识。如果管理得当,每次宕机都会让组织变得更聪明。简而言之,目标应该是创造一种学习型文化——一种只寻求犯新错误的文化。

从1994年到2000年,我在新泽西州的贝尔实验室工作。我是一个负责维护数千台计算机和连接它们的网络的团队的系统管理员。身边围绕着这么多才华横溢的科学家和工程师,我感到很害怕,他们中的许多人编写了我大学时使用的教科书。

有一天,我不得不对中心路由器进行配置更改。很难衡量变化的大小。我可以说这是一个很小的变化,它只影响了路由器配置文件中的几行。另一方面,这是一个很大的变化,因为它影响了一个由数千用户使用的网络。这是一个重要的改变,因为有一个重要的项目在等待完成。

我输入了更改配置的命令,保存了新的配置,并检查了我通常检查的内容。这种改变是成功的。至少我是这么想的。

我为自己感到骄傲,于是开始从事其他工作。过了一会儿,我无法连接到网络上的大多数机器。其他人也不能。我惊慌失措。是我的改变造成的吗?不可能的!那是近一小时前的事了。

不,这绝对是我的零钱。有一些打字错误不会立即显示出任何不良影响。在这种情况下,缓存保存了45分钟。在46分钟的时候,路由器是一个非常昂贵的盒子,什么也不做。

我恢复了我的改变,一切恢复正常。

我父亲过去常拿天气预报员开玩笑。例如,他会说,如果他们只是简单地预测明天的天气“和今天大致相同”,那么他们对我们居住的地方的预测有70%是准确的,对洛杉矶的预测可能有90%是准确的。打个比方,我经常开玩笑说,在宕机期间,问“我们最近做的一个大更改是什么?”会让你在70%的情况下看起来像个天才,在洛杉矶可能是90%的情况。

尽管我的改变已经在一个小时前完成了,但这肯定是最近一次大的改变。

回到顶部

吸取错误的教训

坐在我的办公桌前,我粗略地计算了一下这次宕机的成本:受影响的人数、贝尔实验室的平均工资估计、当时人们坐在电脑前的可能性……

根据我的计算,这次中断给公司造成了大约1万美元的损失,并影响了数千人。

我惊慌失措。

我躲在办公室里。

祈祷没人会说什么或注意到。

你猜怎么着?没有人做。

我躲过了一劫。或者,也许是其他人受到了责备。我不在乎,只要不惹上麻烦就行。

那天我学到了重要的一课:不要接触特定的配置参数,如果要接触,至少要等一个小时再宣布成功。

回到顶部

然后它的发生

你可能会惊讶,但那次中断不是我从贝尔实验室偷了一万美元。

这是个无心之过,初学者的无心之过。把它记在工作中学习的成本上。虽然我的恐惧和尴尬是真实的,但这些感觉很可能是没有根据的。我有一个会保护我的好老板。另外,当时的局域网相当不可靠,大多数受影响的用户可能对宕机泰然不动。

接下来发生的就是偷窃。

一个月后,我团队中的另一个人也犯了完全相同的错误。这次停电的规模和持续时间是一样的,估计花费了1万美元。

如果我能分享我从中学到的东西,那宕机肯定是可以避免的我的停机。我当时就知道,多年后我仍然相信。

盗窃不是因为我停电了。这是我对停电的反应。我抢了公司学习和提高的机会。

回到顶部

恐惧导致消极行为

如果人们担心因停电而受到惩罚,其结果将是产生意想不到的副作用的自我保护行为。这些副作用可能导致更频繁和更大的中断。

这些消极行为包括:

  • 隐藏的错误.这阻碍了组织的学习,并剥夺了公司潜在的改进。
  • 隐藏的问题.如果存在一种“射杀信使”的文化,人们就会故意隐藏问题。这导致只有当问题大到无法察觉时才会被发现。
  • 忽略小问题.人们会忽略一个小问题,因为他们害怕修复它(这通常是容易出错的)可能会导致他们被指责的停机。这导致只有当它们足够大,足够昂贵,不能被忽视时才会解决问题。
  • 关闭通信.恐惧会产生一种令人不寒而栗的效果,它会阻止团队合作所需的开放和诚实的沟通,并阻止团队良好地合作。
  • 失去最优秀的技术人员.如果他们不选择离开有毒的文化,有毒的文化就会迫使他们离开。

如果您的组织从一个大灾难到另一个大灾难,可能问题是企业文化在无意中推动了这些行为。

想要更可靠的系统?你需要一个技术高超、沟通高效、在问题很小的时候就能解决问题的团队。恐惧会产生相反的效果。

在出现重大故障或其他问题后,我们经常看到首席执行官或政治家声称他们将“解雇负责人”。恭喜,伙计。您只是帮助确保了未来会出现更大、更频繁的中断。

我不知道这种“解雇某人”的反应从何而来。这当然是很好的电视情景喜剧素材。在新闻发布会上,它的效果肯定不错。然而,值得怀疑的是,MBA课程是否教会了未来的高管们,如果他们解雇了犯错的人,他们的公司最终只会雇佣完美的人。相反,解雇每一个犯错的人会导致公司没有员工,或者公司里满是等待被解雇的人,当管理人员发现他们也是人。然而,首席执行官和政界人士往往迫于压力,要解雇某人来证明他们的严重性。在《平价医疗法案》(Affordable Care Act)网站启动受阻期间,专家们曾多少次猜测奥巴马总统会在何时解雇谁?

这种有毒的文化使得很难雇佣到最好的员工。词传千里。如果你的公司以指责和羞辱别人而闻名,流言就会传播开来,顶尖人才就会避开你。

回到顶部

DevOps庆祝错误

DevOps的文化对于宕机有着更开明的态度。我们不是隐藏它们或假装它们没有发生,而是记录它们。我们鼓励责任和责任,而不是惩罚任何人。

相信一个复杂的系统可以100%不停机是不合理的。因此,因为停电而惩罚别人或对别人发火是不合理的。

一个更开明的立场是,将每次中断视为一项计划外的投资。我没有让贝尔实验室损失1万美元。贝尔实验室为我的教育投资了一万美元。为了使投资发挥最大作用,教育应该得到最大限度的利用。

从事件中学习不会神奇地发生。这种愿望可能存在,但需要更多。从责备到学习的转变需要执行者、管理层和非管理层的共同承诺。高管们必须树立无可指责的行为榜样,并鼓励学习。管理人员必须创造能够学习的过程。项目经理需要为这些过程的发生分配空间和时间。每个人都必须学会更加开放和谦逊。

DevOps文化鼓励写一份事后分析报告,记录发生了什么以及从中学到什么。把注意力集中在“学到了什么?”而不是“为什么会这样?”或“谁该受责备?”这样的问题上,会创造出一种学习和进步的文化。

事后分析帮助我们承担责任。这个词负责任的字面意思是“解释所发生的事情”,也就是讲故事。事后分析应该集中于发生了什么以及了解到什么。

一份事后报告通常以一份应采取的措施清单结尾,以防止今后发生类似事件。项目列表中的每一项都像其他bug或特性请求一样进行分类。DevOps的新思路表明,专注于这个列表会分散学习过程的注意力。一些组织已经开始将确定这些后续项目的过程分离开来,将讨论转移到随后进行的单独会议上,通常是由较小的团队进行的。

Dave Zwieback的优秀著作超越责备:从失败和成功中学习不鼓励使用这个术语后期把这个过程称为a学习复习.学习回顾可以用来分析任何事件。成功和失败都是值得学习的。

大型事件(中断和成功)充满了学习的机会。应鼓励有关人员就该专题发言,更广泛地分享所了解到的情况。在谷歌的时候,我经常看到SREs(站点可靠性工程师)前往遥远的办公室,就最近的一次故障以及当地团队如何利用所学知识进行演讲。这可是羞耻感的反面!

当中断影响到客户时,应该提供事后分析报告的公共版本。公共关系和法律部门可能会在第一次提出这一建议时大汗淋漓,但企业正在认识到,公开的事后分析实际上可以建立客户的信心和忠诚度。

最好的公共事后分析会以对客户有用的方式展示我们所学到的东西。你能得到的最高赞美是:“我从你的公开剖析中学到了很多,这让我在工作上做得更好!”顾客通过这种赞美的意思是,他们要么学会了一种可以在他们的公司采用的实践,要么他们了解了之前关于你的产品的模糊细节,这有助于他们在使用你的产品时更好地完成工作。由此产生的忠诚是无价的。

重要的是,与公众的沟通是真实的。听起来像人,不是媒体人。承认失败。用第一人称写,表现出真正的懊悔。为了避免将中断的全部影响降到最低,可以这样说:“我们对它可能对我们的用户和客户造成的影响感到遗憾。”五月有影响吗?在那里影响!否则,您就不会发送这条消息。说:“我们为这次中断对我们的客户造成的影响道歉。”你的法律和公共关系部门一开始可能会对此感到困惑,但他们需要知道,今天的客户是对真实性的敏锐判断者。

回到顶部

结论

显然,我没有从贝尔实验室偷一万美元。但我确实剥夺了我的团队从我的错误中吸取教训的机会,以一种可以改善整个团队的方式。我吸取了教训,很高兴有机会与大家分享。

没有人喜欢中断。它们是不可避免的,所以我们不妨充分利用它们。通过无可指责的事后分析和其他技术,我们可以创造一种文化,在这种文化中,每次宕机都会导致组织变得更聪明。

如果我们做对了,我们所犯的错误将会是新的错误。

回到顶部

作者

托马斯·a·Limoncelli是纽约市Stack Overflow Inc.的SRE经理。他的著作包括系统与网络管理实践,云系统管理实践,系统管理员时间管理.他的博客EverythingSysadmin.com和微博@YesThatTom

回到顶部

脚注

如果你想了解更多关于这个主题,我推荐Zweiback's超越责备:从失败和成功中学习第14章云系统管理实践,我和Strata Chalup还有Christina Hogan一起写的书


版权由作者/所有者持有。授权给ACM的出版权。
请求发布的权限permissions@acm.org

数字图书馆是由计算机协会出版的。版权所有©2021 ACM, Inc。


没有发现记录

Baidu
map