acm-header
登录

ACM通信

历史的反思

过去的未来


纽曼手写的笔记

在二战期间破解德国密码。纽曼手写笔记。

图片来源:马克斯·纽曼数字档案馆

我一直认为伊拉斯谟的优先顺序是正确的,他说过:“当我有了一点钱,我就买书;如果还有剩的,我就买吃的和穿的。”自打记事起,我就喜欢二手书店、图书馆和档案馆:它们的气味、宁静的氛围、无处不在的发现希望,以及将积累的世界知识触手可及所带来的深深的陶醉。因此,尽管我从事的是计算机科学的职业,我还是不可避免地会被这门学科中与过去最直接相关的那些方面所吸引:计算与保存的历史。

我个人的大量研究,特别是关于M.H.A.纽曼在战后计算机发展中所扮演的鲜为人知的角色,迫使我花了很多时间来发掘和研究旧信件、笔记本和其他纸质记录。虽然我的一些素材是在被转换成数字格式后才找到我的,但没有一个是天生的数字。未来的计算历史学家将会有完全不同的体验。毫无疑问,他们和我们一样,将继续优先使用一手资料而不是二手资料,也许书面资料仍将比其他形式的历史记录更受青睐,但自大约4000年前文字系统出现以来,学者们将首次越来越无法直接接触到历史材料。在20年代后期th21岁出头本世纪以来,写信已经让位于电子邮件、短信和推特,日记已经被博客(私人的和公开的)所取代,而曾经占据主导地位的纸质形式也正在进入数字时代,而且这种趋势还将继续下去。个人档案越来越多地被外包出去,通常采取的形式是把资料放在一些基于网络的位置上,他们错误地认为只要在线就可以保存资料。今天正在完成工作的人很可能会留下很少非数字化的东西,而数字化改变了一切。

数字对象与实体对象不同,它不能够直接由人类创造或随后访问,而是需要一个或多个中间层的便利技术。在某种程度上,这种技术包括进一步的数字对象:软件,如BIOS、操作系统或字处理包;在某种程度上,它是机械的,一台计算机。即使是一个相对简单的数字对象,如文本文件(ASCII格式),与其他数字和物理对象的关系也非常复杂,很难将其完全分离出来。这种技术中介的复杂性和必要性不仅存在于数字对象被创建的时候,而且存在于它被编辑、查看、保存或以任何方式与之交互的每一个场合。此外,这种情况远非静态的,因为与文件的每次交互都可能使其接触到新的数字对象(例如,不同的编辑器)或新的物理技术。

数字材料的保存和随后的访问涉及到的远比安全存储比特要多得多。对于伴随元数据的需求(没有元数据,比特就没有意义),原则上已经很好地理解了,我们开发的工具在短期内是相当可靠的,至少对于简单的数字对象是这样的,但没有跟上交互和分布式工件日益复杂的本质。在最初生产和渲染数字材料的硬件平台过时之前,这种空白的全部影响不会完全显现出来,因为无法直接回到内容。

回到顶部

迁移

在数字保存社区中,通常采用的主要方法是迁移和模拟。迁移的重点是数字对象本身,迁移过程包括改变旧文件的格式,以便在新的硬件(或软件)平台上访问它们。因此,配备一个合适的文件转换程序,阅读一份Word-Perfect文档是相对简单的(或者说,论点是这样的),它最初是在大约30年前的一台Data General小型计算机上的iPad 2上生成的。然而,实际情况要复杂一些。已知的计算机文件格式超过6000种,而且还在不断增加,因此,每一种新硬件平台的引入都产生了一种潜在的需求,即为了访问旧的数字材料,需要重新开发数千种单独的文件格式转换器。由于拥有开发它们的技术知识的人缺乏兴趣,这些工具中的许多不会被生产出来,并且不是所有被创造出来的工具都能完美地工作。在一个新的硬件平台上以完全保真度渲染一个数字对象的每一个方面是极其困难的。常见错误包括颜色映射、字体和精确分页的变化。在相对较短的时间内,错误会累积起来,变得复杂,并显著侵蚀我们访问旧数字材料的能力,或根据我们可以访问的材料形成可靠的历史判断的能力。存储多个版本文件的成本(至少在公司环境中)意味着我们不能总是依赖于能够检索原始位的副本。

与转换像现代电脑游戏一样复杂的数字对象或为好莱坞大片制作的特效文件相比,转换一个WordPerfect文档的挑战要简单得多。这一基本任务远远超出了任何图书馆或档案馆的技术能力或财力。虽然从该领域的许多文献中看不出这一点,但在越来越多的情况下,迁移不再是一种可行的保存方法,这是事实。

回到顶部

模拟

仿真基本上忽略了数字对象,而将注意力集中在环境上。这里的想法是生成一个在一个环境中运行时模仿另一个环境的程序。这种方法有明显的优点:它完全避免了文件格式膨胀和复杂性的问题。因此,如果我们可以随意使用,例如,一个功能完美的IBM System/360模拟器,那么在原始硬件上运行的所有文件都应该在模拟器上运行而无需修改。以索尼PlayStation 3为例,所有在其上运行的复杂游戏都应该是无需修改的,只要保持完整就可以了,这是我们非常清楚如何完成的事情。

不幸的是,即使对于相对不复杂的硬件平台,生产完美或接近完美的模拟器也不是一件小事。这样做不仅涉及实现平台的文档化特性,还涉及实现平台的文档化特性。这需要远远超过一般水平的知识水平,而且理想情况下,需要持续访问至少一个可用于衡量性能的工作原始实例。

除此之外,为每个数字对象记录其硬件和软件依赖的完整集合,以便将来访问,这是至关重要的,为了让它运行,这些依赖必须存在(或模拟)(参见TOTEM;http://www.keep-totem.co.uk/).即使所有这些都可以完成,事实仍然是,模拟器本身是编写在特定硬件平台上运行的软件对象,当这些平台不再可用时,它们必须被迁移或重新编写。欧盟资助的KEEP项目(参见http://www.keep-project.eu)最近研究了开发一种高度便携的虚拟机的可能性,它可以放置模拟器,目的是在需要时允许快速的模拟器迁移。现在说这种方法的有效性还为时过早,但是KEEP是一个与保存研究的大趋势背道而驰的项目,它集中于模拟作为保存方法,并将复杂的数字对象作为其领域。

回到顶部

结论

即使在最好的情况下,未来的历史学家,无论是在计算机还是其他领域,研究我们现在生活的这个时代,也将需要一套与他们迄今为止所拥有的任何东西完全不同的技术技能和工具。他们可获得的绝大多数原始材料将不再是技术独立的形式,而是数字化的。即使他们足够幸运,拥有大量明显保存完好的文件,也完全有可能由于从一个硬件平台迁移到另一个硬件平台,这些材料的知识连贯性和意义将遭受重大破坏。更糟糕的是,由于没有合适的硬件平台来呈现数字对象,或者没有足够丰富的元数据来处理复杂的硬件和软件依赖关系,数字对象可能完全无法访问。

遗憾地观察目前生产的数字信息的数量是一件司空见惯的事。除非我们开始认真解决未来可访问存储的数字对象的问题,并采取适当的步骤切实保护我们的数字遗产,否则后代可能会有更大的理由抱怨。

回到顶部

作者

大卫·安德森cdpa@btinternet.com)是英国朴茨茅斯大学创意科技学院CiTECH研究中心主任

回到顶部

数据

UF1数字在二战期间破解德国密码。纽曼手写笔记。

回到顶部


版权归作者所有。

数字图书馆是由计算机协会出版的。版权所有©2012 ACM, Inc.


评论


CACM管理员

以下公开信发表在2012年7月出版的《致编辑的信》(//www.eqigeno.com/magazines/2012/7/151227)上。
——CACM管理员

David Anderson的历史反思专栏“过去的未来”(2012年5月)为保存计算机硬件和软件工件提供了一个有说服力的例子。我想补充一点,计算机科学也没有很好地保存它的论文;例如,当ACM和IEEE的母公司美国信息处理学会联合会(American Federation of Information Processing Societies)在1990年倒闭时,它的记录、期刊收藏和书籍都被扔进了垃圾堆,微电子与计算机技术公司(Microelectronics and Computer Technology Corporation,简称MCC)的记录也被扔进了垃圾堆,MCC是我在20世纪80年代工作过的一个大型联盟。我欢迎布鲁斯·戴默(Bruce Damer)领导的努力,他的Digibarn博物馆(http://www.digibarn.com/)收藏纸质材料,以及老式PC硬件和GUI软件的工作版本。

计算机科学在保护它的遗产方面可以做得更多,鼓励和帮助人种学家研究技术的发展和使用。否则,未来的历史学家和计算机专业人员将只能推断或猜测保存下来的文物是如何被设计、使用和最终丢弃的,就像我们今天推测古代文明出土文物的用途一样。

乔纳森Grudin
雷蒙德,佤邦


显示1评论

登录全面访问
忘记密码? »创建ACM Web帐号
文章内容:
Baidu
map