acm-header
登录

ACM通信

历史的反思

保存计算历史的数字记录


保存计算历史的数字记录,说明

信贷:Wiktoria pswlak

越来越多的计算历史学家所研究的原始资料要么是数字化的,要么已经数字化了。因此,如何保存这些数字宝藏,以及如何确保长期持续使用它们是我们所关心的问题。这些资料是否仍然可访问的关键决定因素之一是存储源资料的文件格式。选择“错误的”格式将对与图书馆、档案和其他数字存储库中的数字内容生命周期过程相关的系统、自动化工具或工作流对文件的支持程度产生重大影响。由于这个原因,数字保存主义者一直对文件格式抱有浓厚的兴趣,并有动力维护有关不同格式特征的最新信息,以及随着时间的推移这些特征对文件保存的影响,这是可以理解的。

相当数量的数字材料现在必须被强制存入国家图书馆,这意味着即使对保存或长期访问没有兴趣的数据创建者也需要对存储库首选的格式或认为可以接受的格式及其原因有一定的了解。

数字保护主义者的主要年度聚会在iPRES会议上举行,最近的一次会议去年在澳大利亚墨尔本举行;下一次会议将于今年11月在北卡罗来纳州教堂山举行一个ipre会议总是提供一个衡量该领域时代精神的机会,去年很难不被文件格式问题带来的困难所引起的大量关注所打动,以及一个可行的格式注册表可以创建的程度,这既响应了保存社区的需求,又使从业者有意义地向前发展。格式在提交的论文和休息时间的对话中都很突出,其中一些非常活跃。格式过时和互操作性造成的问题影响到我们所有人。无论我们是科学家,还是制作好莱坞大片的动画师,他们的工作必须在一部电影中从头开始多次完成,因为工作室想要利用最新的尖端软件的功能。在更普通的层面上,在我们最喜欢的字处理器的1.0版本中创建的文件在升级到后续版本时很少完全兼容。格式过时有能力切断我们的研究成果,无论是公共资助的,还是由公司开发的。即使保存完好的文件,如果我们没有能够理解它们的软件,它们也是无用的。技术发展的速度,以及新事物的诱惑,意味着要确保遗留文件能够被完全访问变得越来越困难。

提出的一个抱怨是,尽管“格式”是一个常用的术语,但事实上,即使在“格式”社区内也没有得到很好的理解或一致同意。由于某些“格式”而产生的具体问题包括:

  • 没有公开可用规格的;
  • 实现不符合已发布的规范;
  • 格式规范或“通常”实现随着时间的推移而改变,并且在不同的供应商、用户和其他人之间改变;而且
  • 生成文件(任何合理长度)的可能格式的综合映射,以便能够识别未知格式的文件。

这些和类似的考虑引起了一定程度的恐慌,并且普遍缺乏信心,不太可能通过对一般格式的单一“理解”,甚至是特定的单个格式来成功地“强加”。

识别格式未知的文件的常用方法是检查单个字节(位流),寻找与已知格式相关的特征模式或“签名”。DROID(数字记录和对象识别)等工具的开发使这一过程更容易,并形成了数字取证工具包的重要组成部分。因此,也许我们可以通过将注意力集中在比特流的识别特征上,来避免对“格式”的混淆。事实上,对于文件格式可以被认为是位流的(通常是嵌套的)解释(或编码方案)这一观点,似乎没有异议。无论这种语言上的诡计多么诱人,至少有两个理由可以证明这不是正确的方法。


即使保存完好的文件,如果我们没有能够理解它们的软件,它们也是无用的。


抽象是建立人们与系统交互的复杂程度的过程。例如,当我们编写涉及数字运算的代码时,我们通常会忽略底层计算机硬件(例如16位或32位)中数字的表示方式,而完全专注于“数字”。在其他情况下,这些实现(或较低级别的)细节是关键的,我们密切关注每一个“位”。

向下改变我们的抽象级别(例如,从“格式”到“比特流”)是一种公认的避免讨论困难的、有争议的或有问题的概念的方法,同样地,向上改变抽象级别通常有助于引入启发性的概念或组织原则,这些概念不仅在较低的级别上不明显,而且根本不适用。概念的有限适用性(它们与抽象层次相关联,在某种意义上定义了它)通常更容易让我们注意到一个方向而不是另一个方向。

例如,当谈到“颜色深度”时,我们谈论的是在给定的“格式”(编码方案)中颜色的精细程度。在单个位或位流级别上有意义地讨论颜色深度是不可能的。颜色深度是一个“更高”级别的概念,它不可能在比特级别上表达,它需要抽象到编码方案存在的级别。这并不妨碍我们进行更高层次的对话关于当然是位,这就是通常讨论颜色深度的方式,也就是说,一个给定的编码方案有多少位专门用来表示一个特定像素的颜色。当然,“颜色”又是一个更高层次的概念。没有红色比特,也没有绿色比特流。谈论“颜色”不属于那里。如果我们要避免犯“分类错误”,就必须清楚在每个描述级别上应用哪些概念。b很难想象,如果我们仅仅局限于讨论比特流,我们将如何继续使用我们经常需要的一组概念,如“颜色深度”。

第二组困难来自于将格式理解为可识别的计算机文件编码方式所产生的令人不安的巨大问题空间。例如,一个比特长度的文件l,其中每个比特可以取1V值可能被编码在六世的方式。因此,一个8位长的二进制文件,能够以256种可区分的方式表示,因此可以产生256种不同的格式。64位文件可以支持18,446,744,073,709,600,000种不同的表示。即使我们排除了只有格式而没有“有效载荷”的文件的概念,问题空间也不会显著减少。我刚才描述的系统所能支持的最小“有效负载”是单个“有效负载”位,文件的其余部分将用于对格式进行编码。因此,一个8位长(1位的“有效负载”)的二进制文件可以用128种可区分的方式表示,因此可以产生128种不同的格式,并且每种可能的格式都有恰好两种不同的“有效负载”可在该方案中表示。我们的64位文件(具有1位“有效负载”)同样可以支持9,223,372,036,854,780,000种不同的表示/格式,其中任何一种都可以表示两种有效负载中的一种。可以这么说,涉及的数字是非常大的,事实上是如此之大,如果我们坚持试图与整个理论问题空间搏斗,单纯地用比特流表示,我们不太可能取得很大进展。

比特流的其他一些限制也很明显。具有完全相似位图序列(语法)的文件不需要具有相同的格式(语义)。格式就是编码,不同的供应商可以对相同的模式施加不同的“含义”。语法和语义不一样。抽象地说,要区分一个给定的带有2位“有效载荷”的6位模式和一个带有1位“有效载荷”的7位模式(碰巧共享相同的初始6位)是根本不可能的。我们如何解释(编码)这8位是一个选择的问题,它容易随着时间、地点和环境的变化而变化。

很明显,例如,如果我们的目标是对文件的可能格式(任何合理长度)有一个全面的映射,基于位流的工作是不会成功的。放弃对格式的讨论,转而使用比特流语言,尽管比特流语言在智力和数学上都很有吸引力,但这并不能解决我们所面临的问题,也不能解决我们应该努力解决的问题。因此,我不愿意走比特流路线。

我们需要解决的一些问题包括:

  • 格式的分类;
  • 建模格式;而且
  • 识别当前格式未知的文件的格式。

我们完全有理由相信,可以在解决这些问题方面取得实质性进展。

在生物科学(这是一个比计算机文件格式更复杂和多方面的领域)中,大致类似的问题:

  • 生命形式的分类;
  • 建模的生命形式;而且
  • 识别目前身份未知的生命形式的属和种(及其他特征)。

这些问题已经基本上得到了解决,目前在生物多样性信息学学界存在一种运动,即以生命科学标识符(LSID)的形式为所有生物名称提供全球唯一标识符。三个大型命名自然数据库已经开始了这一进程:真菌索引、国际植物名称索引(IPNI)和动物银行。其他发布分类学数据而不是命名数据的数据库也开始使用lsid来识别分类。

在生物科学中,解决方案并不包括放弃对属或种的讨论,转而采用DNA序列(例如),而是建立在广泛的林奈分类学方法之上。这是一种可能用于我们更温和、更容易处理的领域的方法。

确定了文件的哪些属性是感兴趣的(当然会有很多,而且列表会随着时间的推移而变化)之后,我们可以开始将这些属性分组到不同的类别中。这与生物学中常见的生命、域、界、门、纲、目、科、属、种分类学大致相似。生物学的方法完全经得起对个别生命形式的正确分类的激烈科学争论。例如,随着科学认识和技术的变化或发展,一种昆虫随着时间的推移被划分成不同的类别,这种情况绝不少见。我们没有必要在第一时间就把分类计划订对,或把分类计划永远冻结,以使分类计划得到广泛接受,并为社会带来重大利益。

拒绝谈论格式,转而谈论比特流,我们不仅不能改善问题,而且实际上可能使我们需要解决的格式问题变得难以解决。只要我们想要在对整个问题空间的讨论中使用多级抽象,我们就必须小心部署哪些概念,否则我们很可能会犯类别错误。

回到顶部

作者

大卫·安德森cdpa@btinternet.com)是英国朴茨茅斯大学创意科技学院CiTECH研究中心主任

回到顶部

脚注

一个。http://www.digitalmeetsculture.net/article/international-conference-on-digital-preservation-ipres-2015/

b。http://en.wikipedia.org/wiki/Category_mistake


版权归作者所有。

数字图书馆是由计算机协会出版的。版权所有©2015 ACM, Inc.

Baidu
map