acm-header
登录

ACM通信

历史的反思

数字黑暗时代


数码黑暗时代,插图照片

信贷:丹Samoila

可获取的数字化原始资料的增长,以及在线研究工具数量和质量的提高,从根本上改变了历史学家的工作方式。虽然第一手资料的基本重要性仍然不变,但更多的情况是,这些资料本身是数字化诞生的,数字化消费的,(希望)数字化保存的。但是,在下一个世纪或下一个千年,我们又能保证什么呢?历史学家们将能够查阅到用机器制作的资料,以及早已不复存在的软件包。这是谷歌副总裁兼首席互联网布道者(ACM前任总裁)Vint Cerf在最近的一些公开演讲、采访和他的演讲中提出的问题通信“Cerf's Up”专栏。他的结论是,我们正站在悬崖的边缘,除非我们采取适当的措施,否则等待我们的是数字黑暗时代。瑟夫的言论在美国的影响难以估计,但在欧洲,他的言论被广泛接受,或多或少不加批判地接受了广播和印刷媒体。在数字保存领域工作的专业人士中,人们的反应就不那么接受了。我接触过的许多人都流露出一触而发的怨恨,因为在欧洲(以及更广泛的领域)开展的大量开创性和基础性工作,在瑟夫的声明引发的舆论风暴中被忽视了。

这完全可以理解,但我认为这几乎肯定是错误的回应。在过去十年的大部分时间里,我一直在积极地从事数字保存方面的工作,从一个被称为“数字人文”的背景中进入这个领域,在这个背景中,我继续对计算的历史特别感兴趣。在那段时间的大部分时间里,要说服学术界的同事们相信数字保存不仅是一件需要认真对待的事情,而且是一个过去和现在都有有趣的、在智力上令人满意的挑战需要解决的领域,一直是一场艰难的斗争。学术界同仁的情况是如此,商业领袖、政治家和其他影响舆论的人的情况更是如此。其他的数字保护主义者往往会挠头,眼睛瞪得死死的,问他们要怎么做才能把保护列入政治和商业议程。我参加过一些会议,与会者们讨论,要认真对待文化遗产保护,最好的方法是采用某种末世故事,讲述由于不重视保护而导致大量文化遗产流失的危险,还是通过更积极的方式鼓励更好的数字监护。这两者可能都需要一点,但令人不安的事实是,传递信息的人往往比信息本身更重要,无论这种方法是为了吓唬全世界,让全世界认真对待文物保护,还是提供不那么引人注目的鼓励,传递信息的人都需要能够穿透噪音,让别人听到。文特·瑟夫,作为互联网的缔造者之一,也是美国政治科学舞台上的关键人物,极有资格让数字保存比迄今为止更加突出,因此应该受到衷心欢迎,尽管他并不总是能完全抓住数字保存的时代精神。媒体对瑟夫关于即将到来的数字黑暗时代的言论的兴趣只能帮助提高计算机科学家和工程师的意识,并鼓励他们参与到突出的技术挑战中。他的干预甚至可能有助于说服投资者将他们的美元和欧元投入到急需的数字保存研究中。


保护数字遗产的情况远非惨淡,确实有很多值得高兴的理由。


在叙利亚内战中,几乎每天都有关于历史建筑、考古和文化遗址遭到破坏的新闻,这使得谈论数字黑暗时代似乎特别能引起共鸣。最近ISIS处决了巴尔米拉杰出文化文物的长期保管人、80多岁的哈立德·阿萨德(Khaled al-Asaad),理由是他犯下了“罪行”,包括代表叙利亚参加“异教徒会议”,以及担任巴尔米拉的“偶像崇拜主管”。这应该提醒我们,在世界的某些地方,保护文化遗产需要付出非常高昂的代价。然而,无论中东地区有什么令人失望的理由,也多少与瑟夫所描绘的图景不符,我们的数字遗产保护形势远非黯淡,事实上,有很多理由值得高兴。近年来,全球数字保存界非常活跃,并取得了切实而实质性的进展。除了呼吁新技术和技术,并推动卡内基梅隆大学的“橄榄”项目(https://olivearchive.org),它通过使用运行应用程序状态捕获文件的虚拟机来实现保存,Cerf已经提请注意保存的人类、社会和组织维度的重要性。例如,他呼吁重新审视版权规则,在保护活动中允许“合理使用”条款,这将是一个真正的进步。

尽管瑟夫的言论给人留下了深刻的印象,但Olive并不是数字保存领域的唯一成果。在欧洲,数字保护联盟执行主任威廉·基尔布莱德(William Kilbride)响应瑟夫的号召,呼吁保护界突出他们参与的保护活动或项目,以便更全面地了解近年来的保护状况。许多这样的贡献都被聚集在一个推特上,带有令人愉快的乐观标签(https://twitter.com/hashtag/nodigitaldarkage).

在本专栏的剩余部分,本着“不数字化黑暗”运动的精神,我想提请大家注意我自己的团队成员领导的一些项目和其他活动,或者他们在其中发挥了重要作用。这些包括创新工具和技术的开发,专门的推广和传播,以及以数字形式保存和再利用文化重要材料的组织方面。

Vint Cerf的评论几乎没有提供像Olive这样的项目的知识根源的背景。数字保存的早期工作主要集中在迁移作为一种保存方法上。从本质上讲,这依赖于复制或转换原本打算在一种技术平台上运行的数字对象到另一种技术平台上运行。迁移不可避免地涉及到改变原始数字对象的一些特征,因此必须非常注意确保对指定的利益相关者社区来说最重要的属性被完整地保存下来。当涉及的数字对象本身就很复杂时,迁移方法的主要实际限制就暴露出来了。例如,将一款现代电脑游戏从一个平台迁移到另一个平台,所涉及的专业技术水平在文化遗产组织中是不存在的,还涉及知识产权问题,从实际意义上讲,这是不可克服的。随着数字对象变得越来越复杂的趋势,人们的兴趣已经转向开发像Olive一样依赖于模拟的保存方法。KEEP(保持模拟环境可移植)项目(http://www.keep-project.eu),是第一个公共资助的项目,以开发模拟服务,使静态和动态数字对象(文本、声音和图像文件)的精确渲染;多媒体文档、网站、数据库、视频游戏等等。项目的总体目标是通过开发灵活的工具来访问和存储各种数字对象,促进文化遗产的普遍访问。KEEP还考虑了关于基于仿真系统的实施的法律问题,并提出了符合欧洲和国家版权法的解决方案。


数字保存的早期工作主要集中在迁移作为一种保存方法上。


当然,数字对象与它们被创造和使用的技术环境密切相关。因此,为了确保数字材料的长期保存和访问,仔细记录保存语料库中每个数字对象的硬件和软件依赖关系是至关重要的。所需的典型信息包括被保存对象最初需要的计算机硬件、操作系统、插件、软件库等细节,以及在后续保存操作(如迁移或模拟)期间使用的硬件和软件环境的信息。组装和维护后续模拟所需的基本技术环境元数据也非常复杂。这本身就是一项非常耗时、详细和复杂的任务。为了解决这个挑战,我的同事Janet Delve领导了TOTEM(值得信赖的在线技术环境元数据)技术注册(http://amzn.to/1JuKR3c).TOTEM通用数据模型、数据库实现和元数据模式与在planet项目中创建的兼容OWL本体相结合。

尽管参与了公共宣传,Cerf并没有提到像开放保存基金会或数字保存联盟这样的组织在这一领域所做的巨大努力。他也没有提到任何在这个领域发挥作用的项目。文物保护专题研讨会(POCOS)项目(http://bit.ly/1LmMaPa这个组织的成立不是为了开发新工具或新技术,而是为了给研究复杂文物保存的全球思想领袖们一个机会,通过在英国各地举行的一系列研讨会,分享并扩展这一主题的知识体系。这些研讨会面临的基本任务是,以一种清晰、令人信服的、相关和平易近人的方式,以吸引英国高端仪器研究人员和各种学科的从业者,以及深入到那些更远的领域,例如,商业,工业,电影,政府,游戏和电影分级委员会。

研讨会围绕三个主题安排:可视化和模拟;软件艺术;还有电子游戏和虚拟世界。这些领域中的每一个都涉及到复杂数字物体的开发、使用和操作,每个领域都呈现出一组不同的、尽管明显相关的保存挑战。建立了一个实质性和创新性的传播计划,以确保各利益相关群体获得最大的长期价值。这包括出版一本同行评议的书(http://bit.ly/1NxL3i8),展示主要的产出。

已经做出了相当大的努力来解决对数字保存的综合方法的需求,包括组织和工具。在组织方面,档案为数字生态系统提供了一个不可或缺的组成部分,保护信息并使其能够访问。需要协调目前分散的档案方法,以提供普遍采用端到端解决方案所需的规模经济。对于处理业务和操作问题的总体方法,以及用于摄取、保存和重用的技术解决方案,有着至关重要的需求。


几年前还几乎难以解决的许多问题现在都得到了控制。


为了解决这个问题,E-ARK项目(http://www.eark-project.com/),与商业系统供应商合作,建立并试行一套电子文件存档的泛欧洲方法。重点不是“蓝天”研究,而是综合已有的工具和技术,这些工具和技术是在过去十年左右的商业和公共资助研究项目的背景下发展起来的。同时,各国和国际上的最佳实践也在汇集和整合,以保持记录和数据库在一段时间内的真实性和可用性,目的是提供一种单一的、可伸缩的、健壮的方法,能够满足各种组织(公共和私人、大大和小的组织)的需求,并能够支持复杂的数据类型。因此,E-ARK将为公共管理、公共机构、公共服务、公民和企业提供简单、高效的工作流程,为获取、保存和重用信息提供便利。

该方法将利用现有的接近市场的工具和合作伙伴开发的服务,在各个国家范围内实施。这将使记忆机构及其客户(公共和私营部门)能够从业务的角度评估这些最先进技术的适用性。

在项目中发展的做法将减少由于不合适的记录保存和归档方法而造成信息丢失的风险。该项目将面向公众,提供全面可操作的档案服务,并为用户提供信息访问。该项目成果将具有普遍性和可扩展性,以便在整个欧盟以及适用不同法律系统和记录管理传统的环境中建立档案基础设施。E-ARK将为商业用户提供新的接入方式。

E-ARK将试验一种端到端oais兼容的电子档案服务,涵盖吸收、供应商中立的存档以及结构化和非结构化数据的重用,从而涵盖数据库和记录,满足数据主体、所有者和用户的需求。试验和方法还将集中在数据输出和源系统标准化的基本前置阶段。该试点将整合合作伙伴组织目前正在使用的工具,并为这些工具和类似工具的提供者提供一个框架,以确保兼容性和互操作性。该项目的一个核心组成部分是整合平台,它使用现有的ES-SArch保存平台(EPP)应用程序作为档案信息系统,该系统已经在挪威和瑞典国家档案馆进行了生产性部署。为了实现可扩展性,E-ARK将在Apache Hadoop的成熟开源Cloudera CDH4分发之上为该工具采用数据管理和存储层,使存储和计算能力无缝地添加到系统中。

总而言之,我们有充分的理由相信,在未来的几年里,数字保存将继续取得重大进展。几年前还几乎难以解决的许多问题现在都得到了控制。技术变革的步伐丝毫未减,这也带来了新的保存挑战,但尽管传言与此相反,数字黑暗时代似乎还需要再等一段时间。

我把这个专栏献给Khaled al-Asaad。

回到顶部

作者

大卫·安德森cdpa@btinternet.com)是英国朴茨茅斯大学创意科技学院CiTECH研究中心主任


版权归作者所有。

数字图书馆是由计算机协会出版的。版权所有©2015 ACM股份有限公司


没有发现记录

Baidu
map