ACM

ACM通信

首页 / 杂志存档 / 2008年4月(第51卷第4期) / 电子数据的来源 /全文

ACM通信

电子数据的来源

由吕克·莫罗,保罗,西蒙英里,哈维尔Vazquez-Salceda,约翰•Ibbotson盛江,史蒂夫•门罗俄梅珥Rana,安德烈亚斯施赖伯,维克多,Laszlo巴尔加
ACM通讯，2008年4月，第51卷第4期，52-58页
10.1145/1330311.1330323
评论

认为: 打印手机应用程序 ACM数字图书馆全文(PDF) 数码版分享: 通过电子邮件发送在reddit分享在StumbleUpon分享分享到黑客新闻在推特上分享在Facebook上分享

出处在美术研究中是很好理解的，它指的是一些艺术对象的记录历史。鉴于有文献记载的历史，文物获得了权威，使学者们能够理解和欣赏它的重要性和相对于其他作品的背景。缺乏历史证明的艺术品可能会被研究它们的人以怀疑的眼光看待。

如果能够确定计算机系统产生的数据的来源，那么用户就能够了解文件是如何收集的，模拟结果是如何确定的，以及财务分析是如何进行的。因此，计算机应用程序应该进行改造，使其具有来源意识，这样就可以检索、分析和推理数据的来源。

电子数据通常不包含有助于最终用户、审查人员或监管机构进行必要验证的历史信息。

的牛津英语词典将来源定义为:“(i)来自某个特定来源或地区的事实;起源,推导;(ii)艺术品、手稿、珍本等的历史或谱系;具体地说，是一件物品在不同所有者之间的最终衍生和传递的记录。”因此，我们可以把出处看作是一件物品从一个特定的来源到一个特定状态的推导。对这种派生的描述可以根据用户的个人兴趣采取不同的形式或强调不同的属性。例如，一件艺术品，其来源通常表明其所有权链;或者，通过研究一幅画经历的各种修复，可以更好地理解它的实际状态。

字典定义还标识了查看来源的两种不同方式:对象的来源(或派生)和派生的记录。对于想要分析、推理并决定是否信任电子数据的用户来说，基于计算机的来源表示是至关重要的。

在此，我们介绍了种源生命周期，总结了支撑现有种源系统的关键原则。然后，我们研究了一个描述应用程序如何执行的开放数据模型;在此上下文中，出处被视为对此类描述的用户查询。我们通过医疗保健管理中的一个具体示例来说明源感知应用程序的前景，并将其与现有系统进行对比。

科学界及商界[6两者都采用了面向服务的体系结构(SOA)，该体系结构允许动态发现和组合服务。基于soa的应用程序越来越动态和开放，但必须满足电子科学和业务的新需求。在理想的世界中，电子科学的最终用户将能够通过重复之前的计算来重现他们的结果，理解为什么使用相同的输入进行两次看似相同的运行会产生不同的结果，并确定在它们的推导过程中涉及哪些数据集、算法或服务。

在电子科学和商业中，一些用户、审稿人、审计员，甚至监管人员必须验证导致某些结果的过程是否符合特定的法规或方法;此外，它们必须证明这些结果是独立于具有特定许可证限制的服务或数据库产生的;他们还必须确定数据是由具有某些精确技术特性的仪器在源头捕获的。

虽然一些用户今天必须执行这样的任务，但他们不能这样做，或者做得不完美，因为基础原则还没有被研究，系统也没有被设计来支持这样的需求。一个关键的观察结果是，电子数据通常不包含有助于最终用户、审查人员或监管机构进行必要验证的历史信息。因此，需要捕获描述执行时实际发生的事情的额外信息或流程文档。流程文档之于电子数据，就像所有权记录之于艺术品一样。支持来源的应用程序创建过程文档并将其存储在来源存储中，提供过程文档的长期持久、安全存储(参见图1)．这个角色可以适应各种物理部署;例如，一个来源商店可以是一个独立的服务，或者(为了更好地扩展)分布式商店的联合。

当记录过程文档时，可以通过查询来源存储来检索数据结果的来源，并分析数据结果以满足用户的需求。来源商店及其内容可能也需要管理、维护或管理。

回到顶部

过程文档的开放模型

许多应用程序的流程文档不能在一次原子爆发中生成，而必须与执行连续交错。这使得设计师必须能够区分一个特定项目的文档记录是一个过程的一部分，还是整个文档记录过程。我们将前一个p-断言视为流程中涉及的单个应用程序服务做出的断言。因此，流程的文档由流程中涉及的服务作出的一组p-断言组成。

为了将其对应用程序性能的影响降到最低，必须对文档进行结构化处理，使其能够由服务在零敲碎打的基础上自主地构造和记录。否则，如果需要在这些服务之间进行同步，以确定文档执行的方式和位置，应用程序性能可能会受到极大的影响。为了满足这个设计需求，我们已经确定了各种p-断言，我们希望应用程序采用这些断言，以便记录它们的执行。图2概述了发送和接收消息并创建p-断言的计算服务，这些断言描述了该服务在此类活动中的参与情况。

在soa中，交互由服务之间交换的消息组成。通过捕获所有交互，可以分析执行并验证其有效性，或将其与其他执行进行比较。因此，流程文档包括交互p断言，或发送或接收消息的服务对消息内容的描述。

无论服务直接返回结果还是调用其他服务，其输出和输入之间的关系通常不会在消息本身中显式表示，而是通过分析服务的业务逻辑来理解。为了促进开放性和通用性，我们对服务实现其业务逻辑所使用的技术(如源代码和工作流语言)不作任何假设。相反，我们要求服务以关系p-断言的形式提供信息，或服务断言的描述，说明它如何通过对来自其他交互的输入数据应用某些函数或算法来获得交互中发送的输出数据。(在图2，对输入M1应用函数f1，得到输出消息M3。)

使用这两种p-断言，交互和关系处理文档作为一个整体大于其各个部分的总和。实际上，虽然p-断言是由服务自主生成的简单文档片段，但交互和关系p-断言一起捕获流程中数据流的显式描述。交互p-断言表示服务之间的数据流，而关系p-断言表示服务内的数据流。这些流捕获执行中的因果性和功能性数据依赖关系，在大多数情况下，构成一个有向无环图(DAG)(参见图3)．对于特定的数据项，数据流DAG表示它是如何产生和使用的，因此是来源表示的核心元素，尽管不是唯一的元素。

流程文档之于电子数据，就像所有权记录之于艺术品一样。

除了流程中的数据流之外，可能还需要内部服务状态来理解执行的非功能特征(例如服务的性能或准确性)以及它们计算的结果的性质。因此，服务状态p-断言是服务在特定交互上下文中提供的关于其内部状态的文档。服务-状态p断言是多种多样的;它们可能包括服务在计算中使用的磁盘和CPU时间量、操作发生时的本地时间、它产生的结果的浮点精度或应用程序特定的状态描述。

为了使源感知应用程序能够互操作，它们各自生成的流程文档必须根据共享的数据模型进行结构化，这一点至关重要。因此，我们方法的新颖之处在于所提出的文档模型的开放性[7被认为是独立于应用技术的[8］．这些特征一起允许应用程序服务自主地生成流程文档，并以一种可以表示来源查询的开放格式表示。

回到顶部

查询电子数据来源

来源查询是针对流程文档的用户定制查询，目的是获取电子数据的来源。在此上下文中，必须首先描述用户感兴趣的数据项。事实上，由于数据确实是可变的，它的来源或历史可以根据用户希望从哪里找到它的执行点而变化。来源查询必须能够识别与给定记录事件(例如发送或接收消息)相关的数据项。

最终导致数据项变成现在这个样子的所有细节可能相当大;例如，实验结果的完整来源几乎总是包括对实验中产生材料的过程的描述，以及用于产生这些材料的任何材料的来源，以及在实验中使用的设备和软件(及其设置)。如果有了文件，完整的起源最终将包括追溯到时间开始的过程的细节，或至少到起源意识的时代。

用户必须能够通过来源查询表达他们在流程中的兴趣范围，本质上是对数据流DAG执行反向图遍历，并根据查询指定的范围终止;查询输出是一个DAG子集。范围可以基于关系、中介结果、服务或子流程的类型[7］．

回到顶部

在医疗保健管理中

为了说明我们的方法，我们探索一个医疗保健管理应用程序。器官移植管理(OTM)系统由西班牙加泰罗尼亚的加泰罗尼亚移植组织开发，管理多家加泰罗尼亚医院及其监管机构(西班牙加泰罗尼亚政府)与器官移植相关的所有活动[1］．OTM包括一个涉及手术本身的复杂过程，以及数据收集和患者器官分析等活动，这些活动必须遵守一套监管规则。OTM由维护记录的IT基础结构支持，这些记录允许医务人员在给定的机构或实验室中查看(和编辑)给定患者的本地文件。然而，该系统还不能连接记录或捕获它们之间的依赖关系，也不能允许外部审计员或患者家属分析或理解决策是如何做出的。

通过使OTM具有来源感知功能，现在可以支持没有来源感知功能就不可能实现的强大查询(例如查找与决策有关的所有医生、查找与捐赠决策有关的所有血检结果以及查找导致决策的所有数据)。这种功能不仅可以提供给医疗专业人员，也可以提供给监管机构和家庭。

在这里，我们把自己限制在OTM工作流程的一个简化子集，这个过程导致是否捐献器官的决定。当住院病人的健康状况恶化，并预计可能需要器官捐献时，主治医生会要求病人提供完整的健康记录，并发送一份血液样本进行分析。通过上下文敏感的菜单驱动用户界面(UI)，主治医生提交请求，然后将请求传递给负责收集所有预期结果的软件组件(捐赠者数据收集器)。如果观察到脑死亡并登录到系统中，如果所有请求的数据和分析结果都得到了，系统就会要求医生决定是否捐献器官。医生根据收集到的数据作出的决定或医疗判断的结果，在医生提交的报告中解释为作出决定的理由。

图3(上)概述此场景中涉及的组件及其交互。UI向捐赠者数据收集服务发送请求(I1, I2, I3)，后者从患者记录数据库(I4, I5)获取数据，以及来自实验室的分析结果(I6, I7)，最后请求做出决定(I8, I9)。

为了使OTM能够感知来源，设计人员增加了OTM生成所发生过程的显式表示的能力，包括所有交互的p-断言(I1I9)、捕获数据项之间依赖关系的p-断言和状态p-断言。图3(下)概述了表示捐赠决策的来源的DAG，它由来源感知OTM产生的关系p断言组成。DAG节点表示数据项，而DAG边(蓝色)表示关系(如数据依赖关系，如“基于”和“由”，以及因果关系，如“响应”和“由”)。每个数据项都由其发生的交互进行注释。此外，UI对登录到系统的用户的每个交互都断言一个服务状态p断言。

然后，授权用户可以发出出处查询，导航出处图，根据查询者的需要对其进行修剪;例如，从图表中，我们可以得出用户X和Y都导致了捐赠决定的达成。图3只包含有限数量的组件，但在现实生活中涉及大量文档的例子中，用户医生、患者或监管机构受益于强大而准确的源查询功能。

回到顶部

现有的系统

我们在这里探讨的方法来源于广泛的需求分析[8，从而形成了一个完整的建筑规范[7]用作编写数据模型和接口开放规范的基础。开放方法允许复杂的分布式应用程序的文档，可能涉及多种技术(例如Web服务、命令行可执行文件和单片可执行文件)。它还允许表达复杂的来源查询，以独立于所使用的技术来识别数据和确定范围的过程。

虚拟数据系统[4和myGrid [10是科学工作流程的执行环境，为来源提供支持。他们专注于使用与p-断言兼容的数据模型从工作流制定者的角度生成文档。他们采用各自的工作流语言，从而获得紧凑的流程文档。通过采用流程文档的开放数据模型(就像我们在这里提倡的那样)，这样的系统可以集成到无缝执行源查询的异构应用程序中。

数据库界也对来源进行了调查[2，5但采用了不同的假设;例如，它假定存在一种查询语言，可以对该语言的查询进行反转，以确定结果的来源。在我们的方法中，不同种类的来源(例如为什么和哪里[2)被认为是有价值的特定实例的来源查询。

哈佛大学开发的来源感知存储系统[9]的目的是通过捕获操作系统中的文件系统事件来自动生成执行的文档。与所有其他方法一样，捕获小粒度文档涉及可伸缩性和性能挑战，因此在适当的抽象级别上为用户获取信息通常是困难的。

回到顶部

结论

IT领域曾经只涉及封闭的单片应用程序，现在则涉及到能够动态发现结果和服务的开放和动态组合的应用程序。用户必须知道他们是否对应用程序的电子数据有信心;因此，它必须伴随着它的起源，描述导致其生产的过程。

为了实现这一愿景，我们提出了一种开放的方法，通过这种方法，应用程序(无论使用何种技术)在一个开放的数据模型中记录它们的执行，然后可以使用该模型来运行针对用户需求的来源查询。就像学者可以通过研究记录在案的历史来欣赏艺术作品一样，用户也可以通过来源查询来获得对电子数据的信心。

回到顶部

参考文献

1.Alvarez, S.， Vazquez-Salceda, J.， Kifor, J.， Varga, L.和Willmott, S.在分布式器官移植管理中应用来源。在计算机科学课堂笔记的国际起源和注释研讨会Vol. 4145的会议记录(芝加哥,可能35)。施普林格，海德堡，2006,2836。

2.P. Buneman, S. Khanna，和Tan, w.c。原因和地点:对数据来源的描述。在第八届数据库理论国际会议论文集计算机科学课堂讲稿1973卷(伦敦1月46)。施普林格，海德堡，2001,316330。

3.Burbeck, S。电子商务服务之道。技术报告。IBM软件集团，2000年10月;www.ibm.com/developerworks/webservices/library/ws-tao/。

4.克利福德，B，福斯特，I，沃克勒，j - s。，Wilde, M., and Zhao, Y. Tracking provenance in a virtual data grid.并发与计算:实践与经验（2007);dx.doi.org/10.1002/cpe.1256。

5.Cui, Y.， Widom, H.和Wiener, J.在仓库环境中跟踪视图数据的沿袭。美国计算机学会数据库系统学报2(2000年6月)179227。

6.Foster, I.， Kesselman, C.， Nick, J.，和Tuecke, S.网格计算:使全球基础设施成为现实。在网格生理学:分布式系统集成的开放网格服务体系结构。通信网络和分布式系统的威利系列。约翰·威利父子公司，英国奇切斯特，2003,217249。

7.格罗斯，P，江，S，迈尔斯，S，门罗，S，谭，V，察佐，S和莫罗，L。D3.1.1:起源系统的架构。技术报告．南安普顿大学，英国南安普顿，2006年2月;eprints.ecs.soton.ac.uk / 12023 /。

8.Miles, S.， Groth, P.， Branco, M.和Moreau, L.在电子科学实验中记录和使用来源的要求。《网格计算学报》1(2007年3月)，125。

9.萨尔茨，M.， Holland, D. Braun, U.和Muniswamy-Reddy, k . k。通过来源挑战。并发与计算:实践与经验(2007);dx.doi.org/10.1002/cpe.1233．

10.Zhao, J.， Goble, C.， Stevens, R.和Turi, D.挖掘Taverna的语义起源网。并发与计算:实践与经验(2007);dx.doi.org/10.1002/cpe.1231。

回到顶部

作者

吕克·莫罗(L.Moreau@ecs.soton.ac.uk)是英国南安普顿大学电子与计算机科学学院的计算机科学教授

保罗Groth(pgroth@isi.edu)是南加州大学信息科学研究所的博士后研究员。

西蒙英里(simon.miles@kcl.ac.uk)是英国伦敦国王学院计算机科学系的讲师

哈维尔Vazquez-Salceda(jvazquez@lsi.upc.edu)是西班牙巴塞罗那加泰罗尼亚理工大学计算机科学系的博士后研究员。

约翰Ibbotson(john_ibbotson@uk.ibm.com)是IBM英国公司的高级软件工程师位于英国温彻斯特的赫斯利发展实验室

盛江(sj@ecs.soton.ac.uk)是英国南安普顿大学电子与计算机科学学院博士后。

史蒂夫·门罗(sj.munroe@uk.ibm.com)是IBM英国有限公司的IT顾问/技术团队领导，全球商业服务，温彻斯特，英国

俄梅珥Rana(o.f.rana@cs.cardiff.ac.uk)是卡迪夫大学计算机科学的读者和威尔士科学中心的副主任，卡迪夫，威尔士，威尔士

安德烈亚斯•施赖伯(Andreas.Schreiber@dlr.de)是德国科隆航空航天中心分布式系统和组件软件部门的研究科学家和负责人。

维克多谭(vhkt@ecs.soton.ac.uk)，英国南安普顿大学电子与计算机科学学院博士后

Laszlo Zsolt巴尔加(laszlo.varga@sztaki.hu)是匈牙利布达佩斯匈牙利科学院的高级科学助理和系统开发部的负责人。

回到顶部

脚注

DOI: http://doi.acm.org/10.1145/1330311.1330323

回到顶部

数据

图1。出处生命周期。

图2。由计算服务做出的p断言的类别。

图3。捐赠决定的来源定向无环图。

回到顶部

允许制作本作品的全部或部分的数字或硬拷贝用于个人或课堂使用，但前提是该拷贝不是为了盈利或商业利益而制作或分发，并且该拷贝在第一页上带有本通知和完整引用。以其他方式复制、重新发布、在服务器上发布或重新分发到列表，需要事先获得特定的许可和/或付费。

没有发现记录

电子数据的来源

过程文档的开放模型

查询电子数据来源

在医疗保健管理中

现有的系统

结论

参考文献

作者

脚注

数据

文章内容:

神经技术与法律

论计算模型:要点:我们必须把计算模型扩展到考虑成本和地点

试论人工智能写作的伦理问题