acm-headergydF4y2Ba
登录gydF4y2Ba

ACM通信gydF4y2Ba

首页gydF4y2Ba /gydF4y2Ba 的意见gydF4y2Ba /gydF4y2Ba 文章gydF4y2Ba /gydF4y2Ba 使用数据和尊重用户gydF4y2Ba /gydF4y2Ba全文gydF4y2Ba
经济和商业层面gydF4y2Ba

使用数据和尊重用户gydF4y2Ba


数据中心的眼睛,插图gydF4y2Ba

信贷:PerlaStudiogydF4y2Ba

交易数据就像一种友谊:双方都必须尊重这种关系,如果一方利用它,关系就会恶化。随着数据变得越来越有价值,公司必须小心不要利用他们的用户,否则他们会破坏他们的关系。数据的伦理性使用涵盖了一个范围:一方面,在医疗保健领域使用患者数据来治疗患者几乎没有什么值得担心的。另一方面,将数据出售给利用用户的第三方是严重的问题。gydF4y2Ba2gydF4y2Ba在这两个极端之间存在着一个巨大的灰色地带,企业需要更好的方法来构建数据风险和回报,以便做出更好的法律和道德选择。本专栏提供了一个简单的框架和三种改进数据使用的方法。gydF4y2Ba

回到顶部gydF4y2Ba

保护信托gydF4y2Ba

信任是一种商业资产。如果你用它来借钱,你很快就会透支。赢得消费者的信任需要你考虑:gydF4y2Ba

  • 如何保护用户的数据?gydF4y2Ba
  • 你如何确保你的产品是可靠的?gydF4y2Ba
  • 如何保护用户的合法权益?gydF4y2Ba
  • 如何确保数据的收集和使用符合道德规范?gydF4y2Ba

用户的合法权利包括隐私、保密、知识产权和服务条款中的合同细节。管理这些权利的法律是根据具体情况而定的,因地域而异,而且经常变化不定。然而,即使法律允许您以某种方式使用数据,您应该这样做吗?伦理上的滥用,也可能是合法的使用,往往对用户隐藏起来,难以监管。当三家媒体同时报道Facebook的道德失误时,剑桥分析(Cambridge Analytica)丑闻使Facebook市值蒸发了1000多亿美元。gydF4y2Ba一个gydF4y2Ba

回到顶部gydF4y2Ba

减少风险的框架gydF4y2Ba

降低数据风险的一个简单方法是站在客户的角度考虑问题。降低风险意味着问:gydF4y2Ba

  • 数据使用是否能满足客户的期望?gydF4y2Ba
  • 他们的数据能换来公平的价值吗?gydF4y2Ba
  • 他们会明白自己的数据是如何被使用的吗?gydF4y2Ba
  • 即使在他们的数据被出售之后,他们还有选择和控制权吗?gydF4y2Ba
  • 在公众舆论的法庭上,一家公司对客户数据的使用会有怎样的结果?这是否因国家或文化而异?gydF4y2Ba

从客户的角度出发,将数据使用案例放在回报与风险的热图上,可以提出伦理考虑,如gydF4y2Ba数字gydF4y2Ba在29页。gydF4y2Ba

uf1.jpggydF4y2Ba
数字用户价值vs.用户风险:西北方向的选择比东南方向的选择更安全。gydF4y2Ba

评估从gydF4y2Ba提供数据的客户的视角gydF4y2Ba-不是收集信息的企业,也不是其他用户,当然也不是第三方。随着视角从用户转移,伦理和法律风险也随之上升。gydF4y2Ba

随着数据使用从主要用途转向次要用途,风险也会上升。“主要”目的是客户最初提供数据的目的。“次要”目的是将数据用于其他用途。怀孕应用程序就是一个很好的例子。他们收集极其个人的数据,并利用这些数据提供高风险的见解。主要目的是为用户提供他们可能排卵的天数的预测。将他们的数据与同事的数据打包,卖给雇主或保险公司,以预测生育成本,这是第二种目的。gydF4y2BabgydF4y2Ba

数据越个人化,公司和消费者面临的风险就越大。在绿色的低风险象限,匿名数据可以为所有用户提供价值。一个音乐流媒体应用程序可能会分析客户文件的大小和传输速度,以提高每个人的性能。如果分析涉及客户认为机密的内容,或者一家公司担心数据泄露给竞争对手,风险就会增加。例如,竞争对手Spotify和Pandora可能与同一家云服务提供商签订合同,后者通过挖掘它们的内容来进行分析。如果Pandora从Spotify的数据中获得了洞见,那么问题就来了。为了保持信任和降低风险,数据分析必须让每个数据源对服务如何与令人信服的价值主张一起工作完全透明。gydF4y2Ba

在这个框架下,有三种方法可以提高回报风险比。gydF4y2Ba

回到顶部gydF4y2Ba

为价值设计,与用户共享gydF4y2Ba

为用户价值而设计表达了一个明显的原则:创造更多的收益而不是成本。用户是否愿意共享数据取决于你是提供还是获取价值。同一个人可能会很高兴地分享一个能带来工作机会的résumé,但如果résumé被用于心理分析和操纵选民,他会积极地保留résumé。共享数据的意愿取决于gydF4y2Ba如何gydF4y2Ba它被使用和gydF4y2Ba谁gydF4y2Ba得到了好处。“如何”应该是合乎道德的,“谁”应该强调分享者。设计进入这个计算,因为它影响这两个参数。一个来自杂货商的故事和一个来自广告商的故事说明了从第三方到数据源的思维模式的转变。gydF4y2Ba

食品杂货是一个低利润的行业,导致大多数杂货商将客户忠诚度数据出售给第三方,或用于价格歧视。这几乎不能创造客户价值,却能识别出对价格最敏感的买家。为了应对这一挑战,一位品牌忠诚度专家为新英格兰的一家杂货店提出了一个解决方案。新政策将使用忠诚度数据gydF4y2Ba保护gydF4y2Ba消费者。它将识别含有糖、味精、麸质和花生的产品,并代表糖尿病患者、腹腔患者和对花生过敏的人标记这些产品。这将减少标记产品的销量,并激怒某些分销商。但是,作为一个消费者,想象一下你对一个保护你不腹胀、恶心或腹泻的杂货商的忠诚。为了积极保护自己不受伤害,值得付出额外的代价吗?在保护用户策略下,消费者可以主动提供信息来接收此值。保护客户既能提高他们的参与意愿,也能提高他们的支付意愿。它将一个低利润的杂货商转变为忠实的销售。gydF4y2Ba

第二个故事与一家评级机构有关,该机构追踪电视广告观看量,帮助网络为广告定价。考虑到观众会跳过广告,该评级机构设计了广告跟踪和动作传感技术,以了解观众在每个瞬间看到了什么。然而,它对客户价值充耳不闻。即使付了钱,也很少有观众愿意在家里安装间谍系统,这样第三方就可以了解他们的私生活并出售广告。gydF4y2BacgydF4y2Ba重新设计着眼于互惠关系。首先,用户获得了控制权,可以关闭系统。其次,改作用途的运动传感器提供了免费的家庭安全和消防保护。这些功能与每月花费超过30美元的不太复杂的系统相比,显得更为优越。尽管尚未完全部署,但一个更复杂的版本可以追踪“高级时刻”,并帮助追踪钥匙、眼镜和手机可能丢失的位置。第三,仪表板可以让用户像任何电视网络一样看到他们的习惯,并对结果进行管理。以用户为中心的设计提供了透明度、选择、控制和公平的价值交换。讽刺的是,j·埃德加·胡佛利用联邦调查局的间谍系统开发秘密公民档案,骚扰政治活动人士,导致了20世纪50年代和60年代的公众抗议,gydF4y2Ba4gydF4y2Ba然而今天,亚马逊和谷歌已经卖出了超过9800万台家庭监听设备,交换的是体育、新闻、天气和用户个人日历等数据。gydF4y2BadgydF4y2Ba

回到顶部gydF4y2Ba

保存数据,丢弃细节gydF4y2Ba

第二种方法是平衡分析灵活性和隐私。这种方法的关键在于,从数据中交付价值不需要访问gydF4y2Ba生gydF4y2Ba数据。被掩盖的数据,不能被转换回原始形式或链接到其来源,仍然可以进行分析,甚至允许研究人员稍后提出意想不到的问题。隐藏的内容超出了隐藏的身份。gydF4y2Ba

其中一种算法通过平衡两种相互竞争的属性来工作。第一步转换和减少总可用数据;第二步聚合源。第一步表示有损压缩,其中不必要的熵被丢弃。哈希就是一个例子。在文本的情况下,这一步骤系统地使单个单词难以通过使用语言的形态特性来摆脱语言细节,同时保留词根结构。它也丢弃了足够多的信息,使得通过密码分析来颠覆算法变得困难。gydF4y2Ba

第二步跨个体或跨时间捆绑隐藏信息,以便提供足够大的语料库,以提供统计上有意义的模式分析。第一阶段更有进攻性,提供了更大的隐私。更积极的第二阶段为数据分析提供了更大的信心。要增加保护,请使用损耗更大的压缩。为了恢复统计力,聚合更多样本。gydF4y2BaegydF4y2Ba个人和个人信息变得更加难以阅读,但群体和模式变得更容易解决。gydF4y2Ba3.gydF4y2Ba

研究人员用这种方法分析了白领的电子邮件习惯、邮件内容和工作效率之间的关系;然而,没有研究人员能够阅读研究中涉及的任何电子邮件。例如,经理们想知道,“社交网络中心性是否能预测生产力?”-是的。“沟通多样性与生产力有关吗?”是的,不过是倒u形的。更多的内容多样性预示着收益将达到一个临界点,超过这个临界点就意味着缺乏重点。gydF4y2Ba1gydF4y2Ba使用这种技术,人们可以提出新的问题来理解信息扩散、网络多样性、响应性、内容重叠,甚至无需阅读文字内容的广告词定位。对被屏蔽的地理位置数据或数字的分析可以类似地进行。gydF4y2Ba

当然,数据屏蔽必须避免侵犯知识产权和保护用户的其他合法权利,但只保留被屏蔽的数据有三大好处。它提高了共享数据的意愿。它减少了用户修改其行为的记录偏差。最重要的是,它降低了用户的风险,即使是在公司遵守法律发现程序或遭受数据泄露的情况下。gydF4y2Ba

回到顶部gydF4y2Ba

保存算法,丢弃数据gydF4y2Ba

第三种方法使用各种机器学习算法——神经网络、回归、随机森林,gydF4y2BakgydF4y2Ba-意味着聚类,naïve贝叶斯,等等-建立一个世界模型;然后保存该模型,但丢弃数据。使用这种方法,不存在数据日后可能被破坏、泄露、去匿名化、出售或窃取,但仍有可能对新图像进行分类或预测新产品的受欢迎程度。另一种方法是安全多方计算(MPC),它将数据分割到多个独立方。每一方都可以在他们的分区上执行计算,但看不到结果是如何组合的。第三方合并结果,但无法看到数据。这限制了在相同计算期间对数据的访问,而丢弃数据则限制了在未来计算中的访问。gydF4y2BafgydF4y2Ba


保存模型而丢弃数据的一个优点是,在完整数据上进行训练可以非常准确地创建模型。gydF4y2Ba


保存模型而丢弃数据的一个优点是,在完整数据上进行训练可以非常准确地创建模型。AlphaGo机器学习算法击败了世界围棋专家。gydF4y2BaggydF4y2Ba在分析保密协议(nda)中存在的风险方面,另一种算法击败了人类律师。gydF4y2BahgydF4y2Ba第三种算法对中风和心脏病发作的预测比医生更准确。gydF4y2Ba我gydF4y2Ba另一种检测乳腺癌的准确率为99%。gydF4y2BajgydF4y2Ba精细调优的机器学习模型的缺点是,它们不能用于训练以外的目的。对于你没有问过的问题,你不会得到好的答案。如果没有原始数据,就没有再培训的选择。相比之下,像这里的第二点(保存数据,丢弃细节)那样保存屏蔽数据的好处是,人们可以提出最初忽略的新问题。然而,缺点是信息的丢失导致模型的准确性相对于原始数据的分析下降。gydF4y2Ba

只保留最终训练的算法自然会限制未来的应用程序只用于一个主要目的——用于训练模型的算法。为了不同的目的使用模型将需要访问原始数据进行再培训。这些数据的缺乏限制了二次使用,从而限制了法律和伦理风险。gydF4y2Ba

回到顶部gydF4y2Ba

结论gydF4y2Ba

这三种方法——为用户利益设计、保存隐藏数据和保存隐藏算法——每一种都提高了用户的回报风险比。以用户利益为目的的设计增加了对用户的价值,并将图形热图上的点向北推。保存屏蔽数据和屏蔽算法减少了用户分析、二次使用和第三方访问,将图中的点向西推。这三种方法一起提供了一系列从数据分析中交付价值的方法,同时保护用户并尊重他们的信任。从提供数据的用户的角度进行数据分析,不仅是很好的商业和法律建议,也是加强道德和用户关系的一种方式。gydF4y2Ba

回到顶部gydF4y2Ba

参考文献gydF4y2Ba

1.Aral, S.和Van Alstyne, M.多样性-带宽权衡。gydF4y2Ba美国社会学杂志gydF4y2Ba, 1(2011年1月),90-171。gydF4y2Ba

2.Cadwalladr C。我制作了史蒂夫·班农(Steve Bannon)的心理战工具“见见数据战揭发者”。gydF4y2Ba《卫报》gydF4y2Ba(2018年3月18日)。gydF4y2Ba

3.Reynolds, M. Van Alstyne, M.和Aral, S.哈希文本上度量函数的隐私保护。安全保证与私隐课程“,”(拉斯维加斯,内华达州,2009年4月15-16日),信息研究所出版,41-45。gydF4y2Ba

4.西奥多哈里斯,A.G.和考克斯,J.S.gydF4y2Ba《老大:j·埃德加·胡佛和美国宗教法庭》。gydF4y2Ba坦普尔大学出版社,费城,宾夕法尼亚州,1988年。gydF4y2Ba

回到顶部gydF4y2Ba

作者gydF4y2Ba

马歇尔·w·范·奥尔斯廷gydF4y2Ba(gydF4y2Bamva@bu.edugydF4y2Ba)是波士顿大学教授信息经济学的凯斯特罗姆讲座教授。他也是麻省理工学院数字经济计划的数字研究员,也是国际畅销书的合著者gydF4y2Ba平台的革命。gydF4y2Ba诺顿出版社,2016年。gydF4y2Ba

艾丽莎雷纳特gydF4y2Ba(gydF4y2BaAlisa.lenart@autodesk.comgydF4y2Ba)是美国加利福尼亚州旧金山Autodesk云平台高级企业法律顾问。gydF4y2Ba

回到顶部gydF4y2Ba

脚注gydF4y2Ba

一个。gydF4y2Bahttps://bit.ly/3bW0Fx9gydF4y2Ba

b。gydF4y2Bahttps://wapo.st/3moRlqbgydF4y2Ba

c.未经同意就这么做的竞争对手被起诉:gydF4y2Bahttps://bit.ly/2ZBsoOFgydF4y2Ba.gydF4y2Ba

d. 2016年以来累计销售额。来源:gydF4y2Bahttps://bit.ly/33u9rylgydF4y2Ba

e.有一些关键的权衡。参见Li, N., Li, T.和Venkatasubramanian, S. T - intimacy: k-匿名和l-多样性之外的隐私。在gydF4y2BaIEEE 23论文集gydF4y2Ba理查德·道金斯gydF4y2Ba数据工程国际会议gydF4y2Ba(2007年4月),106 - 115。gydF4y2Ba

f。gydF4y2Bahttps://bit.ly/3kCm9lDgydF4y2Ba

g。gydF4y2Bahttps://bit.ly/2E0UbR3gydF4y2Ba

h。gydF4y2Bahttps://bit.ly/35zBv67gydF4y2Ba

我看。gydF4y2Bahttps://bit.ly/2ZDpB7BgydF4y2Ba

j。gydF4y2Bahttps://bit.ly/2RnTu7kgydF4y2Ba


版权归作者所有。gydF4y2Ba
向所有者/作者请求(重新)发布权限gydF4y2Ba

数字图书馆是由计算机协会出版的。版权所有©2020 ACM, Inc.gydF4y2Ba


没有发现记录gydF4y2Ba

Baidu
map