acm-header
登录

ACM通信

ACM的意见

数据挖掘正在塑造我们的世界。我们准备好了吗?


布法罗大学副教授Rohini Srihari说

“技术上存在挑战……但如何在数据挖掘和隐私之间取得平衡才是首要挑战,”布法罗大学计算机科学与工程副教授Rohini Srihari说。

图片来源:布法罗大学

每天,我们通过Facebook、Twitter、博客、论坛和其他在线论坛交换大量的内容。这些数字信息揭示了我们真实的自我,公司和其他组织如何使用我们的数据?在7月的一篇题为“网络意味着遗忘的终结”的封面文章中《纽约时报》杂志探讨了互联网如何改变隐私。最近,《华尔街日报》报道了谷歌对“从其皇冠上的宝石——它所拥有的关于人们活动的巨大数据宝库”中获利该走多远这一问题的“自我反省”。

Rohini Srihari是布法罗大学工程与应用科学学院计算机科学与工程副教授,教授网页搜索和挖掘课程,也是文本分析/文本挖掘公司Janya Inc.的创始人兼首席执行官。斯里哈里了解数据挖掘的潜力——以及它引发的复杂问题。

问:为什么谷歌的数据宝库如此珍贵?

斯里赫里:他们所拥有的海量数据是非常强大的——数据是如此之多,如此之多样化。它反映了消费者的声音,公民的声音,各国人民的声音。他们利用这些信息的一种方法是使用挖掘,即跟踪人们如何使用互联网。他们知道人们在询问什么。谷歌可以访问各种各样的信息,这些信息是营销人员想要得到的。例如,当人们查询一个品牌时,他们在查询什么?谷歌能够在政府机构之前发现流感样疾病的爆发,因为政府机构依赖于传统的报告,等待医院发送统计数据,而谷歌依赖查询。他们知道人们在查询什么,以及这些查询来自哪里。

问:还有哪些公司或组织正在投资Web上的数据挖掘,为什么?

斯里赫里:几乎每一个人。电信、信用卡机构、主要零售商、航空公司、像亚马逊这样的电子商务提供商——所有这些实体都在从事数据挖掘。一项新兴技术是社会定向广告。提供这项服务的公司分析品牌忠实者的浏览模式,识别具有类似浏览模式的互联网用户,并利用这些信息进行定向广告。公司通过社会定向广告吸引新客户的成功故事令人惊叹。

问:在Web上挖掘数据时,研究人员和公司面临哪些有趣的挑战?

斯里赫里:首要的挑战是平衡隐私和数据挖掘。我们已经到了这样一个阶段,因为害怕吓到公众,我们做得比我们能做的要少。你如何获得足够的信息来帮助零售商,而不引起反弹?你不希望人们觉得你侵犯了他们的隐私。虽然有技术上的挑战,比如理解使用多种语言的文本或拼写错误,但在数据挖掘和隐私之间取得平衡才是最大的挑战。

问:数据挖掘可能带来哪些潜在的公共利益?

斯里赫里:数据挖掘有可能对社会问题产生严重影响。趋势在网络上迅速出现,可以以有利的方式加以利用。谷歌发现流感样活动爆发的能力就是一个例子。执法是另一个问题。我们听说帮派成员经常在他们的Facebook页面上发布他们所做的事情,所以执法人员经常查看Facebook以收集更多信息。在当地社区,如果关于某个话题的交流或聊天量增加到一定程度——也许道路需要修复,或者有一个危险的红绿灯——公共官员可能会注意到。

问:数据挖掘会如何影响普通互联网用户?

斯里赫里:我们将会看到更多这样的社会目标广告,它可能会开始让人们怀疑,“他们怎么知道我对秘鲁旅行感兴趣,或者我想买这个东西?”当你在做谷歌搜索时,你看到一些广告出现在旁边,这是一回事。当你在网上阅读报纸时,你会突然看到一个专门针对你的广告,而这个广告与页面上的内容无关。随着人们越来越意识到他们的网络活动暴露了多少信息,他们可能会对自己的交流方式更加谨慎。我们将看到更多关于隐私的争论。


没有发现记录

Baidu
map