acm-header
登录

ACM通信

BLOG@CACM

最大的收益来自于了解你的数据


Geeky Ventures创始人格雷格·林登

机器学习很难。想要逃避工作是非常诱人的。我们不能直接下载一个机器学习包吗?我们真的需要了解我们在做什么吗?

的确,现成的算法是开始和实验的一种快速方式。输入数据就可以了。

唯一的问题是开发是否会止步于此。通过了解您的数据的特性以及人们在您的站点上想要和需要什么,通过试验和学习,您很可能可以超越一般系统。

一个很好的例子,说明了理解数据的特性是如何帮助您的Netflix奖.100万美元奖金的进展基本上停滞不前,直到加文·波特发现数据中的特殊性,包括人们对评级量表的不同解读。

最近,Yehuda Koren发现通过补充模型,考虑到时间效应,可以获得额外的收益,比如人们倾向于给老电影评分更高,在短时间内一起评分的电影往往更相关,随着时间的推移,人们可能会开始给他们看过的所有电影评分更高或更低。

在这两种情况下,仔细观察数据,更好地理解人们的行为,然后调整模型,都获得了巨大的收益。再加上其他工作,这就足够了为了赢得一百万美元的奖金。

Netflix奖遵循了一个你经常看到的模式,当人们试图实现一个需要机器学习的功能时。大多数早期的尝试都是用现成的算法处理数据,产生了一些有用的东西,但并没有特别令人印象深刻的结果。

如果没有一个明确的成功度量标准和测试方法,开发就会停滞不前。但是,就像谷歌和亚马逊对无处不在的A/B测试所做的那样,Netflix奖有一个明确的成功标准,以及针对该标准进行测试的方法。

我们可以从Netflix的竞赛中吸取很多教训,但最重要的应该是不断试验和学习的重要性。通过算法之间的相互竞争,通过仔细观察数据,通过思考人们想要什么以及他们为什么这么做,通过不断的测试和实验,你可以获得巨大的收益。


没有发现记录

Baidu
map