acm-header
登录

ACM通信

研究突出了

技术角度:表达概率模型和可扩展矩方法


在不同的领域,研究人员面临着涉及数据的问题和机会。科学家、学者、工程师和其他分析师寻求新的方法来吸收数据,提取显著的模式,然后使用结果进行预测和理解。这些方法来自机器学习(ML),它正迅速成为现代技术系统、现代科学工作流程和理解数据的现代方法的核心。

用ML解决问题的经典方法遵循“食谱”方法,在这种方法中,科学家将她的数据和问题硬塞进一个可靠的ML方法的输入和输出。这个策略在很多领域都是成功的,比如垃圾邮件过滤、语音识别和电影推荐,但我们只能到此为止了。这本烹饪书的重点是预测,而不是解释,因此重视通用和灵活的方法。相比之下,许多现代的ML应用程序需要可解释的方法,这些方法既能形成良好的预测,又能给出良好的理由。此外,随着数据变得更加复杂,ML问题变得更加多样化,将我们的多样化问题硬塞到一个简单的ML设置中变得更加困难。

“烹饪书”的另一个选择是概率建模,这是一种基于贝叶斯统计的ML方法。概率建模为研究者提供了一种表达语言来表达关于数据的假设和数据分析中的目标。它提供了一套在这些假设下计算数据的算法,以及一个使用计算结果的框架。概率建模允许研究人员结合他们的知识和数据,开发适合他们特定目标的ML方法。

下面的论文是关于概率主题模型的,这是一类用于分析文本数据的概率模型。主题建模算法吸收大量文档集合,并试图揭示其中隐藏的主题结构。主题建模的特别之处在于它不需要预先标记的文档就能揭示结构。例如,当应用于大量新闻文章时,主题建模算法将发现以词汇模式(如体育、健康或艺术)表示的可解释主题。这些发现的主题有很多应用:总结集合、形成关于新文档的预测、扩展搜索引擎、将接口组织到集合中或扩展推荐系统。主题模型已经进一步适用于其他领域,如计算机视觉、用户行为数据和群体遗传学,并在许多其他方面得到了扩展。在许多字段中有大量未标记的文本数据;话题模型在学术界和工业界得到了广泛的应用。

主题模型假设一个随机过程,未知主题结合在一起生成文档。当我们适合主题模型时,我们试图发现组合成一个观察集合的特定主题。我要强调的是,主题模型是概率模型的特殊情况。通常,概率建模指定一个随机过程,使用未观察到的变量(如主题)生成数据;概率模型的核心算法问题是找出可能产生所研究的观测数据的隐藏量。对于主题模型和其他模型来说,使这个问题变得困难的是,准确表达我们的领域知识的模型是复杂的,而我们想要适合它们的数据集是大的。提出了一种大规模拟合主题模型的新方法。

解决主题建模问题的典型方法是用近似贝叶斯方法或最大似然方法拟合主题。(本文作者称这些方法为“基于可能性的”方法。)这里的解决方案是不同的,因为作者使用了所谓的矩法。这意味着它们推导出主题模型将生成的数据的平均函数(如果它是真正的模型的话)。然后,他们计算观察到的文档上的这些平均量,并推导出一种算法,以找到产生这些文档的特定主题。他们的算法适用于大型数据集。

作者证明了其算法的理论保证。他们对文本(主题的“锚词”假设)做出现实的假设,并假定数据来自主题模型。他们表明,有了足够多的文档,他们的算法(包括他们选择匹配的数量和匹配它们的算法)就能找到产生数据的主题。这是一个重要的结果。对于基于似然的方法,如马尔可夫链蒙特卡洛(MCMC)、变分贝叶斯或变分期望最大化,这种保证还没有得到证明。更一般地说,这篇论文是理论计算机科学和概率机器学习的完美结合。

最后,我将提出我在阅读这篇论文时想到的主要问题。传统的概率机器学习方法MCMC和变分贝叶斯(VB)为拟合广泛的模型提供了方便的方法。相反,很多分析和数学工作进入矩法解是特定于模型。是否有可能推广潜在变量模型的矩量法,使其像MCMC和VB那样容易推导和使用?我们可以推广到其他主题模型吗?其他图形模型呢?是否有证明其他模型的理论保证的指导方针?

回到顶部

作者

大卫·m·布莱是美国纽约市哥伦比亚大学统计和计算机科学教授。

回到顶部

脚注

查看所附文件,请访问doi.acm.org/10.1145/3186262


版权归作者所有。
向所有者/作者请求(重新)发布许可

数字图书馆是由计算机协会出版的。版权所有©2018 ACM, Inc。


没有发现记录

Baidu
map