acm-header
登录

ACM通信

研究突出了

学习主题模型——可证且有效


学习主题模型,插图

来源:盖蒂图片社

今天,我们既有信息超载的好处,也有信息超载的坏处。对于我们的沟通方式来说,文本从未像现在这样重要,也从未像现在这样容易获取。但是大量的文本流远远超过了任何人的阅读能力。我们需要自动化工具来帮助理解它们的主题结构,并找到连接文档的意义线索,所有这些都无需人工监督。这些方法还可以帮助我们组织和导航大型文本语料库。用于此任务的流行工具包括潜在语义分析(LSA)8用标准的线性代数深度学习它依赖于非凸优化。本文关注主题建模它假设了一个简单的概率模型来解释文档是如何生成的。在本节的最后,我们将给出生成模型的正式描述,但接下来我们将概述其重要特性。

主题建模将每个文档表示为袋的话所有语法和句法的概念都被丢弃,每个文档都与其字数向量相关联。中心假设是有一组固定的主题——数量,比如说,几百个——它们在每个文档中以不同的比例被共享和重复出现。例如,一篇关于与退休账户相关的立法的新闻文章可以表示为0.7个主题的混合政治和0.3的话题个人理财。此外,每个主题在词汇表中诱发了单词的分布。注意一个词like账户可以出现在几个主题中:它可以指一个金融产品(一个银行账户)或一个故事(一个虚构的账户),但它被分配的概率可能在不同的主题中有所不同。最后,该模型指定生成每个文档的方法是:首先从某个分布中选择主题比例,然后从特定于文档的单词分布中采样每个单词。在上面的例子中,每个单词都是独立选择的政治概率是0.7,从个人理财概率为0.3。主题建模的目标是,当给出足够大的文档集合时,发现用于生成它们的底层主题集。此外,我们希望算法既快速又准确。

这种生成模型是对如何创建文档的简单描述。然而,对于文本分析中的广泛应用,基于该模型的方法确实可以恢复有意义的主题。我们给出了一个由我们的算法恢复的随机选择的主题集的例子,当运行在一个集合纽约时报文章,如图1.这些工具在总结和探索性数据分析中也有很多应用。事实上,上述模型不仅限于文本分析,还被用于恢复各种生物数据集的语义结构,包括大脑活动的功能磁共振成像图像。该模型的变体也被用于语言学和人文学科的应用。布莱看到裁判。5进行彻底的调查。

f1.jpg
图1。的集合中自动提取主题的示例纽约时报文章。每行包含一个主题的单词,按概率降序排列。

传统的学习主题模型参数的方法是基于最大化的客观的可能性。在学习各种其他概率模型的参数时,这种方法也很受欢迎。然而,即使在主题模型的情况下两个主题,这个优化问题NP硬。4在最好的情况下,我们知道在实践中使用的方法最终会收敛到真正的解决方案,但我们知道不能很好地保证运行时间所需的参数拟合到某些期望的精度。我们理解上的这些差距不仅是一个理论问题,也是一个实践问题:这些算法的运行时间看起来很长,这意味着从20mn篇新闻文章中学习1000个主题需要一个分布式算法和100台专用计算机。1

最近,几组研究人员设计了具有可证明保证的新算法。这些算法的运行时间与文档数量的固定多项式和所需精度的倒数相同。24我们主要关注Arora等人的算法。4这是基于一个看起来很现实的假设,叫做可分性-关于主题的结构。Anandkumar等人的后续工作。2删除了这个假设,但要求主题本质上是不相关的,并且似乎对违反这个假设非常敏感。本文的贡献在于表明,这些新的理论算法中的一些可以用于生成高度实用的主题建模工具,在解决方案质量方面与最先进的近似似然方法竞争,并在一小部分时间内运行。同时,我们的简化算法仍然具有可证明的保证。

*1.1.该模型

在这里,我们将正式说明我们感兴趣的模型。在接下来的大部分讨论中,我们将依赖这些定义。让V标注词汇表中的单词数。让K表示主题的数量。,让表示文档的数量,和D表示他们的长度。(通常,可以允许文档具有不同的长度,甚至可以指定绘制其长度的分布)。每一个K主题通过单词的分布来标识。我们将把这些分布表示为V维向量一个1一个2、……一个K它的项非负且和为1。

每个文档d是由它的主题比例产生的吗Wd从一个分布τ.主题比例也可以看作是一个矢量,但在K-dimensions的值在坐标表示主题的比例出现在文档d.最后,每个单词都通过选择其主题进行独立采样Zj∈{1,2,…,K}据Wd,然后从该主题在单词上的分布中进行抽样Wj∼一Zj.我们指出,这种表述非常普遍,包括最广泛使用的概率主题模型,如潜狄利克雷分配模型(LDA)。7在哪里τ是狄利克雷分布,以及允许主题正相关或负相关的后续扩展,如相关主题模型(CTM)。6在哪里τ为logistic正态分布。看到图2

f2.jpg
图2。生成模型用于主题建模。

*1.2.基于可能性方法

在这里,我们将扩展使用基于可能性的方法的一些计算困难。传统的主题模型参数拟合方法是通过模型拟合最大似然估计,因此我们寻求一套K话题,{一个1一个2、……一个K},以及分布的描述τ,使整个集合由模型生成的可能性最大化。这是一个困难的优化问题,因为似然目标是非凸的,有许多局部极大值。优化非凸函数是出了名的困难,标准的基于局部搜索的技术,如期望最大化9或者梯度上升只保证收敛到局部最大值,这在客观值方面可能比全局最优值差得多。更糟糕的是,由于潜在变量大量,即每个文档的主题比例,估计似然函数本身就很困难,Wd,以及每个单词的主题分配,Zj.即使要评估单个文档的可能性,也需要对所有可能的主题比例进行积分,一个没有封闭形式的高维积分,以及对文档中单词可能的主题分配的指数数求和。

其他以前的工作试图解决极大似然问题的近似版本。例如,变分- em方法714最大化似然目标下界的目标,但不能保证解接近似然目标本身的最优解。马尔可夫链蒙特卡洛(MCMC)方法13使用定制的马尔科夫链,从观察到的文件集合条件下参数的后验分布生成样本,但有众所周知的缺点:很难评估收敛性,而且在感兴趣的设置中,其混合时间的多项式边界不可知。在某种意义上,这些对最大似然目标的近似是必要的,因为最近的工作表明,即使只有两个主题,找到最大似然解也是必要的NP硬。4这些方法在实践中速度较慢的另一个原因是,它们包含一个内部循环,在其中执行近似推断,确定集合中的每个文档中可能出现哪些主题。这也是已知的NP硬。25因此,我们寻求一种有原则的新方法,可以规避最大似然估计和推理的困难。

*1.3.矩量法

使用最大似然估计量的挑战促使我们研究其他一致的估计量,希望这些估计量可以更有效地计算。正如我们前面提到的,我们基于最近的算法24该方法可在多项式时间内恢复主题模型的参数。这些方法都是建立在矩量法的基础上的,而矩量法最初是由皮尔逊提出的23但在统计学界已经失宠,很大程度上是因为它似乎比费雪倡导的基于可能性的方法需要更多的样本。然而,在大数据时代的现代,统计效率并没有计算效率那么紧迫。考虑到这一点,似乎是时候重新审视矩量法了。

矩量法背后的关键概念是建立一个方程组,将可以很容易地从数据(如平均值或平均值)和模型参数中估计出的量联系起来。为了保证模型参数的可辨识性,保证方程组的求解效率,必须仔细选择方程组。近年来,矩量法已被用于求解各种基本统计估计问题,如高斯学习混合。15

让我们在主题建模的上下文中描述这种方法,使用二阶矩。让是一个V×V矩阵的入口j,表示随机生成的文档中第一个和第二个单词为单词的概率j和字j分别的。结果表明,这个矩阵可以表示为三个入口非负矩阵的乘积。让R表示K×K矩阵的入口R我,我表示第一个和第二个单词从主题中采样的概率和主题分别的。最后让一个表示V×K矩阵的列为一个1一个2、……一个K.然后就可以证明ARAT.假设现在我们可以准确估计

当一个人试图求解非线性方程组时,应用矩量法的天真尝试会遇到计算上的困难。特别地,我们面临一个矩阵分解问题,我们的目标是表示作为上述入口型非负矩阵的乘积。这是密切相关的非负矩阵分解这是一个众所周知的问题NP硬。3.26Arora等人的方法。4就是在主题建模的背景下,在某种假设下使用求解非负矩阵分解的算法。接下来我们将描述这一假设及其基本原理。

*1.4.可分性

Arora等人的算法背后的指导假设。4是一个叫做可分性。11更准确地说,这一假设规定,主题可以可靠地通过锚文字-在主题模型的上下文中,它们是特定于单个主题的专门化单词。例如,如果这个词401 k出现在一个文档中,那么它是一个强烈的指示器,表明该文档至少部分是关于个人理财。自然语言似乎包含许多这样明确的词。可分离性条件要求每个主题至少包含一个(未知)锚词。我们提供了各种经验证据,表明适合真实世界数据集的模型包含许多锚词。

Arora et al。3.给出了可分性假设下求解非负矩阵分解的一种算法。在随后的论文中,Arora等人。4结果表明,该算法可用于可分离主题模型的参数学习。虽然理论上很重要,但这些算法(如上所述)很不实际:运行时是一个大多项式,算法本身对建模假设的违反很敏感,在实际数据集合上运行时学习质量较差的主题。当前的论文解决了这些问题,提出了上述算法的一个变体,它达到了最先进的性能,运行速度比基于近似似然的方法快了几个数量级。同时,我们还给出了求解可分离非负矩阵分解的一种更快的算法。

我们注意到可分离性并不是允许主题模型多项式时间恢复的唯一假设。Anandkumar et al。2给出一个基于三阶矩和张量分解的可证明的主题建模算法,它不需要可分离性,而是要求主题本质上是不相关的。尽管像LDA这样的标准主题模型7假设这个性质,有充分的证据表明现实世界的主题是相互依赖的。619例如,主题经济学而且政治更有可能同时发生经济学而且烹饪。

回到顶部

2.锚词算法

*2.1.从概率到几何

可分离主题模型具有各种重要的概率和几何性质。这些属性将构成我们算法的基础。我们将使用简单的统计数据来测量文档中不同单词对同时出现的频率。回想一下矩阵表示单词对的共现概率。在这一节中更方便地考虑条件概率,在那里我,我第二个单词出现的概率是j以第一个词为条件.矩阵只是行规范化的版本吗它们的行和为1。

用几何方法考虑这些数据是有用的。我们可以看到的行作为分V维空间。此外,我们将调用一行一个锚行如果它对应于一个锚字。给出了锚点行和非锚点行的简化说明图3.我们的算法背后的关键洞察是以下事实。回忆一下矢量u在向量的凸包中v1v2,……vd如果它可以写成uλv在哪里λ的非负且和为1。

f3.jpg
图3。的行向量在V-维,它们的凸包是aK-simplex,它的顶点是锚行。在这里cacm6104_a.gif这意味着后验分布Pz1= * |w1)分配cacm6104_b.gifz1k而且cacm6104_b.gifz1k而其他话题则是零。

引理1。如果主题矩阵是可分离的,则每一行都在锚列的凸包中。

这个几何属性促使我们使用简单的贪婪算法来识别锚词。首先,我们通过对各种条件概率的初等操作来简述这个引理的证明。

算法1。FindAnchors

  1. 计算共生。Nd是文件的长度d,Nd)为单词出现的次数在文档d

ueq01.gif

  1. cacm6104_c.gif是行归一化的cacm6104_d.gif.行cacm6104_c.gif和为1。
  2. k= 1,K
  3. 选择中的行cacm6104_c.gif到目前为止选定的锚行的仿射跨度最远的。
  4. 结束了
  5. 返回所选的锚词

考虑一个随机生成的文档,让w1而且w2分别表示其第一个和第二个词的随机变量。此外让z1而且z2注明他们潜在的主题作业。我们将把生成过程看作是第一次挑选Wdτ然后选择z1z2∈(K独立地根据Wd.一旦这些主题作业确定了,单词w1而且w2独立地从一个Z1而且一个Z2分别。我们用π(k)表示主题的定语k.然后,定语词的定义如下:

ueq02.gif

这是因为当观察到一个锚词时,只有一个主题可以生成它!此外让表示th排.然后jth的坐标.是Pw2j|w1).我们将使用速记法Pw2= * |w1).它遵循,

ueq03.gif

最后我们可以写,

ueq04.gif

这个公式明确表示作为锚行的凸组合,但我们还看到凸组合是由条件概率给出的Pz1k”|w1)的主题生成的单词w1.因此,我们的策略是先找到锚行,然后求解一个低维凸程序,将每个非锚行表示为要找的锚行的凸组合Pz1k”|w1).从那里,我们可以使用贝叶斯规则来计算PW1|z1k’),它们正是我们的主题模型的参数(超参数除外)。

*2.2.查找锚词

我们给出一个简单的贪婪算法叫做FindAnchors这可以证明K根据经验估计,锚词(每个主题一个)cacm6104_c.gif矩阵的在前一小节中定义。我们将在无噪声环境下分析该算法cacm6104_c.gif,但这个算法的重要之处在于它在噪声存在时的行为。在这种情况下,它可以显示FindAnchors复苏附近的锚文字也就是排在第一行的词cacm6104_c.gif近在1距离到某个锚字。我们需要后一种类型的保证来量化我们需要多少数据来得到可以证明接近主题模型的真实参数的估计。

该算法贪婪地建立一组锚词,并从选择距离原点最远的行开始。然后迭代地添加与之前收集的点的仿射跨度距离最大的点。这个过程也可以被看作是迭代增长单纯形,添加顶点贪婪地使包围的体积最大化。而一般的选择问题K矩阵的行cacm6104_c.gif最大的封闭体积是NP-很难,但当已知这些点位于单纯形中,且单纯形的顶点本身也在输入点之间时,它就变得容易了。

为了提高噪声容忍度,我们添加了第二个“清理”阶段,迭代地删除每个顶点,并添加离剩余顶点跨度最远的点。虽然这轮额外的清理之前已经被建议作为改进质量的启发式方法,但在我们论文的完整版本中,我们表明它也改进了算法的理论保证。

最后,利用随机投影可以进一步提高算法的运行时间。将高维向量的集合随机投影到一个随机的低维子空间上,可以近似地保持每对向量之间的成对距离。由于我们的算法迭代地寻找子空间的最远点,它的行为在随机投影后保持不变。但是这种改进算法允许它处理低维点,提高了它的效率。最后的运行时间是OV2+V K/ε2).

回到顶部

3.主题复苏

这里我们给出一个算法叫做Recover-Topics(L2),当给定锚词时,可证明恢复主题模型的参数。该算法利用了我们前面描述的可分离主题模型的相同概率和几何属性。回忆每一行cacm6104_c.gif可以(近似地)写成锚行的凸组合。此外,混合权重非常接近概率Pw1z1k).

算法2。Recover-Topics (L2)

  1. = 1,V
  2. 项目行cacm6104_c.gif导入锚排的凸包,并将得到的凸组合解释为pz1= * |w1
  3. 结束了
  4. 解出一个利用贝叶斯规则,如式(1)所示
  5. 求解线性方程组cacm6104_d.gifARATR
  6. 返回一个右

对于每个非锚定行,我们的算法在锚定行的凸包中找到最近的点(以欧氏距离计算)。这是一个可以用指数梯度算法有效解决的最小化问题。16得到的点可以表示为锚行的凸组合,从而产生条件概率Pw1|z1k’)如前所述。这些值与我们想要的稍有不同。最终,我们可以恢复的条目一个通过贝叶斯规则

eq01.gif

回想一下,ARAT,自一个是否有全列秩(因为它是可分离的),我们能解出R通过解这个线性方程组。此外,在LDA模型的特殊情况下,我们还可以直接从中恢复Dirichlet超参数R.我们把细节问题推迟到我们论文的完整版本。最后,我们指出,在我们的算法中,当我们在欧氏距离中找到最近的点时,这一步可以被“核化”,使每一次幂梯度迭代的运行时间与词汇量无关,V.我们可以在公差为的情况下解决由此产生的最小化问题ε2需要K日志K/ε2指数梯度的迭代16算法。的运行时间Recover-Topics(L2)OV2K+V K3./ε2),构成主要计算瓶颈的for循环可以简单地并行化。

回想一下,在实现贝叶斯规则时,我们计算k∈(K],分母∑pz1k|w1”)pw1') =pzk的列规范化时隐式完成一个算法2中的'),它给出了一个常数缩放的狄利克雷超参数。这个缩放常数可以从R参考文献Arora et al.描述的矩阵,4但在实践中,我们发现最好使用网格搜索来选择这个单一参数,以最大化数据的可能性。

*3.1.理论上的保证

在这里,我们对整个算法的样本复杂度和运行时间进行了严格的保证。我们推迟对…的担保FindAnchors而且Recover-Topics(L2)到本节后面。当我们得到一组有限的样本时,我们的经验统计——我们用cacm6104_c.gif-将是一个很好的,但不完美的近似.为了确定在恢复主题模型的真实参数时获得一定目标精度所需的样本数量,我们需要通过算法跟踪各种误差来源。

此外,我们需要某些参数在合理的范围内有界,以保证我们要解的反问题是定态良好的。回想一下,锚的存在意味着我们试图解决一个可分非负矩阵分解问题。我们将问题的可分离性描述为:

定义1。词-主题矩阵A对于p是可分离的> 0如果对于每个主题k,有一个单词i满足A我,k≥p和A我,k' = 0k”≠k

因此,每个主题不仅应该有一个锚词,而且还应该有一个不可忽略的概率。我们需要一个下界p,算法的运行时间和样本复杂度多项式依赖于1/p.我们还需要第二个措施γ的最小奇异值R.当γ是太小了,恢复的问题一个而且RARAT变得不稳定。注意,这个度量也意味着任何主题都不可能有非常低的概率,因为对于任何主题,可以证明γPz1k).当问题在这两个度量条件下表现良好时,我们的算法实现了以下保证:

定理1。有一个多项式时间算法,学习一个主题模型的参数,如果文档的数量至少

ueq05.gif

其中p和γ是上述定义的两个非简并度量,D≥2是最短文档的长度。算法学习词-主题矩阵A和主题-主题协方差矩阵R,直到加性误差∈

为了证明这个定理,我们证明FindAnchors算法成功地恢复了近锚字Recover-Topics(L2)算法对给定的近锚词准确估计所需参数。在说明保证之前FindAnchors算法,我们首先介绍下面的概念α覆盖。我们会说

让{v1v2、……vK}, {v1v2…,vK}是两个点的集合。我们说这些点的集合α覆盖彼此

定义2。我们说这是一组点v1v2…,vKα-覆盖了另一组点v1v2、……vK},如果在表示每个v'时作为一个凸组合cacm6104_e.gif我们有c≥1 -α

显然,我们希望锚点是α被一组附近的锚所覆盖FindAnchors算法。让δ行之间的最大摄动cacm6104_c.gif而且cacm6104_f.gif.引理2连接由FindAnchors和真正的锚。

引理2。如果δ< (γp3./ 20K,然后FindAnchors将输出一组Oδ/γp)-覆盖真正的锚行。

接下来我们展示Recover-Topics该算法对顶点和内点的扰动具有鲁棒性,使引理3中的重构系数的误差有了限制。

引理3。Recover-Topics(L2)具有Oδ/γp)-覆盖真正的锚行,返回矩阵A上的元素明智的错误不超过OδK/γ3.p2).

结合这两个引理,和经验相关矩阵的标准浓度界限,我们得到主定理1中的保证。

回到顶部

4.实验结果

本文提出的方法,锚点查找和凸优化的主题恢复,既比标准的概率方法更快,也比以前可证明的方法对模型假设的违反更健壮。我们比较了两种参数恢复方法和一个标准的概率激励算法。第一种方法是参考文献Arora等人提出的简单矩阵反演,4我们称之为恢复。这种反演方法在理论上是最优的,但在实践中是失败的。第二种是使用平方的约束恢复方法2我们称之为损失RecoverL2作为速记Recover-Topics(L2)。作为比较,我们还考虑了最先进的吉布斯采样实现。20.我们希望算法对有噪声的数据是快速、准确和健壮的。我们发现基于锚点的算法比标准算法的速度要快得多,特别是对于大型语料库。为了评估准确性,我们在半合成数据(已知主题分布)和真实文档上测试算法。此外,我们测量了不同来源的误差和模型不匹配的影响。

*4.1.方法

我们在两个合成数据集上训练模型,在模型假设正确时评估性能,在真实文档上训练模型,以评估真实世界的性能。为了确保合成文档与真实数据的维数和稀疏性特征相似,我们生成半合成全集。对于每个真实的语料库,我们使用吉布斯抽样训练一个模型,然后使用该模型的参数(这些参数为保证可分离的;我们发现吉布斯抽样拟合的主题中约80%有锚词)。

我们使用两个真实世界的数据集,大量的语料库纽约时报文章(295k文档,词汇量15k,平均文档长度298)和一个小型的神经信息处理系统(NIPS)摘要语料库(1100篇文档,词汇量2500,平均长度68)。使用文档频率截断来修剪词汇表。我们从训练过的模型中生成各种大小的半合成语料库K= 100纽约时报和NIPS,文档长度分别设置为300和70,文档主题分布来自对称超参数0.03的狄利克雷函数。

对于算法的第一个阶段锚字恢复,我们使用FindAnchors算法在所有情况下。提出了原始的基于线性规划的锚词查找方法恢复在Arora等人的研究中,4太慢了,无法与之相比。对于吉布斯抽样,我们通过平均超过10个保存状态,每个保存状态被100次迭代隔开,经过1000次老化迭代,获得词-主题分布。

我们使用各种指标来评估学习到的模型。对于半合成语料库,我们计算重建误差在真实的词主题分布和学习的分布之间。特别是,给定一个学习过的矩阵一个真矩阵一个,我们使用二部匹配来对齐主题,然后评估1每对话题之间的距离。当无法获得真参数时,对主题模型的标准评价是计算伸出概率,学习模型下先前未见文档出现的概率。

f4.jpg
图4。的前三步FindAnchors包括找到一个离原点最远的起点,找到离初始点最远的点,以及找到离由前两个点定义的直线最远的点。

主题模型很有用,因为它们提供了可解释的潜在维度。我们可以计算语义质量使用一个称为一致性。21这一指标已被证明与人类对话题质量的判断有很好的相关性。如果我们完美地重构了主题,那么一个主题中所有高概率的词应该频繁地同时出现,否则,模型可能混合了不相关的概念。给定一组单词W,一致性

eq02.gif

在哪里Dw),Dw1w2)是包含至少一个实例的文档数量w的,w1而且w2,分别。我们设置= 0.01,以避免对从未同时出现的单词取0的对数。连贯性衡量的是单个主题的质量,但不衡量冗余,所以我们衡量inter-topic相似。对于每个主题,我们收集集合N最可能的单词。然后我们计算这些单词中有多少没有出现在任何其他主题的集合中N最可能的单词。在这些实验中我们使用N= 20。由于语义歧义,可能会出现一些重叠,但是惟一单词的数量较少表明模型的用处较小。

*4.2.效率

这两个恢复而且RecoverL2Python中的算法比Java中高度优化的吉布斯采样实现要快。图5显示了在一台机器上训练合成语料库模型所需的时间。吉布斯抽样在语料大小上是线性的。RecoverL2也是线性的(ρ= 0.79),但只在33到50秒之间变化。估计是线性的,但最大的语料库只需要7秒。FindAnchors所有语料库不超过6秒。

f5.jpg
图5。对合成NIPS文档的培训时间。

*4.3.半合成的文件

新的算法有很好的1半合成文献的重建误差,特别是对于较大的语料库。半合成语料库的结果来自训练的主题纽约时报文章载于图6(上)语料库大小从50k到2M的合成文档。此外,我们报告的结果恢复而且RecoverL2算法上的“无限数据”,即真理矩阵从用于生成文档的模型。错误条显示主题之间的差异。恢复除了无噪音的无限数据设置外,在其他方面都表现不佳。吉布斯抽样是最低的1在较小的全集。然而,对于更大的语料库来说是新的RecoverL2算法是最低的1误差和较小的方差(运行更长的采样时间可以进一步减少MCMC误差)。从NIPS主题中提取的半合成语料库的结果显示在图6(下),两者相似。

f6.jpg
图6。1学习半合成LDA模型的误差K= 100个主题(顶部:基于纽约时报,下:基于NIPS摘要)。水平线表示1.错误的K均匀分布。

可分性的影响。注意,如图所示图6恢复不等于零1即使是无噪声的“无限”数据也会出错。在这里我们表明,这是由于缺乏可分离性,并且新的恢复算法对违反可分离性假设更健壮。在我们的半合成语料库中,文档是由LDA模型生成的,但主题词分布是从数据中学习的,可能不满足锚词假设。现在,我们为每个主题添加一个合成锚词,通过构造,该锚词是该主题惟一的。我们给合成锚词分配一个概率等于原始主题中最可能出现的单词。这导致分布的总和大于1.0,因此我们进行重整。结果显示于图7.的1误差为零恢复,接近于零RecoverL2(不是零,因为我们没有解出完美最优)。

f7.jpg
图7。当我们在生成合成文档之前添加人工锚词时,1误差为零恢复接近于零RecoverL2。

相关性的影响。新算法的理论保证即使主题是相关的也适用。为了测试在存在相关性时的经验表现,我们从相同的合成语料库中生成了新的合成语料库K= 100个模型训练纽约时报文章。我们不是使用对称的狄利克雷分布,而是使用带有块结构协方差矩阵的逻辑正态分布。我们将主题分成10组。对于组中的每一对主题,我们添加一个非零非对角线元素(ρ)到协方差矩阵。这种块状结构不一定是现实的,但显示了相关性的作用。结果ρ= 0.05和0.1示于图8恢复与lda生成的语料库相比,相关主题的表现要差得多(图6).其他三种算法,尤其是吉布斯抽样算法,对相关的鲁棒性更好。随着相关性的增加,性能持续下降。对于恢复算法来说,这是由于在γ的条件号R矩阵。无限的数据,1误差等于1不相关合成语料库中的错误(非零,因为违反了可分离性假设)。

f8.jpg
图8。1当我们增加主题相关性时,错误会增加(顶部:= 0.05,底:= 0.1)。基于纽约时报100个主题的半综合模型。

*4.4.真实的文件

新算法在真实数据上产生了相当的定量和定性结果。图9展示了两个语料库的三个指标。错误条显示了日志概率的分布文档(顶部面板)和连贯和独特的单词跨越主题(中、底板)。有230份文件给NIPS, 59k给《纽约时报》。对于较小的NIPS语料库,我们平均5个不重叠的训练/测试分段。矩阵逆就介入了恢复失败,因此我们修改程序,以使用伪逆。这种修改在补充材料中有描述。在这两种全集,恢复与其他算法相比,每个令牌产生的搁置日志概率明显更差。吉布斯抽样产生了最佳平均持有概率(p< 0.0001下配对t-test),但差异在文档之间的可变性范围内。我们尝试了几种估计超参数的方法,但观察到的差异并没有改变算法的相对性能。吉布斯采样的一致性比其他算法差,但每个主题产生的唯一单词更多。这些模式与同样大小的语料库的半合成结果一致(细节在补充材料中)。

f9.jpg
图9。hold out概率(每个令牌)与RecoverL2和吉布斯抽样。RecoverL2有更好的连贯性,但更少的唯一的术语在顶部N=比吉布斯多20个字。(这三个指标都是向上更好。)

为每一个纽约时报主题学习,RecoverL2我们找到最接近的吉布斯话题1距离。中显示了最近、中位数和最远的主题对表1.我们观察到,当存在差异时,基于恢复的主题往往有更具体的词汇(阿纳海姆天使vs。球场).

t1.jpg
表1。的示例主题对纽约时报(最近的1),锚词加粗显示。UCI的纽约时报语料库包括命名实体注释,由打鼾声前缀。所有100个主题都列在补充材料中。

回到顶部

5.结束语

在这里,我们展示了基于可分离性假设的算法是高度实用的,并产生了质量堪比基于概率的使用吉布斯抽样的方法的主题模型,同时运行时间很短。此外,这些算法特别适合并行实现,因为除了查找锚字之外,每个主要步骤都可以简单地并行化。我们的算法继承了早期方法的可证明保证4在这个意义上,从一个主题模型的给定样本,估计可证明收敛到真实的参数以一个逆多项式的速率。然而,一个重要的问题是要从理论上解释为什么这些算法对模型的错误规范看起来(有些)健壮。在实验中,我们将主题模型与真实数据进行拟合,得到的主题模型为可分离的,但只是接近可分离的。然而,我们的算法在这种设置下也能恢复高质量的主题。我们知道,基于似然的方法在模型被错误指定时表现良好,理想情况下,人们应该能够设计出可证明的算法,不仅具有良好的运行时间和样本复杂度,而且能够容忍现实的噪声量。

自从它发表以来,我们的算法在许多方向上得到了扩展。罗伯茨et al。24考虑在社会科学中的应用,并发现使用基于锚点的模型作为基于可能性的算法的初始化减少了可变性,提高了模型拟合。阮等。22通过添加正则化来平滑估计的主题词分布,改进主题恢复步骤,从而提高可解释性。许多作者提出了寻找锚词的新方法。丁等。10提出了一种可跨多台服务器并行处理的分布式算法。周et al。27通过投影行找到锚词进入平面,并选择经常出现在极值点的词。李和Mimno18用单个重尾投影代替随机投影t-SNE投影,不保持成对2距离,但保留局部距离,允许点在投影空间中更分散。通用电气和邹12将锚词假设放宽为子集可分离假设,即使锚词不在单个主题中,而是几个主题的组合中也可以成立。其他最近的研究17建立锚点分解所需的标准。通过初始校正步骤将这些标准强加于输入矩阵,大大提高了模型的鲁棒性,特别是对于少量主题。

更广泛地说,锚词本身也被证明是总结主题的含义和区分主题与相关主题的有用工具。当与正确的可视化和分析工具相结合时,设计半监督学习算法(由领域专家帮助选择最终的锚集)是可能的。锚词也有可能在文本分析之外找到应用,并将使其他领域的高效算法成为可能,就像主题建模中的这种假设一样。

回到顶部

参考文献

1.艾哈迈德,阿里,M.,冈萨雷斯,J.,纳拉亚纳穆尔西,S.,斯莫拉,A.J.潜在变量模型的可扩展推理。在WSDM '12:第五届ACM Web搜索和数据挖掘国际会议论文集(纽约,NY, USA, 2012), ACM, 123-132。

2.Anandkumar, A., Foster, D., Hsu, D., Kakade, S., Liu, Y.两个svd足够了:用于概率主题建模的谱分解和潜在的狄利克雷分配。在少量的酒(2012)。

3.阿罗拉,格,R,坎南,R,莫伊特拉,a .计算非负矩阵分解-可证明。在获得STOC(2012), 145 - 162。

4.Arora, S., Ge, R., Moitra, A.学习主题模型——超越SVD。在foc(2012)。

5.关于概率主题模型的介绍。Commun。ACM(2012), 77 - 84。

6.科学的相关主题模型。安。达成。统计。(2007), 17-35。

7.Blei, D, Ng, A, Jordan, M.潜狄利克雷分配。j·马赫。学习。Res。(2003), 993 - 1022。初步的版本少量的酒2001.

8.迪尔韦斯特、杜梅斯、兰道尔、弗纳斯、哈斯曼。潜在语义分析的标引。JASIS(1990), 391 - 407。

9.登普斯特,a.p.,莱尔德,新m,鲁宾,D.B.通过EM算法从不完全数据中获得最大可能性。j·罗伊。中央集权。Soc。爵士。B(1977), 1-38。

10.丁伟,罗班,m。h。Ishwar, P., Saligrama, V.具有可证明保证的高效分布式主题建模。JMLR(2014), 167 - 175。

11.多诺霍,D,斯托登,V.非负矩阵分解何时给出正确的分解部分?在少量的酒(2003)。

12.葛锐,邹杰。交叉面:具有新保证的非负矩阵分解。在第32届机器学习国际会议论文集(2015), 2295 - 2303。

13.格里菲斯,t.l.,斯泰弗斯,M.寻找科学话题。Proc。国家的。学会科学》101(2004), 5228 - 5235。

14.霍夫曼,医学博士,布莱,D.M.结构化随机变分推理。在第十八届人工智能与统计国际会议(2015)。

15.卡莱,a.t.,莫伊特拉,A, Valiant, g,解高斯。Commun。ACM 55, 2(2012年2月),113-120。

16.线性预测器的指数梯度与梯度下降。通知。132年第一版。(1995)。

17.Lee, Bindel, D, Mimno, D.M.联合随机矩阵分解的鲁棒谱推断。在少量的酒(2015)。

18.Lee, M., Mimno, D.基于可解释锚点主题推理的低维嵌入。在EMNLP(2014)。

19.李伟,麦卡勒姆,A. Pachinko分配:dag结构的主题相关性混合模型。在ICML(2007), 633 - 640。

20.McCallum, A. Mallet:语言工具包的机器学习(2002)。http://mallet.cs.umass.edu

21.米米诺,沃拉克,H,塔利,E,莱恩德斯,M,麦卡勒姆,A.优化主题模型的语义连贯。在EMNLP(2011)。

22.Nguyen, T, Hu, Y, Boyd-Graber, J.锚正则化:为可扩展的主题建模算法添加鲁棒性和可扩展性。在ACL(2014)。

23.对数学进化论的贡献。费罗斯。反式。r . Soc。Lond。答:185(1894), 71 - 110。

24.Roberts, M.E, Stewart, b.m., Tingley, D.导航大数据的本地模式:主题模型的案例。在政治、政策和政府的数据科学(剑桥大学出版社,纽约,2014)。

25.潜在狄利克雷分配中推理的复杂性。在少量的酒(2011), 1008 - 1016。

26.论非负矩阵分解的复杂性。暹罗j . Optim。(2009), 1364 - 1377。

27.周,T, Bilmes, J.A, gustrin, C.通过锚定锥形船体分治学习。在少量的酒(2014), 1242 - 1250。

回到顶部

作者

(Sanjeev Aroraarora@cs.princeton.edu),普林斯顿大学,美国新泽西州普林斯顿。

荣通用电气rongge@cs.duke.edu),杜克大学,达勒姆,北卡罗来纳州,美国。

阴户Halpernyhalpern@gmail.com),谷歌,剑桥,马萨诸塞州,美国。

大卫Mimnomimno@cornell.edu),康奈尔大学,伊萨卡,纽约州,美国。

Ankur Moitramoitra@rnit.edu),麻省理工学院,剑桥,马萨诸塞州,美国。

大卫·桑塔格dsontag@rnit.edu),麻省理工学院,剑桥,马萨诸塞州,美国。

吴一尘ychwu5@gmail.com).

迈克尔·朱mhzhu@cs.stanford.edu),斯坦福大学,斯坦福,加州,美国。

回到顶部

脚注

这项工作以“具有可证明保证的主题建模实用算法”(Arora, Ge, Halpern, Mimno, Moitra, Sontag, Wu, Zhu) ICML 2013年发表。


版权由所有者/作者持有。
向所有者/作者请求(重新)发布权限

数字图书馆是由计算机协会出版的。版权所有©2018 ACM, Inc.


没有发现记录

Baidu
map