ACM
研究突出了

FANG:利用社会环境利用图表示进行假新闻检测


认为: 分享
读报纸的男人"年代rc="//www.eqigeno.com/system/assets/0004/2568/031722_Getty_FANG1.large.jpg?1647524501&1647524500

图片来源:Getty Images

我们提出了一种新颖的社会情境图形表示和假新闻检测学习框架——事实新闻图(FANG)。与之前的情境模型不同的是,我们的重点是表现学习。与传导模型相比,FANG在训练上是可扩展的,因为它不需要维护其他新闻传播中涉及的社会实体,在推理时是有效的,不需要重新处理整个图。我们的实验结果表明,与最近的图形和非图形模型相比,FANG更好地将社会环境捕获为高保真的表示。特别是,FANG在假新闻检测任务上有显著的改进,在训练数据有限的情况下也具有鲁棒性。我们进一步证明,FANG学习到的表征可以推广到相关任务中,如预测新闻媒体报道的真实性。

回到顶部

1.简介

社交媒体已经成为世界各地许多人的重要信息来源。不幸的是,他们发布的信息并非都是真实的。在政治选举或大流行疫情等关键事件期间,怀有恶意的虚假信息,21俗称“假新闻”,可以扰乱社会行为、公共公平和理性。许多网站和社交媒体都在努力识别虚假信息。例如,Facebook鼓励用户举报不可信的帖子,并雇佣专业的事实核查员来曝光有问题的新闻。Snopes、FactCheck、PolitiFact和Full Fact等事实核查网站也使用手动事实核查。为了适应不断增长的信息量,自动新闻验证系统将外部知识数据库作为证据。23以证据为基础的方法实现了很高的准确性,并提供了潜在的解释性,但它们也需要大量的人力。此外,基于文本证据的文本主张的事实核查方法并不容易适用于关于图像或视频的主张。

最近的工作采取了不同的策略,通过探索新闻传播过程的上下文特征。他们观察到社交用户面对虚假新闻和真实新闻时的不同参与模式。613例如,假新闻如图所示表1出版后不久就有很多约会。这些主要是逐字逐句的转载,用假新闻典型的骇人听闻的内容来解释原帖子的负面情绪。在这短暂的时间窗口之后,我们看到了质疑新闻真实性的否认帖子,立场分布在之后稳定下来,几乎没有人支持。相比之下,真正的新闻例子在表1导致适度的参与,主要由支持的帖子组成,中立的情绪很快稳定下来。用户感知的这种时间变化是区分真假新闻的重要信号。

t1.jpg"height=
表1。社交媒体用户对虚假和真实新闻文章的参与度。

以前的工作提出了社会背景的部分表征()新闻、来源和用户作为主要实体和(2)的立场、友谊和出版是主要的互动。5161722然而,他们没有过多强调表示的质量、实体及其交互的建模以及最少监督的设置。

自然,新闻传播的社会环境可以被表示为一个异质网络,节点和边缘分别代表社会实体和它们之间的相互作用。与现有的基于欧几里得的方法相比,网络表示有几个优点1118就用户回音室或新闻媒体极化网络等现象的结构建模能力而言。图形模型还允许实体通过()均质边,即用户-用户关系、源-源引用;(2)异构边,即用户-新闻立场表达,源-新闻发布;以及(3)高阶接近性(例如,始终支持或拒绝某些来源的用户之间,如图1).这使得异构实体的表示可以相互依赖,不仅可以利用假新闻检测,还可以利用恶意用户检测和源真实性预测等相关任务。在这里,我们致力于通过增强社会实体的表征来提高上下文假新闻的检测。

f1.jpg"height=
图1。社会背景的图形表示。

我们的贡献可以概括如下:

  1. 我们提出了一种新颖的图表表示,它模拟了所有主要的社会行为者及其互动图1).
  2. 我们提出了事实新闻图(FANG),一个有效捕捉社会结构和参与模式的归纳图学习框架,从而提高表示质量。
  3. 我们报告了使用FANG在假新闻检测方面的显著改进,并进一步证明了我们的模型在训练数据有限的情况下是稳健的。
  4. 我们表明,FANG学习到的表征可以推广到相关任务,如预测新闻媒体报道的真实性。
  5. 我们通过其循环聚合器的注意机制来证明FANG的可解释性。

回到顶部

2.相关工作

*"年代rc="https://dl.acm.org/images/bullet.gif2.1.上下文假新闻检测

以往在上下文假新闻检测方面的工作可以根据表示和学习其社会背景的方法进行分类。

欧几里得的方法将社会背景表示为平面向量或实数矩阵。他们通常会学习最接近假新闻预测的社会实体特征的欧几里德变换。16

然而,鉴于我们将社会环境作为一个异质网络的表述,欧几里得表示就不那么有表现力了。尽管开创性的工作使用了用户属性,如人口统计、新闻偏好和社交特征,例如关注者和朋友的数量,21这样的工作并没有捕捉到用户交互的情况,也就是说,他们关注什么样的社会人物,他们喜欢或反对什么新闻话题,等等。此外,在FANG的图形表示中,节点变量不再受独立同分布假设的约束,它们可以通过边缘相互作用来加强彼此的表示。

认识到上述局限性后,研究人员开始探索非欧几里得或几何方法。特别是,他们推广了在对目标用户或新闻源网络建模时使用社会环境的想法,并通过开发捕捉实体结构特征的表示。

捕获、评分和集成(CSI)模型18对用户共享邻接矩阵进行线性降维,并将其与从循环神经网络(RNN)获得的新闻参与特征相结合。

三重关系假新闻(TriFN)检测框架22尽管与我们的方法类似,但既没有根据立场和时间模式区分用户参与,也没有建模源-源引用。此外,矩阵分解方法,如CSI,18在图节点计数方面可能代价高昂,而且对于建模高阶接近性无效。

其他关于引文来源网络的工作,9传播网络,14还有谣言检测2提出的模型仅针对假新闻检测的目标进行优化,没有考虑表示质量,因此它们对有限的训练数据不健壮,不能推广到其他下游任务,如我们在第5节中所示。

*"年代rc="https://dl.acm.org/images/bullet.gif2.2.图神经网络(GNNs)

gnn已经成功地推广了深度学习方法来建模图和流形之间的复杂关系和相互依赖。图卷积网络(GCNs)是第一批有效近似卷积滤波器的方法之一。7然而,gcn在存储整个邻接矩阵时会占用大量的内存。它们也不容易适应我们的异构图,在异构图中,具有不同标签的节点和边显示不同的信息传播模式。此外,GCNs不保证可泛化表示,而且是转导的,需要推断节点在训练时出现。这对于上下文假新闻检测或一般社交网络分析尤其具有挑战性,因为它们的结构在不断演变。

考虑到这些因素,我们在GraphSage上构建我们的工作,它可以通过从节点的本地邻域采样和聚合特征来生成嵌入。4GraphSage在使用参数化随机游走和循环聚合器定义信息传播模式方面提供了很大的灵活性。它非常适合在无监督节点接近损失的情况下进行表示学习,并且在最小监督设置下可以很好地泛化。此外,它使用了一个动态归纳算法,允许在推理时创建不可见的节点和边。

回到顶部

3.方法

*"年代rc="https://dl.acm.org/images/bullet.gif3.1.利用社会语境进行假新闻检测

让我们首先定义社会背景图G其实体和相互作用如图所示图1

  1. 一个= {一个1一个2,…}是的列表新闻文章在问题中,每一个一个= 1, 2,…)被建模为特征向量x一个
  2. 年代= {年代1年代2,…}是的列表新闻来源,每个源年代jj= 1,2,…)发表了至少一篇文章一个并被建模为特征向量x年代
  3. U= {u1u2,…}是的列表社会用户,每个用户ukk= 1, 2,…)在…中传播一篇文章一个或与其他用户连接;uk被建模为特征向量xu
  4. E= {e1e2,…}是的列表相互作用,其中每个e= {v1v2txe}被建模为两个实体之间的关系v1v2一个年代U在时间tt在时间不敏感的交互中不存在。的交互类型e是作为标签给出的吗xe

表2总结了不同类型交互(同质和异质)的特征。姿态是一种特殊的交互类型,因为它不仅具有边缘标签和源/目标节点的特征,而且具有如中的示例所示的时间性表1.最近的工作强调了将时间性纳入假新闻检测的重要性18同时也为在线信息传播建模。

t2.jpg"height=
表2。FANG社交环境网络中的互动。

现在我们可以正式地定义我们的任务如下:

定义3.1。基于上下文的假新闻检测:给定一个社会背景图G= (一个年代UE)根据新闻文章构建一个,新闻来源年代,社交用户U,以及社交活动E,将基于上下文的假新闻检测定义为预测新闻文章是否为假新闻的二元分类任务一个一个是真是假,换句话说,Fc一个→{0,1}

ueq01.gif"年代rc="https://dl.acm.org/cms/attachment/4de19e37-d93b-4869-a07f-5e2e1448dcbe/ueq01.gif

*"年代rc="https://dl.acm.org/images/bullet.gif3.2.从社会背景构建图表

新闻文章。文本22和视觉24通过特征提取、无监督语义编码或学习表示,特征已被广泛用于新闻文章内容的建模。我们使用非监督文本表示,因为它们在构造和优化方面相对高效。对于每一篇文章一个一个,我们构造一个TF。以色列国防军19向量从文章的文本体中获取。我们通过对来自GloVe的预训练的嵌入进行加权来丰富新闻的表示15每个单词的TF。以色列国防军分数,for米我ng a semantic vector. Finally, we concatenate the TF.IDF and the semantic vector to form the news article feature vectorx一个

新闻来源。我们专注于利用新闻媒体网站的文本内容来描述新闻媒体来源。9对于每个源,类似于文章表示年代,构造源特征向量x年代作为其TF的串联。以色列国防军vect或而且我t年代年代e米antic vector derived from the words in the主页关于我们一些假新闻网站公开宣称他们的内容是讽刺或讽刺的。

社会用户。网络用户作为社交媒体虚假新闻和谣言的主要传播者被广泛研究。Shu等人。22对用户档案进行特征分析,指出档案描述和时间轴内容衍生信号的重要性。一种文本描述,例如“美国妈妈受够了反美左派和腐败。我相信美国宪法、自由企业、强大的军队和唐纳德·特朗普#米加强烈表明用户的政治偏见,并倾向于宣传某些叙事。我们构造用户向量xu作为一个TF的串联。以色列国防军vect或而且一个年代e米一个ntic vector derived from the textual description in the user profile.

社会互动。对于每一对社会行动者(vvj)∈一个年代U,我们添加一条边e= {vvjtxe}到社交互动的列表E如果它们通过交互类型链接xe.特别是,对于追随交互时,我们考察用户是否u之前的用户uj;为出版互动时,我们检查是否有新闻文章一个由来源发布年代j;为引用互动,我们检查是否主页年代包含到源代码的超链接年代j.在对时间敏感的相互作用的情况下,出版而且的立场,我们记录它们相对于文章最早发表时间的相对时间戳。

姿态检测。把一篇文章的观点与另一篇文章的观点相比较的任务称为姿态检测。在假新闻检测的背景下,我们感兴趣的是用户回复关于新闻文章标题的立场。我们考虑四种立场:中立的支持或中性的支持,以负面情绪支持或消极的支持否认,报告。

如果一篇文章在清除了表情符号、标点符号、停顿词和url后与文章标题相匹配,我们将其归类为逐字报道。我们训练一个姿态检测器把剩下的柱子分类为支持否认使用我们自己的数据集在社交媒体帖子和新闻文章之间进行立场检测,其中包含来自31个新闻事件的2527个标记源-目标句对。对于每一个带有参考标题的事件,注释者都得到一份相关标题和帖子的列表,并标注每个相关标题或帖子是否支持或否认参考标题的主张。除了参考与标题相关的标题或者是headline-related帖子句对,我们进一步进行了二阶推理相关的标题相关的帖子句子配对。如果这一对对参考标题表达了相似的立场,我们推断a支持姿势相关的标题相关的帖子,否认否则。表3显示关于数据集的统计信息。注释者之间的协议是实质性的,科恩Kappa为0.78。我们微调了一个RoBERTa-large变压器10在此数据上,实现精度0.8857,F1分数0.8379,精度的0.8365,和回忆0.8395。

t3.jpg"height=
表3。关于我们标注了立场的数据集的统计信息。

进一步细分支持我们对Yelp review极性数据集上基于roberta -large的情绪分类器进行了微调。一个总之,用户文章参与的立场e给出为的立场e).

*"年代rc="https://dl.acm.org/images/bullet.gif3.3.事实新闻图(FANG)框架

我们现在在3.2节描述的社会背景图上描述我们的FANG学习框架。图2展示了我们的FANG模型的概述。FANG在对假新闻检测目标进行优化的同时,也学习了对社会实体的可泛化表示。这是通过优化三个并发损失来实现的:()无监督间接损失, (2) self-supervised立场的损失,和(3)监督假新闻检测损失。

f2.jpg"height=
图2。我们的FANG框架概述。

表示学习。我们首先讨论FANG如何衍生出每个社会实体的表征。以前的表示学习框架,如node2vec3.通过抽样图结构定义的邻域计算节点嵌入,然后优化邻近损失,类似于word2vec。这些方法只使用邻域结构,适用于辅助节点特征不可用或不完整的情况,即分别优化每个实体的结构表示。最近,GraphSage4提出了通过允许辅助节点特征与邻近采样联合使用作为表示学习的一部分来克服这一限制。

GraphSage(·)为GraphSage的节点编码函数。因此,我们现在可以得到结构表示zu∈ℝd任何用户和源节点的zrGraphSager),d为结构嵌入维数。对于新闻节点,我们进一步利用用户参与时间性丰富其结构表示,我们在第1节中证明了这一点对假新闻检测的独特性。这可以表述为学习一个聚合函数F一个U)描绘了一条新闻一个以及它的用户U到一个时间的表示cacm6504_a.gif"年代rc="https://dl.acm.org/cms/attachment/18e34cc9-26e9-472e-86bd-f95146a8759c/cacm6504_a.gif捕获一个的参与模式。因此,聚合模型(即聚合器)必须对时间敏感。rnn满足了这一要求:具体来说,具有注意的双向LSTM (Bi-LSTM)可以捕获信息序列中正向和反向的长期依赖关系。12通过观察模型的注意力,我们了解哪些社会背景会影响决策,从而模拟人类的分析能力。

我们建议的LSTM输入是一个用户-文章参与序列{e1e2、……e|U|}。让e)∈ℝl= (时间e),的立场e的串联e的新闻发布后经过的时间和一个单热点姿态向量。每一个接触e有它的代表xe= (zUe)),zUGraphSageU).

Bi-LSTM编码交战序列并输出两个隐藏状态序列:()向前的,cacm6504_b.gif"年代rc="https://dl.acm.org/cms/attachment/7639832f-9c13-4122-919b-18316731dd77/cacm6504_b.gif,由交战程序的开始部分开始,以及(2)一个落后的,cacm6504_c.gif"年代rc="https://dl.acm.org/cms/attachment/9118dd61-0f7d-4c91-89a7-54f83864368c/cacm6504_c.gif这是从交战序列的末尾开始的。

w是我们的Bi-LSTM编码器对前向的注意权重cacm6504_d.gif"年代rc="https://dl.acm.org/cms/attachment/f714171b-dc21-4193-b461-01ceb5143d4e/cacm6504_d.gif对于落后的人cacm6504_e.gif"年代rc="https://dl.acm.org/cms/attachment/23f94e47-d42a-4509-92e2-07f4c5385f6c/cacm6504_e.gif隐藏的状态。这种关注应该来自隐藏状态和新闻特征的相似性,即参与用户与讨论内容的相关性,以及参与的特定时间和立场。因此,我们制定了注意权重w如下:

eq01.gif"年代rc="https://dl.acm.org/cms/attachment/93fa400f-ace8-40b4-bc50-1919980138f9/eq01.gif

在哪里l是元维度,e编码器的尺寸,和e∈ℝd×e而且∈ℝl×1是参与和元特征的可优化投影矩阵,这在所有参与中共享。我们使用w计算前向和后向加权特征向量为cacm6504_f.gif"年代rc="https://dl.acm.org/cms/attachment/2b50a277-463a-49a8-87a8-61cd36f69ac2/cacm6504_f.gif而且cacm6504_g.gif"年代rc="https://dl.acm.org/cms/attachment/1de8114f-2647-45dd-af31-253a3f4aeb0a/cacm6504_g.gif,分别。

最后,我们将前向和后向表示向量进行串联,得到整体的时间表示cacm6504_h.gif"年代rc="https://dl.acm.org/cms/attachment/85cbe78a-15ce-46bd-8990-9cd4705a5246/cacm6504_h.gif的文章一个。通过显式设置2ed,我们可以将时间和结构的表示结合为cacm6504_i.gif"年代rc="https://dl.acm.org/cms/attachment/d6f49833-cfb3-4fb8-bcf7-ddd74f9ac460/cacm6504_i.gif

无监督接近损失。我们推导出间接损失假设紧密联系的社会实体通常行为相似。这是受回音室现象的推动,即社会实体倾向于与其他具有共同利益的实体进行互动,以加强和推广他们的叙事。这种回音室现象包括相互引用的新闻媒体来源发布类似内容或事实性的新闻,以及社交朋友对类似内容的新闻文章表达类似立场。因此,FANG应该将这些附近的实体分配给嵌入空间中的一组近端向量。根据我们对社会实体高度两极分化的观察,我们还假设松散联系的社会实体通常行为不同。因此,我们希望FANG强制这些不同实体的表示是不同的。

定义上述特征最多的社交互动是用户-用户友谊、源-源引用和新闻源发布。由于这些互动要么是(a)信息源与新闻之间的互动,要么是(b)新闻之间的互动,我们将社会背景图分为两个子图,即新闻来源子图而且用户子图。在每个子图中G’,我们制定如下间接损失功能:

eq02.gif"年代rc="https://dl.acm.org/cms/attachment/8a4c8804-7628-4398-af52-fb0eb8bdb749/eq02.gif

在哪里zr∈ℝd是实体的表征吗rPr附近节点的集合是积极组rNr不同节点的集合是负集r,是一个权重因子。Pr是用定长随机游走得到的,且Nr使用负抽样得到。4

自我监督姿态损失。在立场方面,我们也提出了一个类似的假设。如果一个用户表达了对一篇新闻文章的立场,他们各自的表述应该是紧密的。对于每个姿势c,我们首先学习一个用户投影函数αcu) =一个czu和新闻文章投影函数βc一个) =Bcz一个该映射是ℝ的节点表示d到姿态空间中的表示c的ℝdc.给定一个用户u一篇新闻文章一个,我们计算它们在姿态空间中的相似度得分cα(uβ(一个).如果u表达立场c关于一个,我们使这个分数最大化,否则我们使它最小化。这是姿态分类目标,优化使用立场的损失

eq03.gif"年代rc="https://dl.acm.org/cms/attachment/371a863e-0f32-4a18-a083-77f030de2d5d/eq03.gif

在哪里fu一个c) = softmax(αcuβc一个)),

ueq02.gif"年代rc="https://dl.acm.org/cms/attachment/46a152aa-d798-4cd9-8785-733e3742efc2/ueq02.gif

监督假新闻损失。通过监督直接优化了假新闻检测的主要学习目标假新闻损失。以便预测一篇文章是否一个为假时,我们得到它的语境表征,作为它的表征和它的来源的结构表征的串联,即,v一个= (z一个z年代).

这个上下文表示然后输入到一个完全连接的层,其输出计算为o一个Wv一个+b,在那里W∈ℝ2d×1而且b∈ℝ为层的权值和偏差。输出值o一个∈ℝ最后通过sigmoid激活函数σ(·),并使用基于交叉熵的训练假新闻损失l新闻,我们定义如下:

eq04.gif"年代rc="https://dl.acm.org/cms/attachment/0046a005-12d7-4753-ab8f-d37bcd43bf54/eq04.gif

在哪里T是批量大小,y一个如果= 0一个为假,否则为1。

我们通过线性组合这三个分量的损失来定义总损失:l总计L =prox。+ L的立场+ L新闻

回到顶部

4.实验

我们在一个由谣言分类相关工作收集的Twitter数据集上进行了实验813还有假新闻检测。20.对于每一篇文章,我们收集了它的来源、参与用户列表以及他们的推文(如果这些推文在前面的数据集中还没有)。该数据集还包括Twitter配置文件描述和给定目标用户关注的用户的Twitter配置文件列表。我们进一步抓取了关于媒体来源的额外数据,比如他们的内容主页和他们的关于我们页,以及他们经常引用的来源在他们主页。

这些文章的真实性价值——即它们是真是假——是基于两个事实核查网站:Snopes和PolitiFact。我们发布了FANG的源代码和姿态检测数据集。b表4显示关于数据集的一些统计信息。

t4.jpg"height=
表4。关于数据集的统计信息。

回到顶部

4.1.假新闻检测结果

我们将FANG在假新闻检测方面的表现与几个竞争模型进行了比较:()只提供内容的模式,(2)欧几里德情境模型,以及(3)是另一种图形学习模型。

为了将我们的FANG模型与仅内容模型进行比较,我们在TF上使用了支持向量机(SVM)模型。从新闻内容构建的IDF特征向量(见第3.2节)。我们还比较了欧几里得模型CSI,18一个基本而有效的循环编码器,它聚合了用户特征、新闻内容和用户-新闻活动。我们通过将用户的总分和文章表示与我们制定的源描述连接起来,重新实现具有源特征的CSI模型,以获得原始论文中提到的CSI集成模块的结果向量。最后,我们与GCN图形学习框架进行了比较。7首先,我们代表每一个k分离邻接矩阵中的社会互动。然后我们将GCN的输出连接到k邻接矩阵作为每个节点的最终表示,然后将表示通过线性层进行分类。

我们还通过对CSI和FANG的两个变体进行实验,研究了建模时间性的重要性:(时间不敏感CSI(- .t)和FANG(-t),而不时间e)在订婚时e的表示xe,和(2)时间敏感的CSI和FANG与时间e).表5显示宏观结果。我们使用受试者工作特征曲线(AUC ROC;以下简称AUC)。

t5.jpg"height=
表5所示。FANG模型与基线模型假新闻检测的比较,采用AUC评分进行评价。

所有上下文感知模型,即CSI(-t), csi, gcn, fang (-t), FANG与CSI(-t),在AUC评分上与FANG的绝对值为0.1993。这说明考虑社会背景对假新闻的检测是有帮助的。我们进一步观察到,时间敏感CSI和FANG都比它们的时间不敏感变体CSI(-t)和FANG(-t)分别下降0.0233和0.0339。这些结果证明了建立新闻传播时间性模型的重要性。最后,两个基于图的模型FANG(-t)和GCN的性能始终优于欧几里得CSI(-t)分别为0.0501和0.0386:这证明了我们的社交图表示的有效性。总的来说,我们可以得出这样的结论:我们的FANG模型优于其他上下文感知、时间感知和基于图的模型。

回到顶部

5.讨论

为了更好地理解方舟子在不同场景下的表现,我们现在回答以下研究问题:

  • RQ1: FANG在有限的训练数据下工作得好吗?
  • RQ2: FANG是否根据虚假新闻和真实新闻在时间接触中的特征模式来区分它们?
  • RQ3: FANG的表征学习有多有效?

*"年代rc="https://dl.acm.org/images/bullet.gif5.1.有限的训练数据(RQ1)

为了解决RQ1问题,我们使用不同大小的训练数据集进行了4.1节中描述的实验。在有限和充足的数据条件下,我们观察到基线上的持续改进。图3(左)进一步可视化实验结果。我们可以看到,对于所有训练规模(10%、30%、50%、70%和90%的数据),FANG的表现始终优于两条基线。在减小训练规模的AUC评分方面,在基于图的模型中,GCN的性能从90%的0.7064下降到10%的0.5918,下降了16.22%,而FANG的性能从90%的0.7518下降到10%的0.6683,下降了11.11%。我们进一步观察到,CSI的表现下降最少,从90%的训练数据的0.6911下降到10%的数据的0.6363,下降幅度仅为7.93%。另一个来自消融基线的结果,FANG(-年代),我们删除了立场损失,突出了自我监督目标的重要性。在90%的训练数据中,FANG(-年代)的AUC评分仅为1.42%。然而,当训练数据的可用性降低时,这一相对边际增加,在30%的训练数据时,最多为6.39%。总的来说,实验结果强调了我们的模型的有效性,即使在训练数据有限的情况下,与消融版本相比。这证实了RQ1的肯定答案。

f3.jpg"height=
图3。FANG在不同训练数据大小的基线(AUC评分)上的表现(左),以及假新闻与真实新闻在不同时间窗口上的注意力分布(右)。

*"年代rc="https://dl.acm.org/images/bullet.gif5.2.参与时间性研究(RQ2)

为了解决RQ2问题,并验证我们的模型是否基于假新闻和真实新闻之间的独特时间模式做出决策,我们检验了FANG的注意机制。我们积累了FANG在每个时间窗口内产生的注意权重,然后将它们在不同时间窗口之间进行比较。图3(右)显示了假新闻和真新闻的注意力随时间的分布。

我们可以看到,对于假新闻,FANG将68.08%的注意力放在新闻发布后12小时内发生的用户粘性上。在接下来的24小时内,它的注意力急剧下降到18.83%,然后在发布后的36小时至2周内下降到4.14%,最后在第二周之后下降到约9.04%。而对于真正的新闻,FANG只将48.01%的注意力放在前12小时,然后在12 - 36小时和36小时到2周的时间窗口中,这一比例分别下降到17.59%和12.85%。我们还观察到FANG在2周后仍然保持21.53%的注意力。

我们的模型特征与一般观察一致,即假新闻骇人听闻的性质在发布后的短时间内产生了最多的参与。因此,该模型非常强调这些关键的约定是合理的。另一方面,真正的新闻吸引的关注较少,但传播的时间较长,这也解释了FANG在新闻发布2周后仍然持续关注的原因。总的来说,这里的时间性研究突出了我们模型决策的透明度,这主要归功于合并的注意机制。

*"年代rc="https://dl.acm.org/images/bullet.gif5.3.表示学习(RQ3)

在本征评价中,我们验证了最小监督新闻表示对于假新闻检测任务的泛化程度。我们首先在30%的训练数据上优化GCN和FANG,以获得新闻表示。然后我们使用无监督聚类算法OPTICS对这些表示进行聚类。1同质性得分越高,表明具有相同真实性标签(即虚假或真实)的新闻文章越接近,呈现质量越高。

在外部评估中,我们验证监督源表示对于一个新任务:源真实性预测的可泛化程度。我们首先在90%的训练数据上训练FANG,以获得所有的源年代表示为z年代GraphSage年代),总表示为v年代= (z年代x年代一个发布年代x一个,在那里x年代发布年代),x一个标明来源年代内容表示,列出所有发表的文章年代,及其内容表示。

我们提出了两种不考虑源内容的基线表示年代cacm6504_j.gif"年代rc="https://dl.acm.org/cms/attachment/74365d56-9da5-4050-b881-0164744c5867/cacm6504_j.gif.最后,我们训练两个独立的支持向量机模型v年代而且cacm6504_k.gif"年代rc="https://dl.acm.org/cms/attachment/d77774d6-2c00-4c25-9916-3611ae12dbd0/cacm6504_k.gif来源真实性数据集,包括129个高真实性来源和103个低真实性来源,来自媒体偏见/事实核查c和政治真相。d

对于内在评价,标签FANG表示的主成分分析(PCA)图(见图4(左上)显示了假新闻和真实新闻组的适度搭配,而标记GCN表示的PCA图(见图4(左下)显示假新闻组和真新闻组之间几乎没有搭配。定量上,FANG的OPTICS集群(如图所示)图4基于新闻真实性标签的同质性评分为0.051,而GCN OPTICS集群的同质性评分为0.0006。这个内在的评估证明了FANG在假新闻组和真实新闻组中强大的表示紧密性,表明FANG比另一个完全监督的图神经框架产生了更好的表示。

f4.jpg"height=
图4。FANG的带有事实性标签(左上)和OPTICS聚类标签(右上)的表示和GCN的带有事实性标签(左下)和OPTICS聚类标签(右下)的新闻表示的2D PCA图。

对于下游源真实性分类的外部评估,我们的上下文感知模型的AUC得分为0.8049(与基线的0.5842相比)。我们进一步检查了FANG表示,以寻找解释这0.2207绝对改善的来源。图5显示从文本特征、GCN和FANG获得的源表示及其真实性标签,即,混合,以及引用的关系。在左图子图中,我们可以观察到,文本特征不足以区分媒体的真实性,如假新闻网站cnsnews可以在网页设计和新闻内容方面模仿事实媒体。

f5.jpg"height=
图5。使用文本特征(左)、GCN(中)和带有事实标签的FANG(右)表示源的图。

然而,低事实性网站和高事实性网站之间的引数就不会那么高,这被GCN和FANG这两个图学习框架有效地利用了。然而,GCN未能区分低事实性和高引用的网站,如jewsnews.co.il而且cnsnews,来自高真实性网站。另一方面,来源如news.yahoo尽管文本不同,如所示图5(左),应该仍然与其他可靠的媒体聚集,因为他们的高拦截频率。FANG更加强调上下文表示学习,使这些来源更容易区分。它的表现空间让我们可以一瞥新闻媒体的景观,在那里有一个大的中央集群的高真实性相互引用的来源,如《纽约时报》华盛顿邮报,news.yahoo处于边缘的是联系较少的媒体,包括高真实性和低真实性的媒体。

我们也看到所有模型都不能区分混合事实媒体的情况,例如buzzfeednews而且nypost,它们在高真实性的媒体上有很高的引用次数。总的来说,内在评价和外在评价的结果以及观察的结果都证实了RQ3对FANG表示学习的改善。

*"年代rc="https://dl.acm.org/images/bullet.gif5.4.可伸缩的感应

FANG虽然可以推断不可见节点的可信度,但克服了以往方法的转导局限性。MVDAM9必须随机初始化一个嵌入和优化它迭代使用node2vec3.而FANG则直接用它学到的特征聚合器推断嵌入。

其他使用矩阵分解的图形方法22或者是图的卷积层214学习维数固定于网络大小的参数N而且可以贵到ON3.2在推理时间方面。FANG在不使用邻接矩阵的情况下推断不可见节点的嵌入,其推理时间仅依赖于不可见节点的邻域大小。

*"年代rc="https://dl.acm.org/images/bullet.gif5.5.限制

我们注意到,实体和交互特征是在传递给FANG之前构造的,因此来自上游任务的错误,如文本编码或立场检测,会传播到FANG。未来的工作可以在端到端框架中解决这个问题,文本编码和姿态检测可以联合优化。

另一个限制是,用于上下文假新闻检测的数据集可能很快就会过时,因为发布时的超链接和社交媒体痕迹可能不再可检索。

回到顶部

6.总结与未来工作

我们已经证明了在假新闻检测任务中建模社会背景的重要性。我们进一步提出了FANG(一种图学习框架),它通过捕捉用户、文章和媒体之间丰富的社交互动来提高表示质量,从而提高假新闻检测和来源真实性预测。我们已经证明了FANG在有限的训练数据下的效率,以及它用高度可解释的注意机制捕捉假新闻和真实新闻之间独特的时间模式的能力。在未来的工作中,我们计划对社交用户的表征进行更多的分析。我们进一步计划应用多任务学习,共同解决假新闻检测、消息源真实性预测和回音室发现等任务。

回到顶部

参考文献

1.安克斯特,布鲁尼格,m.m.,克里格尔,h。p。,年代一个nder,J. OPTICS: Ordering Points to Identify the Clustering Structure.ACM SIGMOD Rec. 28, 2(1999), 49-60。

2.郑董,M, B。,挂,N.Q.V,苏,H。,g .多个检测与图像卷积网络谣言来源。在28人会议记录thACM信息与知识管理国际会议(CIKM’19)。计算机协会,纽约,纽约,美国,2019,569 - 578。DOI:https://doi.org/10.1145/3357384.3357994

3.Node2vec:面向网络的可扩展特征学习。在二十二届会议的会议记录ndACM SIGKDD知识发现和数据挖掘国际会议(KDD '16)。计算机协会,纽约,纽约,美国,2016,855-864。DOI:https://doi.org/10.1145/2939672.2939754

4.张晓明,张晓明,张晓明。大型图的归纳表示学习。在31人的议事录神经信息处理系统国际会议(NIPS'17)。Curran Associates Inc., Red Hook, NY, USA, 2017,1025 - 1035。

5.金铮,曹俊,姜玉刚,曹军。,Zhang, Y. News credibility evaluation on microblog with a hierarchical propagation model. In2014 IEEE数据挖掘国际会议,ICDM 2014(2014年12月14-17日,中国深圳)。库玛尔、托伊沃宁、裴杰、黄建宗、吴旭编。2014年,230 - 239。DOI:10.1109 / ICDM.2014.91

6.靳铮,曹军,张勇,罗杰。利用微博社会冲突观点进行新闻验证。在人工智能第三十届AAAI会议论文集。美国AAAI出版社,凤凰城,亚利桑那州,2016,2972-2978。

7.张晓明,张晓明。基于图卷积网络的半监督分类。在5th2017年学习表征国际会议(2017年4月24日至26日,法国土伦)。会议跟踪记录。Opgehaal van, 2017。https://openreview.net/forum?id=SJU4ayYgl

8.Kochkina, E., Liakata, M., Zubiaga, A.谣言检测和准确性分类的PHEME数据集(版本1)。2018.DOI:https://doi.org/10.6084/m9.figshare.6392078.v1

9.叶建军,王维银,叶建军,王维银。基于多视角的新闻文章政治意识形态检测模型。在2018年自然语言处理经验方法会议论文集, 2018, 3518-3527。DOI:10.18653 / v1 / d18 - 1388

10.Liu, Y., Ott, M., Goyal, N., Jingfei D., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., Stoyanov, V. RoBERTa:一种鲁棒优化的BERT预训练方法。arXiv: 1907.11692(2019)。

11.刘勇,吴玉峰。基于循环卷积网络传播路径分类的社交媒体假新闻早期检测。在第三十二届AAAI人工智能会议和第三十届人工智能创新应用会议及第八届AAAI人工智能教育进展研讨会论文集(AAAI'18/IAAI'18/EAAI'18)。aai出版社,第44条,2018,354-361。

12.吕婷婷,范慧敏,张文华。基于注意力的神经网络机器翻译的有效方法。2015年自然语言处理经验方法会议论文集,2015,1412-1421。DOI:10.18653 / v1 / d15 - 1166

13.妈,J。,高,W,密特拉,P, Kwon年代,詹森,黄,K.-F研究。,Cha, M. Detecting rumors from microblogs with recurrent neural networks. In第25届人工智能国际联合会议论文集(IJCAI'16)。AAAI出版社,2016,3818-3824。

14.Monti, F., Frasca, F., Eynard, D., Mannion, D., Bronstein, M.M.利用几何深度学习在社交媒体上检测假新闻。arXiv预打印arXiv:1902.06673(2019)。

15.彭宁顿,索彻,R,曼宁,C.手套:词表示的全局向量。在2014年自然语言处理经验方法会议论文集, 2014, 1532-1543。DOI:10.3115 / v1 / d14 - 1162

16.王晓燕,王晓燕,王晓燕。网络文本声明的可信度评估(英文):Strötgen在二十五次会议的会议记录thACM信息与知识管理国际会议(CIKM '16)。计算机协会,纽约,纽约,美国,2016,2173-2178。DOI:https://doi.org/10.1145/2983323.2983661

17.Popat, K., Mukherjee, S., Strötgen, J., Weikum, G.真相所在:解释网络和社交媒体上新兴声明的可信度。在二十六届会议的议事录th万维网伙伴国际会议(WWW '17 Companion)。国际万维网会议指导委员会,日内瓦共和国和州,CHE, 2017,1003 - 1012。DOI:https://doi.org/10.1145/3041021.3055133

18.鲁尚斯基(N.),徐S.,刘旸。CSI:假新闻检测的混合深度模型。在2017年ACM信息与知识管理会议论文集(CIKM’17)。计算机协会,纽约,纽约,美国,2017,797 - 806。DOI:https://doi.org/10.1145/3132847.3132877

19.索尔顿、麦吉尔、M.J.现代信息检索导论“,”麦格劳-希尔公司,美国,1986年。

20.Shu K., Mahudeswaran, D., Wang S., Lee D., Liu H. FakeNewsNet:一个包含新闻内容、社会背景和动态信息的数据仓库,用于研究社交媒体上的假新闻。大数据8, 3(2020), 171-188。

21.舒凯,斯丽瓦,王淑娟,唐杰,刘宏。基于数据挖掘视角的社交媒体假新闻检测。ACM SIGKDD explorer。通讯19, 1(2017), 22-36。

22.舒凯,王淑华,刘浩。超越新闻内容:社会语境对假新闻检测的作用。在第十二届ACM网络搜索和数据挖掘国际会议论文集(WSDM’19)。计算机协会,纽约,纽约,美国,2019,312-320。DOI:https://doi.org/10.1145/3289600.3290994

23.索恩,J., Vlachos, A.自动化事实核查:任务制定、方法和未来方向。在E.M.本德,L. Derczynski, P. Isabelle,编。27国会议记录th2018年计算语言学国际会议(2018年8月20日至26日,美国新墨西哥州圣达菲市)。2018年,3346 - 3359。Opgehaal范。https://aclanthology.org/C18-1283/

24.王玉玉,马芳,金志勇,袁玉玉,迅光,贾哈,柯凯,苏丽丽,高俊,EANN:多模态假新闻检测中的事件对抗神经网络。在二十四人会议记录thACM SIGKDD知识发现与数据挖掘国际会议(KDD '18)。计算机协会,纽约,纽约,美国,2018,849 - 857。DOI:https://doi.org/10.1145/3219819.3219903

回到顶部

作者

Van-Hoang阮vhnguyen@u.nus.edu),新加坡国立大学,新加坡。

夫妇Sugiyamakaz.sugiyarna@i.kyoto-u.ac.jp),京都大学,日本京都。

Preslav Nakovpnakov@hbku.edu.qa),卡塔尔计算研究所,HBKU,卡塔尔多哈。

Min-Yen菅直人kanmy@comp.nus.edu.sg),新加坡国立大学,新加坡。

回到顶部

脚注

一个。https://www.kaggle.com/irustandi/yelp-review-polarity,最后访问2021年5月18日。

b。http://github.com/nguyenvanhoang7398/FANG

c。http://www.mediabiasfactcheck.com

d。http://politifact.com

要查看附带的技术透视图,请访问doi.acm.org/10.1145/3517213

这篇论文的原始版本发表在29人会议记录thACM实习生。信息与知识管理会议2020年10月。


©2022 acm 0001-0782/22/4

允许为个人或课堂使用部分或全部作品制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。除ACM外,本作品的其他组件的版权必须受到尊重。允许有信用的文摘。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,都需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org传真(212)869-0481。

数字图书馆是由计算机协会出版的。版权所有©2022 ACM, Inc.


没有找到条目

登录全面访问
忘记密码? »创建ACM Web帐号
文章内容:
Baidu
map