acm-header
登录

ACM通信

ACM新闻

认识到亲戚


一个可以从图像中找出一个人的亲戚的人工智能系统可能有很多潜在的用途。

面部识别技术在识别图像相似性方面越来越好,从而识别出人们是家庭成员。

来源:psychologicalscience.org

人脸识别不再是计算机视觉系统的挑战。这项技术现在广泛应用于日常活动中,比如查看手机解锁或在机场检查身份。但是,对人工智能(AI)来说,通过面部识别家庭成员是一项更加困难的任务。

“这是一种人脸识别问题,但实际上人脸并不是那么相似,”解释道尤西·凯勒他是以色列拉马特甘巴尔伊兰大学深度学习实验室的副教授和联合创始人。“相似之处是存在的,但我要说的是,它非常含蓄,隐藏得很好。”

一个可以从图像中找出一个人的亲戚的人工智能系统可能有很多潜在的用途。亲属识别系统有助于识别在网上被剥削的儿童,这些儿童的照片可能不在图像数据库中,但其家庭成员可能在数据库中。它们还可以促进使被分离的难民家庭团聚的任务。“在不同的营地使用低成本的安全摄像头,我们可以把家庭联系在一起,”他说约瑟夫•罗宾逊他最近在去年6月在加利福尼亚州长滩举行的计算机视觉和模式识别大会(CVPR 2019)上展示了他的工作。

社交媒体应用程序和照片分享网站也可以使用该技术对包含家庭成员的照片进行分类。此外,它还可以帮助学者们进行涉及历史谱系的研究,或者用来识别祖先遗址上失散已久的亲属。

计算机视觉研究人员已经研究这个问题20多年了。最初,类似的面部特征,如眼睛颜色或鼻子形状,都是人工选择的。但是,很难得到准确的结果,因为共同特征并不总是明显的,而且每个家庭都不同。

现在,利用卷积神经网络(CNNs)的深度学习可以做得更好。

“我们要求机器找出区分家庭成员的最佳特征,”他说Abdenour哈迪德他是芬兰奥卢大学计算机视觉专业的兼职教授。“我们给我们的机器提供了很多家庭成员和非家庭成员的例子,以便它能够学习。”

与标准的面部识别相比,在识别亲属时存在更多的混杂因素。例如,挑选不同性别的亲戚就增加了一层额外的复杂性。如果有父母双方的照片,而不是只有一张,孩子也更容易被识别。据罗宾逊说,年龄差异似乎是最大的障碍。“我们注意到,小孩子往往是失败的案例,因为随着人们年龄的增长,他们看起来更像他们的父母,”他说。

罗宾逊和他的同事们发现,当他们有成年子女的照片和他们父母有孩子时的照片时,他们的系统表现最好。研究人员发现,在某些情况下,他们可以通过添加其他家庭成员的照片来缩小年龄差距(例如,如果同时提供孩子的父母的照片,祖父和他的孙子就更容易匹配)。

亲属识别系统正在改进,现在当提供高质量的图像时,它可以运行良好。然而,CNN算法是自己学习的,所以研究人员不知道它们在做什么来完成任务。哈迪德说:“这基本上就是一个黑匣子。”

在早期的亲属识别工作中,不了解算法是如何工作的被证明是有问题的。早期的家庭图像数据库使用所有家庭成员的集体照片。一个最近的一篇论文显示cnn似乎能够以超过90%的准确率识别家庭成员,但他们在完成任务时是在作弊。“算法只是在学习从相同的图像中识别(面部)作物,”Keller说。“这意味着我们的算法是有偏见的,其他所有使用老式数据集的论文也是如此。”

一个名为野外家庭(FIW)的数据集由罗宾逊和他的团队创造的,现在是亲属自动识别研究的黄金标准。它不受团体照片问题的影响,是目前最大、最全面的家庭图像数据集,最新发布的数据包含约5万张面孔。这些图片被排列成一百多万对面孔,代表着不同的关系,比如父女关系和姐妹关系。cnn使用它们来确定两张脸是否有血缘关系,这一任务被称为亲属关系验证。

FIW数据集是提高亲属关系识别系统性能的关键。这个图片集包含了来自不同国家的家庭照片,从美国到中国,所以它很好地代表了世界各地真实的家庭。它也足够大,可以推动数据驱动的模型。罗宾逊说:“现在我们正处于开始构建更多现实问题的阶段,以帮助大规模搜索和检索等更实际的应用。”“三年前,这是不可想象的。”

去年发表的一篇论文,罗宾逊和他的同事们证明,他们经过微调的CNN算法可以比人类更好地识别家庭成员。这项研究使用的是FIW的旧版本,有超过1.3万张家庭照片组成1000个家谱,但他们的系统识别亲属的能力比人类高出15%。

亲属关系识别通常专注于静态图像,但现在正通过使用不同类型的数据进行扩展,如视频和语音记录。哈迪德和他的同事证明了这一点通过视频可以更容易地识别家庭关系因为它们提供了一个人如何移动的信息,这通常与他们的亲属的移动方式类似。哈迪德说:“它们还能显示你的手势,你看的样子,你微笑的方式,你移动眼睛的方式。”“所以这可以提供额外的信息,视频比图像效果更好。”

哈迪德和他的团队最近开始探索家庭成员声音的录音是否可以用于亲属识别。例如,父母和孩子说话的方式通常有相似之处,研究人员正试图了解这些共同属性。在初步的测试中,声音信息似乎与静态面部图像的结果相似.我

然而,结合不同来源的数据,如面孔和声音,是一种能够最有效地确定亲属关系的策略。如果一个来源不可靠,拥有多种类型的数据可以帮助补偿。在不同的情况下,某些类型的数据可能更可取;例如,在嘈杂的火车站,面部图像可以提供更高质量的数据,而在黑暗、安静的地方,声音则是更好的信息来源。

有些家庭可能有相似的面孔,但没有声音,而另一些家庭的情况可能相反。考虑到这一点,应视情况而定,更多地考虑某些数据来源。哈迪德说:“我们必须找到使我们的组合适应每种情况的最佳方法。”“这就是挑战。”

Sandrine Ceurstemont是英国伦敦的自由科学作家


没有发现记录

登录为完全访问
»忘记密码? »创建ACM Web帐号
Baidu
map