acm-header
登录

ACM通信

研究突出了

SoundWatch:深度学习在智能手表上的声音易用性


SoundWatch与声波插图

智能手表有可能为失聪或听力困难的人提供一目了然的、随时可用的声音反馈(DHH)。我们推出了基于智能手表的深度学习应用程序SoundWatch,用于感知、分类环境中发生的声音,并提供反馈。为了设计SoundWatch,我们首先研究了四种跨四种设备架构的低资源声音分类模型:仅限手表、手表+手机、手表+手机+云以及手表+云。我们发现,最佳模型VGG-lite的性能与非便携设备的最先进水平相似,尽管需要的内存大大减少(约为1/3)理查德·道金斯),手表+手机架构在CPU、内存、网络使用和延迟之间提供了最佳平衡。基于这些结果,我们与8名DHH参与者建立并对我们的智能手表应用程序进行了实验室评估。我们发现了对我们的声音分类应用程序的支持,但也发现了错误分类、延迟和隐私的问题。

回到顶部

1.简介

智能手表有可能在多种情况下为失聪或听力困难的人提供一目了然的、随时可用的声音反馈。3.517最近一项针对201名DHH参与者的调查3.与智能手机和头戴式显示器(HMDs)相比,由于隐私、社会可接受性以及视觉和触觉反馈的综合支持,智能手表是最受欢迎的非语音声音感知设备。

然而,以往在可穿戴声音感知方面的大部分工作都集中在智能手机上,120.HMDs,69或者定制可穿戴设备13通过单一的形式(如视觉)提供有限的信息(如响度)。特别是智能手表,研究人员检查了声音反馈的造型设计原型,517但这些原型没有包括我们的重点——自动声音分类。此外,尽管最近的深度学习研究(例如,见Jain et al.;11)研究了自动分类声音的模型,这些基于云或笔记本电脑的模型对内存和处理能力的要求很高,不适合低资源的便携式设备。

在上述研究的基础上,我们提出了两项基于智能手表的研究和一个基于智能手表的定制应用程序,称为SoundWatch(见图1).为了设计SoundWatch,我们首先定量分析了四种最先进的低资源深度学习声音分类模型:ResNet-lite MobileNet,《盗梦空间》模型的量子化版本HomeSound11我们称之为VGG-lite,横跨四个设备架构:仅限手表、手表+手机、手表+手机+云和手表+云。有意选择这些方法来检查计算和网络需求、电力效率、数据隐私和延迟方面的权衡。尽管与之前的工作进行直接比较具有挑战性,但我们的实验表明,最佳分类模型(VGG-lite)的性能与非便携设备的最先进水平类似,尽管需要的内存大大减少(约为1/3)理查德·道金斯).我们还观察到一个严格的准确性-延迟权衡:最准确的模型是最慢的。最后,我们发现两种基于手机的架构(手表+手机和手表+手机+云)在CPU、内存、电池使用量和端到端延迟方面优于以手表为中心的设计(仅手表和手表+云)。

f1.jpg
图1。我们的不同用例SoundWatch语音分类app,四大架构之一(手表+手机)。

在这些定量实验的基础上,我们建立了SoundWatch,并对8名DHH参与者进行了定性实验室评估。SoundWatch整合了我们系统实验中性能最好的分类模型(VGG-lite),为了评估的目的,它可以在所有四种设备架构之间切换。在90分钟的研究过程中,参与者在大学校园的三个地点使用我们的原型(像家一样的休息室、办公室和户外),并参加了一个半结构化的采访,介绍他们的体验、他们对准确性-延迟权衡和隐私的看法,以及对未来可穿戴声音感知技术的想法和担忧。我们发现,所有参与者都普遍赞赏所有背景下的SoundWatch,重申了过去的声音意识工作。3.5然而,错误分类是令人担忧的,特别是在户外,因为背景噪音。为了准确-延迟的权衡,参与者希望紧急声音(如汽车喇叭和火灾警报)的延迟最小,以采取任何必要的行动,但非紧急声音(如语音和背景噪音)的准确性最大,以避免不必要的干扰。最后,考虑到云端的隐私、多功能性(不需要互联网连接)和速度(手表+手机比手表更快),参与者选择了手表+手机作为最受欢迎的架构。

总之,我们的工作有助于:(1)移动设备上声音分类的深度学习模型的比较;(2)基于智能手表的新型声音识别系统,名为SoundWatch,支持四种设备架构;(3)来自8个DHH用户现场评估的定性见解,例如对我们的设计、架构和未来实现的想法的反应。

本文基于我们早期的资产票据。12自这篇论文于2020年6月被接受以来,情况发生了很大变化。我们公开了SoundWatch的代码库(https://bit.ly/3bvgCLI),我们的工作有助于指导后续的文献(例如,见Guo et al.)。7).SoundWatch应用程序现在可以在谷歌播放商店(https://bit.ly/3bpEPTF, 500+下载量)。此外,声音识别还集成到两个主要的移动平台:苹果iOS和谷歌Android,这证明了我们工作的影响。

回到顶部

2.相关工作

我们将我们的工作定位于声音意识需求、声音意识工具和声音分类研究。

*2.1.声音感知的需求

形成性研究考察了DHH用户想要的声音、声音特征和反馈方式。为了听起来有趣,有两项大规模的调查13.DHH显示,人们最喜欢紧急和安全相关的声音(如警报声),其次是电器警报(如微波炉的哔哔声)和有人在场的声音(如敲门声)。这些偏好可能受到文化因素的影响:喜欢口头交流的人可能对某些声音(如电话铃声和对话)比喜欢手语的人更感兴趣。13.

除了这些声音之外,DHH用户更希望获得关于某些声音特征的信息(例如,身份、位置和发生时间),而不是其他信息(例如,响度、持续时间和音调)。515然而,这些特性的效用可能因地点而异。例如,在家里,对声音的身份和位置的感知可能就足够了,1011但在移动领域,方向性指标更为重要。5除了位置,社会环境(例如,朋友vs陌生人)也会影响声音感知工具的使用,3.因此提供定制选项是关键(例如,使用声音过滤菜单)。

在反馈方式方面,研究建议结合视觉和振动信息的声音意识517;智能手表可以同时提供这两种功能。在这两种模式中,先前的工作建议使用振动来通知声音的出现,使用视觉来显示更多的信息110——我们也在探索——尽管最近的一项研究表明,使用复杂的振动模式来传达更丰富的反馈(例如,方向)是有价值的。5

我们在上述研究的基础上,通过跨环境检查智能手表原型的使用,并揭示系统设计的定性反应和建议。

*2.2.声音感知技术

声音意识的早期研究研究了戴在手腕上的振动触觉解决方案,主要是通过传递语音语调来辅助语音治疗22或频率21;这项工作是对我们对非言语声音意识的关注的补充。最近的工作研究了非语音声音感知的固定解决方案,比如在桌面显示器上。15虽然这些解决方案对于特定的应用程序很有用,但对于多个上下文并不有利。对于便携式解决方案,Bragg等。1和思聪等。20.使用智能手机识别和显示声音身份(例如,电话铃声和警报声)。然而,他们评估他们的应用程序在一个单一的环境(办公室1或者聋哑学校20.)以及关注用户界面而不是系统性能——这两者都对用户体验至关重要。

除了智能手机,可穿戴的解决方案,如hmd69和戴设备13已被确认。例如,戈尔曼6和Kaneko等人。13显示声源的位置分别在HMD和定制的腕式设备上。我们探索智能手表提供声音识别,DHH用户最期望的声音属性。115虽然不是特别专注于智能手表,Jain等人。11研究了智能手表作为智能家居显示器的补充报警设备,智能家居显示器在本地感知和处理声音信息,并将其广播给手表;我们研究了一个独立的智能手表解决方案。

总之,尽管之前的工作已经探索了DHH人群的声音意识工具,例如便携式设备,6913这项工作还没有建立和评估一个可行的基于智能手表的解决方案,这是我们在工作中解决的一个差距。

*2.3.声音分类研究

早期对声音进行分类的努力依赖于手工制作的特征,如零穿越率、帧功率和音调。1418尽管它们在干净的声音文件中表现得相当好,但这些特征无法解释现场的声学变化(例如背景噪音)。14最近,基于机器学习的分类技术在射击检测或入侵者警报系统等特定的现场任务中显示出了希望。4对于广泛的用例,已经研究了基于深度学习的解决方案。1120.例如,思聪等人。20.探索了智能手机上的一种轻量级卷积神经网络(CNN),对DHH用户在学校环境中喜欢的9种声音(如火警和门铃)进行了分类。耆那教等。11使用平板电脑上运行的深度cnn对DHH用户家中的声音进行分类,总体准确率达到85.9%。我们在工作中密切遵循后一种方法,将其应用于低资源设备(手机和手表),并在多种环境(家庭、工作和户外)中进行评估。

回到顶部

3.Soundwatch系统

SoundWatch是一款基于android的应用程序,专为商用智能手表设计,在多种环境下提供可浏览的、始终可用的和私人的声音反馈。基于之前的工作,511SoundWatch通过可定制的视觉和振动声音警报告知用户三个关键的声音属性:身份、响度和发生时间(参见图1而且3.).我们使用基于深度学习的声音分类引擎(在手表、配对手机或云上运行)持续实时感知和处理声音事件。在这里,我们描述了我们的声音分类引擎、保护隐私的声音感知管道、系统架构和实现。我们的代码库是开源的:https://bit.ly/3bvgCLI

*3.1.声音分类引擎

为了创建一个健壮的、实时的声音分类引擎,我们遵循了类似的方法HomeSound11该模型采用迁移学习方法,采用基于深度cnn的图像分类模型(VGG)进行声音分类。我们下载了三个最近发布(于2020年1月)的小型设备图像分类网络:MobileNet3.4 mb;《盗梦空间》,41个mb;而且ResNet-lite, 178.3MB,我们在HomeSound中使用了量化版本的网络,11我们称之为VGG-lite, 281.8MB。我们假设每个网络将提供不同的精度和延迟权衡。

为了进行迁移学习,与Jain等人类似,11我们使用了一个大型的声音效果库语料库—每个语料库都提供了一个高质量的预先标记的声音集合。DHH人群喜欢的20种常见声音样本(例如,狗叫、敲门和说话)13.从六个图书馆下载:bbc、Freesound、Network Sound、UPC、TUT和TAU。所有的声音片段被转换为单一格式(16KHz, 16位,单声道),并删除超过1秒的沉默,产生了35.6小时的录音。我们将声音分类为三类(参见表1):高优先级(包含DHH人员最希望听到的三个声音115);中等优先级的声音(10个声音);以及所有的声音(20个声音)。最后,我们采用了Hershey等人的方法。8计算每个类别的日志谱图特征,然后将其输入到四个网络,为每个架构生成三个模型(共12个)。

t1.jpg
表1。用于训练声音分类模型的声音和类别。

*3.2.声音感应管道

对于一直在监听的应用程序来说,隐私是一个关键问题。虽然SoundWatch依靠的是一个live麦克风,但我们设计了传感管道来保护用户隐私。该系统在手表或手机上本地处理声音,在基于云架构的情况下,只上传低维meld谱图特征。虽然这些特征可以用来识别语音活动,但语音内容很难恢复。对于信号处理,我们采用滑动窗口方法:手表以16KHz对麦克风进行采样,并将数据分成1秒的缓冲区(16000个样本),这些缓冲区被输入声音分类引擎。为了提取响度,我们计算窗口内的平均振幅。所有置信度在50%或以上、音量在45dB的声音都会被通知;其他人将被忽略。

*3.3.系统架构

我们为SoundWatch实现了四种设备架构:仅限手表、手表+手机、手表+云以及手表+手机+云(见图2).因为声音分类引擎(计算特性和预测声音)是资源密集型的,后三个架构使用更强大的设备(电话或云)来运行模型。对于基于云的架构,声音特性在发送到云之前会进行计算,以保护用户隐私——也就是说,在手表(手表+云)或手机(手表+手机+云)上。在通信方面,我们使用蓝牙低能耗(BLE)技术来连接手表-手机和WiFi,或者使用蜂窝网络来连接手表-云或手机-云。

f2.jpg
图2。四个SoundWatch架构及其传感管道的示意图。块宽度仅用于说明,并不表示实际计算时间。

*3.4.用户界面

为了便于浏览,我们将SoundWatch应用设计为推送通知;当一个机密的声音事件发生时,手表会显示一个通知和震动警报。显示包括声音身份、分类置信度、响度和发生时间(参见图3).重要的是,每个用户都可以通过点击“10分钟”静音按钮,或通过点击“打开”按钮,从滚动列表中选择静音选项(1分钟、5分钟、10分钟、1小时、1天或永远)来静音提醒的声音。此外,用户可以使用配对手机应用程序上的定制菜单来过滤任何声音的提醒图3 d).虽然未来的版本应该在Android中作为一个始终可用的服务运行,但目前,应用程序必须在手表上显式打开(见图3一).一旦打开,应用程序就会在后台持续运行。

f3.jpg
图3。SoundWatch的用户界面显示(a)有开始录音按钮的打开屏幕,(b)有“10分钟”静音按钮的通知屏幕,(c)有更多静音选项的主应用程序屏幕,以及(d)成对的手机应用程序,用于定制启用的声音列表。

回到顶部

4.系统评价

为了评估SoundWatch系统的性能,我们进行了两组评估:(1)比较四种最先进的小型设备声音分类模型;(2)比较四种架构:仅限手表、手表+手机、手表+云以及手表+手机+云。在所有的实验中,我们都使用了Ticwatch Pro Android手表(4×1.2GHz, 1GB RAM)和荣耀7x Android手机(8×2GHz, 3GB RAM)。为了模拟云,我们使用了运行Windows 10的Intel i7桌面(4×2.5GHz, 16GB RAM)。

*4.1.模型比较

我们对这四种模型的分类精度和延迟进行了评估。

准确性。为了计算模型的“野外”精度,我们收集了我们自己类似的“自然”数据集Home-Sound。11我们从9个地点(3个家庭,3个办公室和3个户外)录制了20个声音课程,使用与SoundWatch相同的硬件:带内置麦克风的Ticwatch Pro。对于每个声音类,我们在三个距离(5、10和15英尺)上记录三个10秒的样本。在可能的情况下,我们会自然地发出声音(例如,敲击或使用微波炉)。对于某些难以产生的声音,比如火灾警报,我们用外接扬声器在笔记本电脑或手机上播放预定义的视频片段(总共使用了54个视频)。总共收集了540条录音(约1.5小时)。

在测试我们的模型之前,我们将录音分成三类(所有声音、高优先级和中等优先级),类似于我们的训练集(参见表1).对于中等优先级和高优先级测试集,20%的声音数据来自被排除的类别,我们的模型应该忽略这些类别(称为“未知”类)。例如,高优先级测试集包括来自三个高优先级类别(火灾/烟雾报警器、闹钟和敲门)之外的20%的录音。

图4显示将声音分类到每个类别的结果。总体而言,VGG-lite表现最好(平均推断精度= 81.2%,SD= 5.8%)其次是ResNet-lite (65.1%,SD= 10.7%)、《盗梦空间》(38.3%,SD= 17.1%), MobileNet (26.5%,SD= 12.3%);对所有声音的单向重复测量方差分析产生了模型对准确性的显著影响(F3, 2156= 683.9,p<措施)。正如预期的那样,随着声音数量从所有(20个声音)减少到中等(10个声音)和高优先级(3个声音),推断的准确性增加了。在分析性能作为环境的功能时,所有车型的家庭和办公室性能都优于户外。以VGG-lite为例,平均准确率为88.6% (SD家庭为86.4% (3.1%)SD= 4.3%), 71.2% (SD= 8.2%)。事后检查发现户外录音受到背景噪音的干扰。

f4.jpg
图4。四种模型对三种声音类别和三种语境的平均准确率(和标准差)。图中的误差条显示了95%的置信区间。

为了评估类间错误,我们计算了中等优先级声音的混淆矩阵。尽管每个类别的精度在不同的型号中有所不同,微波、敲门和洗衣机/烘干机始终是表现最好的类别,VGG-lite实现了100%的平均精度(SD= 0), 100% (SD= 0), 96.3% (SD= 2.3%),分别为。表现最差的类别更依赖于模型,但通常包括闹钟、电话铃声和警报器,其中VGG-lite类达到77.8% (SD= 8.2%), 81.5% (SD=4.4%),以及88.9% (SD= 3.8%),分别为。对于这些表现不佳的班级,出现了可以理解的混淆,比如类似的声音事件(如闹钟和电话铃声)混淆。

延迟。低延迟是实现实时声音识别系统的关键。为了评估模型延迟,我们编写了一个脚本,在数据集中循环播放3小时(1080个声音)的录音,并测量从手表和手机的输入特征中对声音进行分类所需的时间。可以理解的是,延迟随着模型的大小而增加:最小的模型MobileNet在两种设备上都表现得最快(平均延迟观察:256毫秒,SD= 17女士;电话:52女士,SD= 8毫秒),其次是《盗梦空间》(watch: 466毫秒,SD= 15女士;女士电话:94,SD= 4毫秒)和ResNet-lite(手表:1615毫秒,SD= 30 ms;女士电话:292,SD= 13毫秒)。最大的VGG-lite是最慢的(手表:3397毫秒,SD= 42女士;女士电话:610,SD= 15 ms)。

模型比较总结。总之,对于手机和手表模型,我们观察到了一个严格的准确性-延迟权衡,例如,最准确的模型VGG-lite (平均精度= 81.2%,SD= 5.8%)也是最慢的(平均延迟观察时间:3397毫秒,SD= 42女士)。此外,模型MobileNet和Inception在实际使用中表现太糟糕了(平均精度< 40%)。ResNet-lite在中间(平均精度= 65.1%,SD= 10.7%;平均延迟观察时间:1615毫秒,SD= 30 ms)。

与先前方法的比较。我们还评估了在云上运行的完整VGG模型的性能,它被用于最先进的声音分类工作。11平均推理准确率(84.4%,SD= 5.5%)只比我们最好的移动优化模型(VGG-lite,avg。= 81.2%,SD= 5.8%) -一个很好的结果,因为我们的VGG-lite模型的大小不到VGG的三分之一(281.8MB vs. 845.5MB)。

*4.2.架构评估

我们比较了SoundWatch四种不同架构的性能:仅限手表、手表+手机、手表+云以及手表+手机+云(见图2),这可能在性能和可用性上有所不同。

对于每种架构,我们在手表和手机上使用了最精确的模型:VGG-lite;云使用完整的VGG模型。根据之前的工作,16我们测量了CPU、内存、网络使用、端到端延迟和电池消耗。为了进行评估,我们使用了一个在笔记本电脑上运行的脚本,该脚本循环播放录音3小时,以生成足够的声音样本(1080)。仅在电池实验中,该脚本会一直运行到手表电池电量达到30%或更低(即,在低功耗模式下略高于25%的触发点),这是一种常见的评估方法。16为了确定CPU、内存和网络使用情况,我们使用Android分析器,一个常用的分析工具。对于电力使用,我们使用电池的历史学家。最后,为了确定端到端延迟,我们测量了从开始录音到显示通知之间的经过时间(以毫秒为单位)。在这里,我们详细介绍了我们的结果。

CPU利用率。最小化CPU使用将最大化智能手表的电池性能,并降低对其他运行的应用程序的影响。我们在手表和手机上使用CPU的结果如下所示图5一个.不出所料,手机分类时(手表+手机;avg。= 22.3%,SD= 11.5%,马克斯= 42.3%)或云端(手表+手机+云端;avg。= 23.0%,SD= 10.8%,马克斯= 39.8%)。在这些架构中,手表只用于录制声音和支持用户交互。对于手表+云,手表额外计算了声音功能,并通过WiFi与云通信,这导致了明显更高的CPU利用率(avg。= 51.1%,SD= 14.9%,马克斯= 76.1%)。最后,对于仅限手表的设计,CPU利用率几乎达到了极限(avg。= 99.0%,SD= 2.1%,马克斯= 100%),因为分类模型是直接在手表上运行的,这表明这种设计对于现实世界的使用是不切实际的。然而,未来机器学习和可穿戴技术的进步可能会导致更小的模型和更强大的手表,可以在本地运行这些模型。

f5.jpg
图5。4种架构的平均CPU (a)和内存(b)使用率。误差条显示95%的置信区间。

内存使用情况。智能手表应用程序必须是内存高效的。不出所料,我们发现内存使用量严重依赖于模型(281.8MB)运行的位置;因此,watch-only和watch+phone在watch上消耗了最高的内存(avg。= 344.3 mb,SD= 2.3 mb,马克斯= 346.1MB)和电话(avg。= 341.5 mb,SD= 3.0 mb,马克斯= 344.1MB),分别(参见图5 b).也就是说,如果在智能手表上运行VGG-lite等大型机型,内存容量将超过现有智能手表的容量。其他应用程序进程(例如UI和计算特性)所需的内存小于50MB。

网络的使用。低网络使用率增加了应用程序的便携性,特别是在低信号地区,并可能有助于降低互联网成本。只有基于云的架构需要网络,因为对于基于手表或手机的设计,分类是在本地进行的。其中,对于watch+cloud,系统每秒主动分类声音时的平均网络消耗为486.8B/s (SD= 0.5 b / s,马克斯= 487.6B/s),手表+手机+云则为486.5B/s (SD= 0.5 b / s,马克斯= 487.2B/s),非常低(约1.8MB/h)。在现实中,声音可能不会每秒都出现,这将进一步减少总消耗。

电池消耗。我们测量了电池从充满电到30%的消耗时间(见图6),发现这种手表专用架构消耗了大量的电池:仅3.3小时就能消耗30%的电池。在剩下的架构中,手表+手机(15.2小时时30%)和手表+手机+云(16.1小时时30%)都比手表+云(12.5小时时30%)更高效,因为后者使用WiFi,比BLE消耗更多的能量。19在手机上也观察到了类似的趋势;然而,在手机(手表+手机)上运行模型与手表相比仍然是可以忍受的图6).总而言之,我们认为仅限手表的设计对于日常使用来说是不切实际的,而其他的设备上的实现则比云上的稍微好一点。

f6.jpg
图6。电池电量随时间的变化在(a)手表和(b)手机上为四种架构:仅手表、手表+云、手表+手机和手表+手机+云。基线代表SoundWatch应用程序不运行的情况。

端到端延迟。一个实时声音感知系统需要被执行。图7显示端到端延迟的计算分解,即为产生的声音获取通知所花费的总时间。平均而言,手表+手机+云运算速度最快(平均延迟= 1.8,SD= 0.2秒)其次是手表+手机(avg。= 2.2,SD= 0.1 s),这需要更多的时间在手机上运行模型(vs.云),和手表+云(avg。= 2.4,SD= 0.0 s),这需要更多的时间来计算手表上的功能(与手表+手机+云的手机相比)。正如预期的那样,只用手表的速度要慢得多(avg。= 5.9,SD= 0.1 s),因此目前无法使用(尽管未来的智能手表可能会更强大)。总之,除了watch-only,所有架构的延迟都在2 s左右;我们在用户研究中评估这是否可以接受。

f7.jpg
图7。四种架构的端到端延迟的分解。

架构评估总结。综上所述,watch+phone和watch+phone+cloud在所有系统参数上都优于watch+cloud架构。此外,由于高CPU、内存和电池使用量,以及端到端延迟,这种只支持手表的架构被认为不适合实际使用。在基于手机的架构中,手表+手机+云的表现优于手表+手机。

回到顶部

5.用户研究

为了研究终端用户对我们的系统结果的看法以及在多个环境下对SoundWatch的反应,我们对8名DHH参与者进行了实验室和校园演练评估。虽然SoundWatch可以支持任何架构或模型,但我们在本研究中只使用了性能最好的架构(手表+手机)和模型(VGG-lite)。

*5.1.参与者

我们通过电子邮件、社交媒体和滚雪球抽样招募了8名DHH参与者(3名女性,3名男性,2名非二元性别)。参与者平均年龄为34.8岁(SD= 16.8,范围= 20 - 63)。其中4人听力严重受损,3人听力严重受损,1人听力中度受损。7例报告为先天性发病,1例报告为1岁发病。7名参与者使用了听力设备:3人使用人工耳蜗,1人使用助听器,3人两者都使用。在交流方面,5名参与者更喜欢手语,3名更喜欢口头交流。所有参与者都报告了英语阅读的流利程度(5/5分,5分最好)。参与者获得了40美元的补偿。

*5.2.过程

手术在一所大学校园内进行,全程长达90分钟,由听力障碍、了解二级美国手语(ASL)的第一作者主持。一名实时转录员出席了所有的会议,五名参与者选择另外有一名手语翻译在场。问题在iPad上直观地呈现出来,而回答和后续讨论则通过口头或翻译成美国手语。会议以人口调查问卷开始,随后是一份由三部分组成的议定书:

第一部分:介绍SoundWatch(5-10分钟)。首先,我们询问了使用智能手表进行声音感知的一般想法。然后,研究人员通过解释用户界面,并要求参与者戴着手表,同时发出三种示例声音(语音、敲门声和电话铃声)来演示SoundWatch。参与者也可以发出自己的声音(例如,通过敲门或说话)。

第二部分:校园步行(20-25分钟)。接下来,研究人员和参与者(带着手表和电话)以随机的顺序访问了校园里的三个地点:(1)一个像家一样的地方(大楼休息室),(2)一个像办公室一样的地方(研究生办公室),(3)一个户外的地方(公交车站)。这些位置允许参与者在不同的听觉环境中体验Sound-Watch。在每个位置,参与者自然地使用手表(例如,坐在办公室的椅子上)约5分钟。在声音活动不足的位置(例如,如果休息室是空的),研究人员发出一些声音(例如,洗手或开门)。在离开每个地点之前,参与者填写一份简短的反馈表。

第三部分:审判后面谈(45-50分钟)。在校园散步之后,参与者返回实验室,接受半结构化的采访,介绍他们的整体体验,三个地点对SoundWatch的看法,对UI的反应,以及任何隐私问题。然后,我们询问了具体的技术考虑,如准确性-延迟的权衡和四种可能的SoundWatch架构。对于准确性-延迟,我们收集了他们对最小准确性和最大延迟的期望,以及这些视角是否会根据声音类型(例如,紧急的声音vs.非紧急的声音)或环境(例如,家庭vs.办公室)而改变。为了帮助讨论这四种SoundWatch架构——也为了让我们的参与者更容易理解和跟踪差异——我们准备了一个图表,根据我们的系统实验发现,列举了一些关键特征,比如电池或网络使用率高、中、低等级。最后,我们要求参与者通过权衡诸如互联网需求、携带设备数量(例如,手表1个vs.手表+手机2个)和视觉显示的大小(例如,手表小vs.手机中)等因素来评价每种架构的“易用性”(高、中或低),并提供他们选择的理由。

*5.3.数据分析

我们使用迭代编码方法分析了访谈记录和现场形式的回应。2开始时,我们从8份文本中随机选择了3份;两名研究人员阅读了这些转录本,并开发了一个初始密码本。然后,研究人员独立地为这三种转录体分配代码,同时改进他们自己的代码本副本(添加、合并或删除代码)。然后,研究人员再次会面,讨论并改进代码本,得到了按层次排列的12个一级代码和41个二级代码。这最终的编码本被两个编码人员用来编码剩下的五份转录本,从而得到了0.79(使用Krippendorff的alpha测量)的中间商协议(SD= 0.14,范围= 0.62-1),而原始同意率为93.8% (SD= 6.1%,范围-100 = 84.4%)。冲突的代码分配通过共识解决。

*5.4.发现

我们详细介绍了参与者在校园里使用SoundWatch的体验,并对模型的准确性——延迟时间、系统架构和用户界面进行了评论。

体验校园漫步。所有参与者都发现,手表通常有助于在所有三种情况下的日常活动(如家庭休息室、办公室和户外)。例如,

“我的妻子和我倾向于让水一直开着,所以这个应用程序可能是有益的,节省水费。知道微波什么时候发出哔哔声很有帮助,而不必盯着时间(微波显示屏)。”(P6)

“这对伏案工作非常有用。如果有人敲门,或者有人从我身后进入房间,我可以用手表提醒我。”(第七页)

然而,所有参与者都报告了问题,最显著的是延迟和错误分类;后者在户外环境中比在其他环境中更高。例如,

“这款应用非常适合安静的环境,比如在家。(而在户外)有些声音被误解了,比如汽车被误认为是流水。”(P3)

现场反馈形式的回复证实了这些评论,休息室的平均有用性(4.8/5的评分标准(5为最佳),SD= 0.4)和办公室(4.6/5,SD= 0.5)高于户外(3.5/5,SD= 0.5)。

即使户外环境下的有用性评分很低,所有参与者都希望在户外使用该应用程序,并提到他们可能能够使用上下文信息来补充不准确的反馈。例如,

“当然,户外有一些错误,但它告诉我,我可能需要注意的声音正在发生,所以我可以环顾四周,检查我的环境,寻找线索。”(P8)

模型accuracy-latency比较。基于深度学习的声音识别永远不会100%准确。因此,我们询问了参与者使用智能手表应用程序所需的最小精度和最大可容忍延迟。最常见的偏好是最大延迟为5秒(5/8),最小精度80% (6/8);然而,这种选择是由特定的声音类型调制的。具体来说,对于紧急的声音(如火灾警报或汽车喇叭声),参与者希望尽可能少的延迟(以准确性为代价)来快速获得所需行动的信息,因为“我至少知道我周围发生了什么事,(……)可以看看周围是否有汽车在按喇叭。”(P2)。

相比之下,对于非紧急的声音(例如,讲话和笑),他们更倾向于准确,因为参与者提到重复的错误可能会令人讨厌(7/8)。例如:

“我不太在乎演讲,所以如果有一场对话,好吧,我晚1-2秒或5秒知道并不重要,不是吗?但如果它出错了,每次出错时我都要站起来检查是谁在说话,这真的很令人沮丧。”(P5)

最后,对于中等优先级的声音(例如,微波对P3),参与者(7/8)希望保持平衡,容忍中等的延迟以获得中等的准确性。

除了声音类型,人们对声音的偏好也因使用环境而异(家庭、办公室和户外)。参与者更喜欢在更紧急的情况下有更少的延迟,反之亦然。这是在家用测试中,参与者(8/8)希望获得高精确度——并接受更多的延迟——因为,例如:

“我知道家里发生的大部分事情。在家里,我通常会更放松,所以推迟是可以的。但是,我不想因为我在业余时间的错误而烦恼。”(P8)

对于办公室,参与者(6/8)认为他们可以容忍中等程度的准确性和中等程度的延迟,因为“有些事情可能需要我注意,但迅速处理它可能不是安全问题。”(P8)。对于户外活动的偏好被分成了两组:四名参与者希望最小的延迟(以准确性为代价),但其他四名参与者不满足于单一的回应,他们提到,这种取舍将取决于特定声音的紧迫性:

“如果只是一辆车在路上行驶,而我在人行道上行走,那么我希望它只知道它是否确定有一辆车在行驶,但如果一辆车在按喇叭,如果它在我身后,我希望立即知道。”(P2)

体系结构的比较。通过显著地介绍性能指标(如电池使用量)和使用需求(如云的互联网连接),我们收集了四种可能的SoundWatch架构的定性偏好:仅限手表、手表+手机、手表+云以及手表+手机+云。

总的来说,手表+手机是所有参与者最喜欢的架构,因为与手表相比,它更快,需要更少的电池,并有更多的可视状态可供定制。此外,与基于云的设计相比,watch+phone更私密性和自成一体(不需要互联网)。

然而,5名参与者希望能够选择在移动中定制建筑,他们提到,在户外设置中,他们更喜欢使用手表+手机+云,因为速度和准确性的优势。这是因为在户外环境中,数据隐私对他们来说不太重要。例如:

“由于背景噪音,准确性问题可能更多地出现在户外,(因此)如果有互联网,我更喜欢在(更强的)模型中使用云。”在家庭/办公室,存在个人数据泄露的可能性。”(P6)

有两名参与者认为,Watch+cloud只适用于手机难以携带的情况,比如手机“健身房或户外跑步时”(P1)。最后,由于电池耗电量大,在任何情况下都不建议使用纯手表。

用户界面的建议。总的来说,参与者都很喜欢简约的应用程序设计和定制选项(静音键和手机检查表)。当被问及未来的改进时,他们提出了三种建议:(1)显示声音的紧迫性——例如,使用振动模式或视觉颜色;(2)显示声音的方向,特别是对于户外环境;(3)探索显示多种声音来弥补不准确性:

“当声音无法识别时,你可以对其他声音提出建议。例如,如果它不能区分微波炉和洗碗机,它可以说“微波炉或洗碗机”,或者至少告诉我它的声音是什么样子的,你知道,就像风扇或其他东西,这样我就能看到并告诉我,哦,是的,洗碗机在运行。”(P4)

回到顶部

6.讨论

我们的工作重申了DHH用户对基于智能手表的声音感知的需求和偏好517(1)实现并实证比较了最先进的深度学习方法在智能手表上的声音分类,(2)贡献了一种新的基于智能手表的声音识别系统,支持多种设备架构,(3)强调DHH用户对准确性-延迟权衡、设备架构和潜在问题的反应。在此,我们反思我们工作的进一步影响和局限性。

*6.1.声音识别的实用性

声音识别工具需要发挥多大的作用才能提供价值?我们的研究结果表明,这是一个复杂的问题,需要进一步研究。虽然提高整体准确性、减少延迟和支持广泛的声音类别显然很重要,但参与者认为紧急的声音应该优先考虑。因此,我们想知道,一个最初的声音识别应用程序支持三到十个紧急的声音是有用的吗?探索这个问题的一种方法是研究soundwatch——或类似的应用程序——在一段纵向的时间内使用多种定制选项。然而,这种方法也引入了伦理和安全问题,因为自动声音分类永远不会100%准确。在有限的一组声音上的高精确度可能(不正确地)获得用户的信任,而应用程序即使一次都不能识别安全声音(例如火灾警报)也可能是危险的。一般来说,我们研究的一个关键发现是,用户希望定制(例如,哪个听起来像是分类)和透明(例如,分类可信度)。

*6.2.为了提高精度

我们的用户研究表明,需要进一步提高系统的准确性,或至少探索其他方法来减轻错误分类。P4提出的一种可能性是,探索显示多种“可能”的声音,而不是最可能的声音——就像文本自动补全显示n个最佳单词一样。另一个想法是将两个模型依次级联,使用较快的模型对一小组紧急声音进行分类,使用较慢的模型对低置信度和不那么紧急的声音进行分类。还应该检查终端用户定制。每个用户都可以选择想要的声音和所需的精度,应用程序可以动态微调模型(例如,使用加权类精度指标)。最后,正如Bragg等人提出的,1研究人员应探索终端用户交互训练的模式。在该应用程序的指导下,参与者可以录制自己感兴趣的声音,以改进现有的声音课程或添加新的声音课程。当然,如果DHH用户无法听到声音本身,那么这种训练可能是乏味和困难的。

*6.3.隐私的影响

我们的参与者担心基于云的分类架构可能会侵犯他们自己和周围其他人的“声音”隐私。但是,在云上上传和存储数据也有好处。这些数据集可用于改进分类模型。事实上,物联网设备上的现代声音架构(如Alexa和Siri)使用云来交换有价值的数据。我们的方法的一个关键区别是,这些设备只在听到触发词后传输。因此,未来的“永远听”的声音感知设备意味着什么?我们看到三个。首先,用户应该控制上传的数据,这些数据可以根据环境进行定制(例如,办公室可能比户外有更多的私人对话)。其次,未来的应用程序将需要明确的隐私政策,如GDPR或CCPA,概述数据的存储方式和存储位置,以及用户拥有什么保证。最后,用户应该始终能够访问自己的数据,并可以选择从云上完全删除这些数据。

*6.4.未来smartwatch应用程序

与过去可穿戴的声音感知工作相比,6913我们使用了商用智能手表,这是一种比hmd更能被社会接受的主流流行设备69或自定义基于硬件的6解决方案——在声音识别反馈方面可能比智能手机更受欢迎。3.那么,对于DHH用户来说,基于智能手表的声音感知还有哪些引人注目的应用呢?完整的语音转录是DHH用户非常渴望的功能,3.在小屏幕上很难适应,但未来的工作可以探索突出重要的关键词或总结关键的谈话话题。声音本地化也是必要的15通过将手表与小型外接麦克风阵列连接,或设计一款带有多个麦克风的定制手表,就可以进行研究。然而,如何在手表上最好地结合不同的声音和语音特征(例如,主题总结、方向和身份)是一个开放的问题。古德曼et al。5调查了在手表上结合声音识别、方向和响度的设计;然而,这项研究的重点是用户界面。未来的工作还应该探索显示多种功能的系统设计方面——考虑到智能手表的低资源限制,这是一个具有挑战性的问题。

*6.5.限制

首先,尽管我们的声音识别技术大量借鉴了DHH的观点,比如我们的听力困难的主要作者的观点,但我们并不认为它是普遍需要的。一些DHH的人可能会对这项技术感到消极,尤其是那些被认为是聋人文化的一部分的人。13.同时,过去的工作,13.比如我们对201名DHH参与者的调查,3.表明DHH群体是广泛的,许多DHH个体认为声音识别是有价值的。不过,未来的工作应该继续研究DHH人群中不同部分对声音反馈的偏好,以验证我们的发现。

其次,我们短短20分钟的校园步行,虽然作为一个初步的探索性研究有用,但无法调查实际问题,如用户对电池寿命的感知和长期使用模式。未来的工作应该进行纵向部署,并将结果与我们的实验室发现进行比较。

第三,我们的模型准确性结果,虽然收集了20种声音的真实录音,但不能准确地反映出在这20种声音之外的其他声音在现实世界中的使用情况。虽然我们的方法为模型比较和用户研究结果提供了一个基线,但更准确的实验应该包括从长期手表使用中收集的声音数据的事后分析。

最后,我们在特定的硬件设备(Ticwatch Pro Watch,荣耀7x Phone)上评估了我们的模型。虽然相对比较可能是一般化的,但绝对性能指标将随着未来移动和可穿戴技术的发展而改变。届时还需要进一步研究。

回到顶部

7.结论

在本文中,我们对基于深度学习的现代声音分类模型和架构进行了定量研究,并与8名DHH参与者一起对一款新型智能手表声音感知应用程序进行了实验室探索。我们发现,我们最好的分类模型的性能与非便携设备的最新水平类似,尽管需要的内存大大减少(约1/3)理查德·道金斯),而且基于手机的架构在CPU、内存、电池使用量和端到端延迟方面都优于以手表为中心的设计。用户研究的定性结果将我们的系统实验结果结合起来,揭示了未来可穿戴声音感知技术的想法、关注点和设计建议。

回到顶部

致谢

我们感谢Emma McDonnell和Ana Liu的帮助。国家科学基金(NSF)批准号:iris -1763199。

回到顶部

参考文献

1.Bragg, D., Huynh, N., Ladner, R.E.为聋人和听力困难的用户设计的个性化移动声音探测器应用程序。在十八届立法会会议记录th计算机与可达性国际ACM SIGACCESS会议(2016), ACM出版社,纽约,3-13。

2.布朗,克拉克,运用心理学中的主题分析。3 .心理健康, 2(2006), 77-101。

3.Findlater, L., Chinh, B., Jain, D., Froehlich, J., Kushalnagar, R., Lin, A.C.聋人和听力障碍者对可穿戴和移动声音感知技术的偏好。在计算机系统人为因素会议(CHI)(2019), ACM,格拉斯哥,英国,1-13。

4.Foggia, P., Petkov, N., Saggese, A., Strisciuglio, N., Vento, M.在高噪声环境中可靠地检测音频事件。Recognit模式。65年博士论文。,(2015), 22。

5.Goodman, S., Kirchner, S., Guttman, R., Jain, D., Froehlich, J., Findlater, L.跨语境评估基于智能手表的声音反馈,为聋人和听力困难的用户提供帮助。在计算机系统人为因素SIGCHI会议论文集(2020), ACM,檀香山,夏威夷,1-13。

6.Gorman, B.M. VisAural:一种为听力受损人士设计的可穿戴声音定位设备。在16年会议纪要th计算机与可访问性国际ACM SIGACCESS会议(2014), ACM, Rochester, NY, 337-338。

7.郭瑞,杨勇,Kuang, J., Bin, X., Jain, D., Goodman, S., Findlater, L., Froehlich, J.全声:在头戴式显示器上为聋人或听力困难的用户组合语音和声音识别。在22nd计算机与可达性国际ACM SIGACCESS会议(2020), ACM, 1 - 4。

8.Hershey, S., Chaudhuri, S., Ellis, D.P.W, Gemmeke, J.F, Jansen, A., Moore, R.C, Plakal, M., Platt, D., Saurous, r.a., Seybold, B.等。大规模音频分类的CNN架构。在2017 IEEE声学、语音与信号处理国际会议(ICASSP)(2017), IEEE,新奥尔良,洛杉矶,131-135。

9.Jain, D., Findlater, L., Volger, C., Zotkin, D., Duraiswami, R., Froehlich, J.为聋哑人和重听人支持声音意识的头戴显示可视化。在三十三届会议的会议记录理查德·道金斯计算机学会计算系统人为因素年会(2015),中国科学技术杂志,首尔,241-250。

10.Jain, D., Lin, a.c., Amalachandran, M., Zeng, A., Guttman, R., Findlater, L., Froehlich, J.为失聪或听力困难的人探索家中的声音意识。在2019年CHI计算系统中的人为因素会议论文集(2019), ACM,格拉斯哥,英国,94:1-94:13。

11.Jain, D., Mack, K., Amrous, A., Wright, M., Goodman, S., Findlater, L., Froehlich, J.E. HomeSound:一种针对聋人或听力困难用户的家庭声音感知系统的迭代现场部署。在2020年CHI计算系统中的人为因素会议论文集, CHI’20(纽约,纽约,美国,2020),计算机协会,檀香山,夏威夷,1-12。

12.Jain, D., Ngo, H., Patel, P., Goodman, S., Findlater, L., Froehlich, J. SoundWatch:探索基于智能手表的深度学习方法,以支持聋人和重听用户的声音意识。在计算机与可访问性会议(2020), ACM, 1-13。

13.一种支持听障人士群体对话中听觉意识的发光装置。在系统、人与控制论,2013年IEEE国际会议(2013), IEEE,曼彻斯特,英国,3567-3572。

14.陆璐,张慧娟,张慧娟。,Jiang, H. Content analysis for audio classification and segmentation.IEEE反式。语音和音频处理, 7(2002), 504-516。

15.马修斯,T.,方杰,何正,f.w.l。,Mankoff, J. Evaluating non-speech sound visualizations for the deaf.Behav。正,抛光工艺。25, 4(2006), 333-351。

16.马宗达,A.,海恩斯,B.,巴拉辛斯卡,M.,塞泽,L.,张,A.,奥斯金,M.视频存储和处理系统的感知压缩。在ACM云计算研讨会论文集(2019), ACM, Santa Cruz, CA, 179-192。

17.Mielke, M., Brück, R.关于智能手表作为聋人辅助设备的初步研究。在17年的会议记录th国际ACM计算机与可访问性会议(2015), ACM,里斯本,葡萄牙,301-302。

18.广播语音/音乐的实时判别。在1996年IEEE声学、语音和信号处理国际会议论文集(1996), Vol. 2, no . 1, ei, 2004,16 - 16。

19.Shahzad, K., Oelmann, B.在数据密集型监控应用中,使用ZigBee、BLE和Wi-Fi进行传感器内处理与原始数据传输的比较研究。在2014年11th无线通信系统国际研讨会(ISWCS)(2014),北京大学学报(自然科学版),519-524。

20.思聪,L.,子木,Z.,军钊,D.,龙飞,S., Han, J., Wang, X. UbiEar:用智能手机为听力障碍者带来位置独立的声音感知。Proc. ACM on interactive。暴徒。可穿戴和无处不在的技术, 2(2017), 17。

21.Yeung, E., Boothroyd, A., Redmond, C.可穿戴的语音基频多通道触觉显示。耳朵听到的。9, 6(1988), 342-350。

22.袁H., Reed, C.M., Durlach, N.I.辅音发声作为唇读辅助的触觉显示。j . Acoust。Soc。118年。, 2(2005), 1003。

回到顶部

作者

Dhruv耆那教徒的djain@uw.edu),计算机科学与工程,华盛顿大学,西雅图,WA,美国。

挂的非政府组织hvn297@uw.edu),计算机科学与工程,华盛顿大学,西雅图,WA,美国。

前任“老板”Pratyush帕特尔patelp1@uw.edu),计算机科学与工程,华盛顿大学,西雅图,WA,美国。

史蒂文·古德曼smgoodmn@uw.edu),以人为本的设计与工程,华盛顿大学,西雅图,西澳,美国。

Khoa阮akhoa99@uw.edu),计算机科学与工程,华盛顿大学,西雅图,WA,美国。

瑞秋Grossman-Kahnrachelgk@uw.edu),以人为本的设计与工程,华盛顿大学,西雅图,西澳,美国。

利亚《新leahkf@uw.edu),以人为本的设计与工程,华盛顿大学,西雅图,西澳,美国。

Jon Froehlichjfroehli@uw.edu),计算机科学与工程,华盛顿大学,西雅图,WA,美国。

回到顶部

脚注

这篇论文的原始版本发表在22年会议记录nd计算机与可达性国际ACM SIGACCESS会议, 2020年。

要查看随附的技术观点,请访问doi.acm.org/10.1145/3531446


cacm_ccby.gif本作品授权于https://creativecommons.org/licenses/by/4.0/

数字图书馆是由计算机协会出版的。版权所有©2022 ACM股份有限公司


没有发现记录

Baidu
map