acm-header
登录

ACM通信

研究突出了

运动障碍患者的眼睑手势


智能手机自拍的眼睛特写

图片来源:Getty Images

虽然基于眼睛的互动对有运动障碍的人是有益的,但他们通常依赖笨重或专门的设备(例如,固定的眼球追踪器),主要关注凝视和眨眼。然而,两个眼睑可以以不同的顺序和不同的时间开合,形成丰富的眼睑姿势。我们迈出了第一步,为移动设备上有运动障碍的人设计、检测和评估一组眼睑手势。我们提出了一种算法,实时检测智能手机上的9种眼睑手势,并在两项研究中对12名健全的人和4名严重运动障碍的人进行评估。对有运动障碍的人的研究结果表明,在用户依赖和用户独立的评估中,该算法可以以0.76和0.69的总体准确性检测手势。此外,我们设计并评估了一个手势映射方案,用于运动障碍患者仅使用眼睑手势导航移动应用程序。最后,我们讨论了为运动障碍患者设计和使用眼睑手势的考虑因素。

回到顶部

1.简介

在美国,15%的人在身体机能方面有困难,其中几乎一半人觉得在没有帮助的情况下走四分之一英里是非常困难或不可能的。5尽管专门的设备,如眼球追踪器、脑机接口和机械设备(如操纵杆、轨迹球)可能会有所帮助,但它们通常都是笨重的、侵入性的、昂贵的,或者所支持的功能有限(如文本输入)。相比之下,作为一种通用设备,智能手机可以通过丰富的车载传感器使运动障碍患者受益。12例如,运动传感器和触摸屏已被用于识别用户的身体活动(例如,参见Albert et al。1)并评估他们的运动能力(例如,参见Printy等。16).麦克风允许使用语音输入文本(例如,参见西尔斯等。19)或发布命令(例如,参见Pradhan等。15).摄像头使有运动障碍的人能够通过眼睛进行交互以输入文本(例如,参见Pedrosa et al.)。14),发出手势命令(例如,参见Rozado等。17),并驾驶轮椅(例如,参见Araujo et al。2).

虽然有帮助,但基于眼睛的互动主要集中在凝视(即眼球运动)14172223或眨眼1023).然而,人的两眼睑可以在短时间或长时间内处于打开或关闭的状态,同时或连续地形成一组丰富的眼睑手势,可以丰富现有的基于眼睛的交互。在这项工作中,我们对运动障碍人群在移动设备上的眼睑手势设计空间进行了初步的探索。

我们首先介绍了一种构建潜在眼皮手势的分类法。虽然有些眼睑手势,比如眨眼,被提议用于免提互动,6我们的工作探索了一组更丰富的眼睑手势,并首次提出了在智能手机上实时识别它们的算法。此外,我们在两个用户研究中评估了算法的性能,这些用户分别是没有运动障碍的人和有运动障碍的人。在第一项研究中,12名身体健全的参与者在两个室内环境和不同的姿势下做了9个眼睑动作。用户依赖模型和用户独立模型的总体精度分别为.76和.68,这表明该算法对环境和姿势的差异具有鲁棒性。然后我们进行了第二项研究,让四名有严重运动障碍的参与者做同样的动作。用户依赖模型和用户独立模型的总体精度分别为。76和。69。

此外,我们设计了一个映射方案,允许用户只使用眼睑手势导航移动应用程序。我们要求有严重运动障碍的参与者仅用眼睑手势完成一系列导航任务。结果表明,他们感知到的眼睑手势容易学习,映射直观。他们进一步报告了如何进一步改进眼睑手势和映射方案。最后,我们提出了运动障碍患者使用眼睑手势的设计建议,并讨论了其局限性和未来的研究方向。

回到顶部

2.眼睑手势设计与识别

*2.1.设计

眼睑状态指两眼睑的状态,有四种可能的值:双眼皮张开双眼皮闭上只有右眼睑闭上,只有左眼睑闭合。从技术上讲,眼睑也可以处于半闭状态(例如,眯眼)。然而,保持半闭合的眼睑会导致眼睑抽搐或痉挛。6此外,我们的研究发现,在现有技术下,稳健地识别半闭合状态仍然具有挑战性。因此,我们在构建眼睑手势时关注这四种状态。未来的工作可能会探索“半闭”眼皮状态的潜力。由于“双眼睁开”状态是人类醒着时最常见的状态,所以我们把它用作睡眠手势分隔符标记眼睑动作的开始和结束。

除了四种眼皮状态,人类还可以控制持续时间眼睑的状态。6由于很难记住一个状态的确切持续时间,我们将持续时间离散为两个级别而且长。短持续时间指的是故意闭上眼睑(例如,比自然眨眼时间长(50-145毫秒))20.),然后立即打开。持续时间就是闭上眼皮,维持一段时间,然后再睁开。由于用户可能有不同的按住眼睑的喜好,在保持一致的情况下,最好允许他们决定自己喜欢的按住时间。为了简单起见,在这项工作中,用户被指示在某种状态下,屏住眼睑,用心数一个固定数量的数字(例如,3)。

通过控制眼皮状态及其持续时间,我们可以在一个或多个眼皮状态之间构建无限多个眼皮手势。作为探索这一广阔设计空间的第一步,我们专注于识别9个相对简单的眼睑手势,它们在手势分隔符之间只包含一个或两个眼睑状态。图1展示了这九种眼睑手势和它们的缩写。

f1.jpg
图1。我们的算法检测到的九个眼睑手势的插图和缩写。每一个做个手势的缩写在共同的开始和结束状态之间描述它的关键眼睑状态(即“双眼睑打开”)。的虚线指示保持眼皮在它接下来的状态。例如,“B-R——”表示从“双眼皮张开”开始,过渡到“B闭上眼睛,”保持这种状态一段时间(-),转换为“only the .”R右眼闭上,”保持这种状态一段时间(-),以“睁开双眼”结尾。同样,“眨眼两次”的手势“鲍勃”包括“B闭上眼睛,”“两个眼睛O钢笔,”和“B在共同的开始和结束状态之间闭上了眼睛。

*2.2.识别算法

本算法在三星S7操作系统Android OS 8.0上实现。它首先从前置相机(每秒30帧)获得640 X 480分辨率的图像,并利用谷歌移动视觉API生成每只眼睛睁开的概率对流(PlPR).9API如何估计概率的细节可以在G. LLC的工作中找到。9图2展示了一些例子的概率两个眼睛被打开的九个眼睑手势的用户执行。注意,当用户闭上右眼或左眼时,这只眼睛睁开的概率不一定相同,而另一只眼睛睁开的概率也可能同时下降。提出了API的概率估计9是有噪声的,即使同一用户执行相同的手势,概率估计也会有变化。

f2.jpg
图2。当一个用户做9个眼睑动作时,两只眼睛睁开的概率。蓝色(实线)和青色(虚线)线分别表示左眼和右眼睁开的概率。

为了处理概率估计中的变化,我们的算法包含了一个eyelid-state支持向量机(SVM)分类器用于对输入对(PlPR)分为两种状态:开放(O)如果两只眼睛都睁着并且关闭(C)如果任何一只眼睛是闭着的。因为“双眼睁开”(O)状态被用作手势分隔符,所以算法然后分割分隔符之间的概率对流。然后,算法计算一个片段的持续时间,如果它的持续时间过短,就将其过滤掉,因为极短的片段很可能是由自发的眨眼(50-145毫秒)引起的20.)或概率估计中的噪声。我们测试了从150到300毫秒的持续时间的不同阈值,并采用220毫秒作为最佳性能。接下来,将段的持续时间输入另一个SVM分类器,该分类器进一步区分它是否是短期长时间的手势(见图1).然后,该算法对概率对的序列(PlPR),以确保所有段包含相同数量的概率对(短手势和长手势分别为50和100个样本)。接下来,重新采样的同长度向量被输入到相应的短时间支持向量机分类器或者一个长时间支持向量机分类器。最后,短时间分类器检测段是否为RlB,或鲍勃;长时间分类器检测段是否为R -L -B -B-R -,或bl -。所有的支持向量机分类器都是使用带有径向基函数内核和默认参数的scikit-learn库实现的。13更多细节可以在原文中找到。48我们的源代码可在以下网站获得:https://github.com/mingming-fan/EyelidGesturesDetection

回到顶部

3.和别人一起学习没有运动能力损伤

在对有运动障碍的人进行测试之前,我们进行了第一项研究,以了解我们的算法在移动设备上为没有运动障碍的人识别眼睑手势的效果。

*3.1.参与者

我们招募了12名年龄在23至35岁之间的身体健全的参与者(= 26日SD= 4,5名男性和7名女性)参与研究。他们的眼睛颜色包括棕色(11)和琥珀色(1)。7人戴眼镜,1人戴隐形眼镜,4人不戴眼镜或隐形眼镜。没有人戴假睫毛。这项研究持续了半个小时,参与者得到了15美元的补偿。

*3.2.过程

我们使用三星S7安卓手机作为测试设备,运行眼睑手势识别评估应用程序(见图3)。为了增加评估的有效性,我们在两个不同的办公室收集了培训和测试数据。我们首先通过要求参与者保持四种眼皮状态来收集训练数据,然后按照应用程序上的说明进行九种眼皮动作中的每一种动作五次坐着在一间办公室里,坐在桌子前,用他们喜欢的手拿着电话。然后,我们通过要求他们再做五次眼睑动作来收集测试数据另一个办公室里,用他们喜欢的手握着电话。物理环境和姿势的差异增加了训练和测试数据之间的差异。同样,他们喜欢用手拿手机的方式的变化也带来了训练和测试数据的变化。

f3.jpg
图3。(a) - (d)为眼睑状态(a, b)和眼睑手势(c, d)的数据收集ui。1为眼睑状态或眼睑手势的名称,2为人脸检测结果,3为控制按钮,如“开始”、“取消”、“重做”。在评估眼睑手势时,检测到的眼睑状态如4所示。

为了收集每个眼睑状态的数据样本,评估应用程序首先在屏幕上方显示一个目标眼睑状态(参见图3一而且b)随机排列。参与者被要求先让眼睛在状态下做好准备,然后按下绿色的“START”按钮,以每秒30帧的速度开始数据收集。在收集了200帧后,应用程序会发出嘟嘟声,按钮变成黄色,表示该眼睑状态的数据收集已经完成。该应用程序显示另一种眼睑状态,并重复此过程,直到收集到所有四种眼睑状态的数据样本。这些数据用于进行10倍交叉验证1的眼皮状态分类器在电话上实时。训练过程平均花费558毫秒。

为了收集9个眼睑动作的训练数据,评估应用程序在屏幕上方显示了一个目标动作(见图3 c而且d).参与者被要求按下绿色的“开始”按钮,然后做出目标手势。完成后,参与者按下“停止”按钮。该应用程序记录并存储了这段时间内眼睑的状态流。该应用程序将每个眼睑动作随机呈现五次。因此,该应用程序为每个参与者的每个手势收集了5个样本,用于实时训练手机上的眼睑手势分类器。训练过程平均耗时102毫秒。

为了收集测试数据,参与者站在另一间办公室,使用相同的应用程序和上述程序,每做一个眼皮动作再做五次。

*3.3.结果

为了评估眼睑状态分类器,我们进行了10倍交叉验证;为了评估眼睑手势分类器,我们进行了user-dependent而且user-independent评估。

眼睑状态评估。我们对每个参与者的数据进行了10次交叉验证,并对所有参与者的表现进行了平均。总体准确率为0.92 (SD= .09点)。各眼睑状态的准确率如下:双眼皮张开(.98点),右眼睑合拢(.89),左眼睑闭合(.85),双眼皮闭上(.96点)。因为睁大双眼手势分隔符为了分离眼睑手势,我们进一步训练了一个分类器,通过将最后三个状态(一个眼睑闭合)组合在一起,只识别两个眼睑状态。平均准确率为0.98 (SD= .02点)。

用户依赖的眼睑手势评估。对于每个参与者,我们用每个手势的五个样本训练一个依赖于用户的分类器,并用另外五个样本对其进行测试。然后,我们对所有参与者的每个手势的分类器性能进行平均。所有手势的平均准确度为0.76 (SD= .19),每个手势的平均准确率如下:l(公布)R(尾数就),B-R -(尾数就),bl -(尾数就),B(.77点),L -(.77点),B -(综合)R -(收),鲍勃(.57)。这一结果表明,当用户处于不同的室内环境和姿势时,用户依赖手势分类器能够检测到眼睑手势。我们进一步计算混淆矩阵来显示手势是如何被错误分类的图4一.此外,参与者完成每个手势所需的平均时间如下:R(745毫秒),l(648毫秒),B(668毫秒),R -(2258毫秒),L -(2010毫秒),B -(2432毫秒),bl -(4169毫秒),B-R -(4369 ms),和鲍勃(2198毫秒)。它表明,更复杂的手势总体上需要更长的时间来完成。

f4.jpg
图4。研究1:用户相关(a)和用户独立(b)评价的混淆矩阵(列:ground truth;行:预测;N/A表示未被识别)。

独立于用户的眼睑手势评估。为了评估预训练的独立于用户的眼睑手势分类器在新用户的数据上的工作效果,我们采用了一种保留一个参与者的数据进行测试和其他参与者的数据进行训练的方案。所有手势的平均准确度为0.68 (SD= .17),每个手势的平均准确率如下:l(多多)R(尾数就),bl -(.77点),B(综合)L -(7),B-R -(点),R -(6),B -(.57),鲍勃(票价)。我们还计算了混淆矩阵来显示手势是如何被错误分类的图4 b.这一结果表明,预先训练的用户独立的眼睑手势分类器可以“开箱即用”地用于用户,具有合理的准确性,但如果使用用户的数据样本训练分类器(即用户相关的分类器),则可以提高性能。

回到顶部

4.和别人一起学习严重的运动障碍

*4.1.参与者

虽然有运动障碍的人相对较少,3.21在当地残疾人组织的帮助下,我们招募了4名有严重运动障碍(PMI)的人参与研究。表1显示参与者的人口统计信息。一名参与者戴隐形眼镜,其他参与者不戴眼镜或隐形眼镜。这项研究持续了大约一个小时,每个参与者都得到了15美元的补偿。

t1.jpg
表1。运动障碍人群的人口统计信息。

*4.2.过程

这些研究是在参与者的家中进行的。图5展示了研究设置。我们要求参与者坐在日常使用的轮椅或椅子上。我们把安卓手机(华为P20)放在三脚架的顶部,把三脚架放在他们的轮椅桌或桌子上,这样手机距离他们的脸大约30-50厘米,前置摄像头大约在他们的眼睛水平线上。

f5.jpg
图5。P1、P2和P3每天都坐在轮椅上。P4没有使用轮椅,而是坐在书桌前的椅子上。待评估的智能手机安装在三脚架的顶部,三脚架被放在轮椅托盘或桌子上,其前置摄像头大致与他们的眼睛齐平。

我们稍微修改了评估应用程序(参见图3),以照顾有运动障碍的参加者。这款应用没有要求用户按“开始”和“停止”按钮,而是使用了一个10秒的倒计时来自动触发每项任务的开始和结束。在参与者需要暂停的情况下,他们只需要让主持人为他们暂停任务。参与者按照评估应用程序的指示,将眼睑保持在指示的眼皮状态,因此每个眼皮状态采集了200帧。这些数据被用于评估眼睑状态分类器的10倍交叉验证。接下来,参与者按照评估应用程序的指示,执行每个手势五次,这些动作被用作用户相关评估的训练数据。休息后,参与者按照同样的步骤,将每个手势重复五次,这被用作用户依赖评估的测试数据。

*4.3.结果

眼睑状态评估。我们对每个参与者的数据进行了10次交叉验证,并对所有参与者的表现进行了平均。总体准确度为0.85 (SD= .15),各眼睑状态的准确率如下:双眼皮张开(0),右眼睑合拢(主板),左眼睑闭合(点),双眼皮闭上(0)。我们注意到个体差异是存在的。例如,P2无法控制她的右眼睑,因此关闭右眼睑的准确性要低得多:双眼皮张开(.997),右眼闭上(02)左眼闭上(.57),双眼皮闭上(1.00)。当最后三个眼睑状态(至少一个眼睑闭合)被归为一个时关闭状态下,双状态分类器的准确性更稳健:.997 (SD= 04)。

用户依赖的眼睑手势评估。我们进行了与“用户依赖眼睑手势评价”部分相同的用户依赖评价,所有手势的总体准确率为.76 (SD=酒精含量)。每个手势的准确度如下:B-R -(1.00),B -(.95),B(.95),L -(新)l(点),R(综合)R -(60),bl -(55)鲍勃(.35点)。我们计算了混淆矩阵(参见图6)来展示手势是如何被错误分类的。同样,我们还计算了完成每个手势的平均时间:R(699毫秒),l(889毫秒),B(850毫秒),R -(3592毫秒),L -(3151毫秒),B -(3722毫秒),bl -(6915毫秒),B-R -(6443 ms),和鲍勃(3002毫秒)。

f6.jpg
图6。研究2:用户相关(a)和用户独立(b)评价的混淆矩阵(列:ground truth;行:预测;N/A表示未被识别)。

独立于用户的眼睑手势评估。我们进行了与“用户独立眼睑手势评价”部分相同的用户独立评价,总体精度为.69 (SD = .20)。每个手势的准确度如下:B -(.95),B-R -(返)B(新)l(综合)L -(主板),R -(55)bl -(55)鲍勃(55)R(50)。我们还计算了混淆矩阵(参见图6 b)以显示错误分类的发生地点。

*4.4.通过眼睑手势与移动应用程序交互

在移动应用程序之间和内部导航是一项常见的任务,通常是通过屏幕上的一系列触摸操作来完成。应用程序导航发生在三个层次之间应用程序之间,标签/屏幕在一个应用程序中,和之间容器在一个应用程序的标签/屏幕。选项卡是在应用程序中组织内容的常用方法。屏幕是组织内容的另一种方式,通常在启动程序中。在一个选项卡,内容进一步组织由容器通常以卡片的形式呈现。

为了让有运动障碍的人只使用眼睑手势来完成三种类型的导航,我们迭代地设计了一种手势和导航类型之间的映射方案图7),遵循两个设计准则:1)导航方向应与眼睑关闭时一致(例如,关闭眼睑)左/右眼睑导航向前/向后到下一个打开的应用程序);2)复杂性眼睑的手势最低-级到最高-级导航应该增加。因为在两者之间导航应用程序有最重要的开销,7我们将具有两个眼睑状态的眼睑手势(例如,B-R-, B-L-)分配给这个级别的导航。除了导航,鲍勃用于选择项。

f7.jpg
图7。用于导航的映射方案应用程序B-R -bl -),标签/屏幕R -L -),容器R, L).

评估。我们设计了应用导航任务,以衡量参与者学习映射和使用眼睑手势完成各种导航任务的能力。该评估应用程序模拟了三个移动应用程序(APP1, APP2, APP3),它们是用颜色编码的(见图8).每个app包含三个选项卡(TAB1, TAB2, TAB3)。每个选项卡包含4个容器,从1到4编号。焦点容器的轮廓用红色突出显示。评估开始时,关注的重点是APP1的TAB1中的第一个容器。每个参与者都有一个包含五个导航任务的练习环节,每个导航的目标项目都是随机生成的。该应用程序使用Android的文本到语音API说出目标位置,并将其显示在UI的左下方。每个参与者都被要求用眼睑动作来引导注意力集中到目标物品上。一旦到达目标位置,将以同样的方式交付下一个导航任务。练习时间平均不到5分钟。 Afterward, the evaluation app generated another five randomized navigation tasks for participants to work on. Upon completion, participants were asked whether each gesture was a good match for completing the corresponding task (i.e.,“这个手势是完成导航的好方法吗?”),以及每个手势是否容易完成(例如:评估手势的实际操作的难度)使用7点李克特量表的问题,这些问题被用来引出手势指令的反馈(例如,参见Morris等人)。11Naftali和Findlater18).

f8.jpg
图8。(a)-(d)是应用程序导航ui。1显示容器,2显示选项卡,3显示当前应用程序名称,4显示当前试验的目标项。说明了三种类型的导航:在选项卡中的容器之间(a, b),在应用程序中的选项卡之间(a, c),以及在应用程序之间(a, d)。

主观的反馈。平均评分做眼睑动作的身体困难如下图所示(数值越大,手势越简单):鲍勃(7),B -(7),R(6.8),l(6.5),L -(5.5),R -(5.5),B-R -(5.5)bl -(5.5)。四分之三的PMI参与者认为眼睑手势很容易学习,经过简短的练习后,他们变得更好了。“我很难做一些手势,因为除了眨眼,我几乎没有接受过其他手势的训练。例如,我很难先闭上双眼睑,然后单独打开左眼睑。我想原因是我对右眼皮的控制比左眼皮好,而且我以前没有练习过这个动作。然而,我发现在我练习了几次之后,它变得更自然了。

其余的PMI参与者认为,需要先打开一个眼睑,然后打开两个眼睑(即B-L-和B-R-)的手势令人疲劳。相反,他们提出了相反方向的新的眼睑姿势,比如关闭先睁一只眼,然后再闭上另一只眼(例如,L-B-, R-B-)。

对于那些长眼睑的手势,我们的方法要求用户在一段时间内保持眼睑的状态(即,打开或关闭)(即,用心数三个数字)。P1表示她希望能够自定义时长,比如缩短时长:“我注意到,长时间的保持确实有助于系统更好地区分我的‘长’手势和‘短’手势。但我对长时间的等待感到有点沮丧,因为我觉得这是在浪费时间。系统可以允许我定义“短”、“长”或甚至“长-长”的持续时间。例如,它可以要求我做这些手势,然后学习我喜欢的短手势和长手势的持续时间。”

平均评分眼睑手势和导航级别之间的映射为(值越大,映射越好):R(6.08),l(6.08),R -(5.83),L -(5.83),B -(5.67),B-R -(5.33)bl -(5.33)。所有四个PMI参与者都认为映射是自然的。尤其值得一提的是,更复杂的眼睑手势被分配给了频率较低但成本较高的命令(如切换应用程序),而更简单的眼睑手势则被分配给了相对频繁但成本较低的命令(如在应用程序内的容器或标签之间切换)。“作为一个颈椎受伤的人,我经常会做出错误的输入。增加应用切换的难度可以防止我无意中切换到其他应用。因为我更经常使用应用内功能,而不是在应用之间切换,我更喜欢简单的眼睑手势与频繁的应用内输入相关联,比如向上滚动查看社交媒体应用中的新更新。”

此外,P4认为,在用户无法以相同的轻松程度打开或关闭双眼睑的情况下,允许用户定义自己的映射会更好。此外,P2和P4希望有一个更难操作的手势作为激活识别的“触发器”。“我很难保持手机稳定,可能比其他人更容易错误地触发识别。在使用手机之前,我可能需要更多的时间把它放在一个舒适的位置。在此期间,我可能会不小心触发错误的电话命令。因此,一个更难做的手势,也许是三次眨眼,对我来说可能是一个触发识别的好手势。-P4(带假肢)"

我们进一步询问参与者使用场景眼皮的动作。参与者认为,当不方便使用手或手指时,眼睑手势很方便。“当我俯卧休息时,眼睑手势很有用。我的眼皮比手指更容易控制。事实上,我几乎控制不了我的手指。同样,当我做饭或上厕所时,我也会使用它。另外,因为我很难按下电视遥控器上的按钮,所以我喜欢用眼皮手势来切换电视频道。

总体而言,我们发现参与者在日常活动中喜欢在各种类型的电子设备(如电视、电脑、智能手机、平板电脑)上使用眼睑手势。此外,我们发现参与者更倾向于使用眼睑手势系统,以使他们能够1)自定义眼睑手势保持时间和手势与触发命令的映射关系;2)使用难以操作的手势激活识别,减少误报;3)在手指或手不方便或无法使用的情况下与计算设备交互。

回到顶部

5.讨论

我们对没有运动障碍的人和有运动障碍的人进行的用户研究表明,我们的算法能够在移动设备上以合理的精度实时识别他们的眼睑手势。这个结果令人鼓舞,因为他们只有不到5分钟的时间来练习手势。因此,我们相信我们的算法为有运动障碍的人打开了一个新的机会,通过眼睑手势与移动设备交互。

我们有五个建议对于为运动障碍患者设计和使用眼睑手势:1)因为不是所有用户都能以相同的轻松程度打开和关闭两个眼睑,所以很重要的是要估计用户控制每一个眼睑的能力,然后只使用用户能轻松完成的手势;2)因为预先定义的在某种状态下眼皮的持续时间可能并不适合所有人,所以允许自定义持续时间是可取的。事实上,参与者表示,系统可以从他们的手势中了解他们喜欢的时长;3)用两种或两种以上的眼睛状态(例如,B-R -bl -)以触发罕见或高错误成本的动作,因为用户认为这类手势要求更高,不太可能被错误触发;4)允许用户定义一个“触发”手势来激活手势检测,以避免错误识别;5)允许用户定义自己的手势,以丰富他们的互动词汇。

回到顶部

6.局限性和未来的工作

虽然我们的参与者没有抱怨疲劳,因为研究时间短,但长时间做眼睑动作可能会疲劳。此外,我们的研究只包括了一小部分有运动障碍的人。未来的工作应该进行更大规模的研究,让更多的参与者在更长的时间内拥有更多样化的运动障碍,以更好地理解使用眼睑手势的实践和挑战。

作为为有运动障碍的人设计眼睑手势的第一步,我们的工作开辟了有前景的未来研究方向。

眼睑。我们的眼睑手势设计空间是基于四种眼睑状态,眼睑或打开或关闭。如第二节所述,眼睑也可能处于半闭状态(如眯眼)。在设计空间中加入半封闭状态会导致更多的眼睑动作。

眼睑状态持续时间。我们将眼皮状态的持续时间分为两个独立的级别:而且长。然而,更多的级别是可能的。事实上,研究2中的一名参与者建议持续时间“长—长”。未来的工作应该研究用户能够合理区分的持续时间水平,以发现更多的眼睑手势。

手势分隔符。我们使用“双眼皮睁开”作为手势分隔符,因为这是人们醒着时眼睛的默认状态。然而,其他分隔符可能启用新的眼睑手势,例如“眨两次右眼/左眼(尽管保持另一只眼睛闭着)”。

用户自定义的眼睑手势设计。我们的研究表明,有运动障碍的人更喜欢定制眼睑手势,以在不同的环境中使用,并避免基于他们控制眼睑的能力的虚假识别激活。因此,了解有运动障碍的人想要创造和使用什么眼睑手势是非常必要的。与运动障碍患者联合设计工作坊和手势诱导研究是发现用户定义的眼睑手势的可行方法。

眼睑手势和混合眼手势。我们探索了一个可能的眼睑手势子集,在手势分隔符之间有一个或两个眼睑状态(即,两个眼睑都打开)。还有一些手势有两个或两个以上的眼睑状态,比如“连续眨眼三次。”虽然这样的手势看起来更复杂,但它们可能更有表现力,因此更容易记住。未来的工作应该探索复杂性而且表达能力眼睑动作。

此外,文献还探讨了运动障碍患者在输入文本、在电脑屏幕上画画和在轮椅上导航时的凝视手势。因此,值得探索将眼睑手势与凝视相结合的方法,创造出混合的眼部手势,以丰富运动障碍患者和非运动障碍患者的无触碰互动。

回到顶部

7.结论

我们已经迈出了第一步,为有运动障碍的人设计眼睑手势,以与移动设备交互,而不需要触摸设备。我们提出了一种算法,可以实时检测智能手机上的9个眼睑手势,并证明它可以识别9个眼睑手势,适用于身体健全的用户在不同的室内环境和姿势(例如,坐着和站着),也适用于运动障碍患者,每个手势只需要5个训练样本。此外,我们还为运动障碍患者设计了一种仅使用眼睑手势导航应用程序的手势映射方案。我们的研究还表明,他们只需要几分钟的练习就能学习和使用映射方案。根据参与者的反馈和我们的观察,我们提出了设计和使用眼睑手势的5个建议。

我们的工作只触及了运动障碍患者和手部繁忙的普通大众的眼睑手势的潜力的表面。未来的工作包括在不同环境下对更多具有不同运动能力的人进行更大规模的研究,通过允许定制和使用不同的手势分隔符来探索更丰富的眼睑手势集,并将眼睑手势与其他输入模式(如凝视和面部手势)结合起来。

回到顶部

鸣谢

我们要感谢我们的参加者和河北省残疾人联合会、石家庄市残疾人联合会在招募工作中的帮助。

回到顶部

参考文献

1.Albert, m.v., Toledo, S, Shapiro, M, Koerding, K.在帕金森患者中使用移动电话进行活动识别。前面。神经。(2012), 7。

2.阿劳霍,j.m.,张g,汉森,J.P.P,普瑟瑟帕迪,S.探索眼注视轮椅控制。在ACM眼球跟踪研究与应用研讨会(2020), ACM出版社,美国纽约,1-8。

3.答:协会。谁会得als?ALS协会,2020年。https://www.als.org/understanding-als/who-gets-als

4.范,M,李,Z,李,F.M.运动障碍患者移动设备上的眼睑手势。在22nd计算机与可访问性国际ACM SIGACCESS会议,(纽约,NY, USA, 2020),计算机械协会,纽约,美国。

5.卫生统计委员会等。概要卫生统计:2018年全国卫生访谈调查。

6.Jota, R., Wigdor, D.上眼睑:探索眼睑手势的设计空间。在第四十一届会议记录图形界面会议(多伦多,安大略,加拿大,2015),加拿大人机通信协会,ACM出版社,纽约,美国,3-5。

7.Leiva, L., Böhmer, M., Gehring, S., Krüger, A.回到应用:移动应用中断的成本。在14国会议记录th移动设备与服务人机交互国际会议(纽约,纽约,美国,2012),ACM出版社,纽约,美国,291。

8.李铮,范,M,韩,Y,张,K.N. iWink:探索移动设备上的眼睑手势。在会议记录1以人为中心的多媒体分析国际研讨会, (New York, NY, USA, 2020),计算机协会,美国纽约,83-89。

9.G. LLC. Mobile Vision |谷歌开发者,2019。

10.MacKenzie, I.S, Ashtiani, B. Blinkwrite:使用眨眼的高效文本输入。通用存取信息系统, 1(2011), 69-80。

11.莫里斯,m.r.,沃布罗克,j.o.,威尔逊,A.D.。了解用户对表面手势的偏好。在图形界面学报(多伦多,安大略,加拿大,2010),加拿大信息处理学会,ACM出版社,美国纽约,261-268。

12.Naftali, M., Findlater, L.情境中的可访问性:理解有运动障碍的智能手机用户的真正移动体验。在16届会议记录th计算机与可访问性国际ACM SIGACCESS会议(2014), ACM出版社,纽约,美国,209-216。

13.佩德雷戈萨,瓦罗夸,G,格拉福特,A,米歇尔,V,蒂里翁,B,格里塞尔,O,布隆德尔,M,普莱特滕霍弗,P,韦斯,R,杜堡,V,等。Scikit-learn: python中的机器学习。j·马赫。学习,第12条,(2011), 2825-2830。

14.Pedrosa, D., Pimentel, m.d.g., Wright, A., Truong, K.N. Filteryedping:无居住眼打字的设计挑战和用户性能。ACM反式。可访问的计算, 1(2015), 1 - 37。

15.A.普拉丹,K.梅塔,L.芬德拉特。“无障碍是偶然出现的”,残疾人使用语音控制的智能个人助理。在2018年计算系统中的人为因素CHI会议论文集(2018), ACM出版社,美国纽约,1-13。

16.普林迪,b.p., Renken, l.m., Herrmann, J.P, Lee, I., Johnson, B., Knight, E., Varga, G., Whitmer, D.帕金森病运动损伤严重程度分级的智能手机应用。在2014年36thIEEE医学与生物工程学会年度国际会议(2014), ieee, 2686-2689。

17.罗扎多,D.,牛,J.,洛克纳,M..结合目光指向和面部动作的快速人机交互。ACM反式。可访问的计算, 3(2017), 1-18。

18.Ruiz J., Li Y., Lank, E.移动交互的用户定义动作手势。在计算系统中的人为因素2011年年会论文集(纽约,纽约,美国,2011),ACM出版社,纽约,美国。

19.西尔斯,A,克拉特,c - m。,Oseitutu, K., Karimullah, A., Feng, J. Productivity, satisfaction, and interaction strategies of individuals with spinal cord injuries and traditional users interacting with speech recognition software.通用存取信息系统, 1(2001), 4-15。

20.斯特恩,j.a.,瓦尔拉斯,l.c.,戈尔茨坦,R.内生眨眼。心理生理学21, 1(1984), 22-33。

21.白色,N.-H。,Black, N.-H. Spinal cord injury (sci) facts and figures at a glance. In国家脊髓损伤统计中心,事实和数据一览伯明翰(2016)。

22.沃布罗克,j.o.,鲁宾斯坦,索耶,m.w., Duchowski, A.T.。文本输入时离散连续凝视手势的纵向评价。在2008年眼球追踪研究与应用研讨会论文集(2008), ACM出版社,美国纽约,11-18。

23.张,X., Kulkarni, H., Morris, M.R.基于智能手机的运动障碍者凝视手势交流。在2017年计算系统中的人为因素CHI会议论文集(2017), ACM出版社,美国纽约,2878-2889。

回到顶部

作者

明明风扇mingmingfan@ust.hk),计算媒体与艺术,香港科技大学,广州,中国。他担任通讯作者。

甄李zhen@dgp.toronto.edu),多伦多大学计算机科学系,加拿大多伦多。

富兰克林·李明哲mingzhe2@cs.cmu.edu),人机交互,卡内基梅隆大学,匹兹堡,宾夕法尼亚州,美国。

回到顶部

脚注

这篇论文的原始版本题为“移动设备上的眼睑手势为运动障碍的人”,并发表在二十二届会议的会议记录nd计算机与可访问性国际ACM SIGACCESS会议, 2020年。


©2022 acm 0001-0782/22/1

允许为个人或课堂使用部分或全部作品制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。除ACM外,本作品的其他组件的版权必须受到尊重。允许有信用的文摘。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,都需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org传真(212)869-0481。

数字图书馆是由计算机协会出版的。版权所有©2022 ACM, Inc.


没有找到条目

Baidu
map