使用语音命令来控制计算机的经验已经通过新一代的语音交互系统来改造。苹果公司的Siri和谷歌现在已经提供了几年,证明这项技术不再是其婴儿期。现在更像是一个小孩:刚开始走路和谈话 - 但仍然经常摔倒,经常说完全无稽之谈。

回声:更少的是?

Siri和Google现在嵌入到智能手机中,但回声,来自亚马逊的较新的语音交互系统,采用了不同的方法,提供了与静止设备的语音交互,而不是作为移动操作系统的一部分。

显示echo的照片在手机旁边
亚马逊的回声是一种语音控制的计算机,远大于移动电话(所示为比较)。回声必须连续插入电源。

在纸上,Siri,谷歌现在和Alexa(与回声说话时使用的名称)看起来很相似。它们都不断侦听“激活短语”,然后执行播放音乐,查找信息和设置计时器等任务的用户指令。

有趣的事情是,即使回声在Siri和Google现在几年发布,与那些Systems Alexa没有很聪明。当您提出所有三个系统的同一问题时,请考虑结果:

鸡肉应该煮到什么温度?

谷歌现在:“一百六十五华氏度;根据厨房的事实,熟鸡的安全内部温度是一百六十五华氏度。“

Siri.:“让我检查一下......好吧,我在网上找到了什么温度应该煮熟的温度......看看:”

亚历克斯:对不起,我不明白我听到的问题。

显然,Alexa不是盒子里最亮的灯泡。她还缺少了Siri和Google现在提供的一些关键功能:一个显示视觉输出的屏幕。Echo确实有一个配套的智能手机应用程序,但它专注于调整设置和其他辅助功能。核心交互是通过设备本身进行的,它本质上是一台必须插在墙上的计算机,并且只包括一个扬声器和麦克风。如果没有屏幕,Echo就不能显示丰富的输出,比如搜索结果列表。

从表面上看,回声似乎是一个很大的倒退,特别是考虑到大多数技术爱好者往往是新产品的早期采用者,现在可能已经拥有了配备Siri或Google的智能手机。

那么,为什么人们要为一个功能比他们现有的少的设备付费呢?

预防错误

其中一个经典可用性启发式预防错误:而不是仅帮助用户从错误中恢复的概念,系统应该防止错误的错误。随着近年来的语音识别有所改善,自然语理解的错误已经显着下降。希望这种趋势将继续所有语音交互系统。

但在基于智能手机的语音交互中,有一种明显的错误是很常见的:完全检测不到激活短语。当环境中存在多个声音流时,此问题尤其常见—例如,如果设备正在播放音乐,而您发出停止音乐的命令,如本视频中所示:

在大多数浏览器中,如果它们尚不可见,将鼠标悬停在视频上以显示控件。

如上所述在记录中所示,SIRI通常在发生干扰噪声(例如音乐)时经常无法检测语音命令。Siri还可以在设备相对较远或当您在口袋或钱包中的设备时忽略命令。如果您设置了计时器并想知道剩下的时间,Siri的典型体验可能会这样:

嘿Siri,剩下多少时间?(口袋里的手机。)

苹果智能语音助手:

嘿Siri,剩下多少时间?(将手机从口袋里拿出来)

苹果智能语音助手:我发现了一篇关于时间的文章。我要读给你吗?

不,计时器还剩多少时间?

苹果智能语音助手:这是计时器。它以8分8秒的速度运行。

回声,另一方面,在所有其他方面都优先考虑语音互动。它包括7个麦克风和一个初级强调,以与背景噪声(与iPhone 6s相反,它采用具有屏幕的紧凑移动设备并仅包含2个麦克风)。结果是戏剧性的:甚至从alexa横跨房间alexa of off,甚至无法介意把它从口袋里脱离。

亚历克斯,还有多少时间?

亚历克斯:约6分10秒。

Besides the superior voice recognition, there’s also a difference in the semantic processing of the two examples above: Alexa interpreted ‘time’ as referring to the device timer, while Siri assumed it was a general web query, and didn’t relate it to the device timer until the specific keyword ‘timer’ was added. Siri’s ability to expedite web searches with voice input for queries is certainly valuable, but the bias towards interpreting user questions as web searches can actually increase error rates when doing other tasks. The benefit of the Echo’s more focused functionality is even more apparent if you need multiple timers (not an uncommon scenario when cooking). When asked to set a new timer, Alexa easily responds, “Second timer set for forty minutes, starting now” while Siri, who only has one timer, balks: “Your timer’s already running, at 9 minutes and 42 seconds. Would you like to change it?”

Siri不太强大的语音检测并不总是一个交易破坏者-这取决于任务。搜索信息时,通常你需要靠近屏幕才能看到详细的搜索结果,因此从口袋里掏出手机不会比没有语音控制的情况下增加任务时间。不管怎样,说出命令可能比键入命令要快。

但对于短时间的任务,如果第一次听不到命令,很容易打破平衡,使语音系统比现有的物理替代方案更麻烦、更耗时,比如瞥一眼数字计时器或穿过房间翻动电灯开关。新技术必须使任务更快更容易,才能成为现有工具的可行替代品。对于较短的任务,语音检测错误可能会导致无法执行此任务。

灵活性和效率

Alexa在检测远程语音命令方面的卓越准确性,尽管背景噪声影响了另一个核心可用性原理:系统提供灵活性和效率的程度。

智能手机语音交互系统可以随时随地陪伴您,而回声由于其较大的尺寸和对连续电源的需求,只能在家庭环境中工作。但矛盾的是,在这种环境下,这种相对笨重的设备为用户提供了更大的灵活性,用户不需要经常随身携带设备就可以即时访问其功能。因此,你可以选择更广泛的方式和时间使用该设备:你可以在做饭等其他任务中,或者在床上或沙发上,如果你因残疾而行动受限或只是不想起床,就可以与它交谈。

这种类型的纯语音控制需要连续收听激活短语。Although having your every word monitored by a device may seem creepy, the immediate result is the voice-recognition device can actually be less intrusive — because you don’t have to remember to carry it around, or take it out and look at it instead of at your companions.

另一方面,回声最大的局限性之一是一些任务仍然痛苦效率低下。将一个项目添加到购物清单很简单,快速,但快速添加几个项目变得重复和耗时。对于每个项目,您必须陈述激活字,然后是命令,然后在重复下一个项目的过程之前等待口头确认。结果是这样的对话:

用户:Alexa,将牛奶添加到购物清单。

亚历克斯:我已经将牛奶添加到购物清单中。

用户:Alexa,把鸡蛋加到杂货店的单子上。

亚历克斯:鸡蛋添加到购物清单。

用户:Alexa将黄油放在购物清单上。

亚历克斯:我已添加黄油到您的购物清单。

用户:Alexa将谷物添加到购物清单。

亚历克斯:我已将谷类食品添加到您的购物清单中。

用户:Alexa将Cheddar奶酪放在购物清单上。

亚历克斯:Cheddar Cheese添加到您的购物清单中

用户:Alexa将糖,面粉和盐放在购物清单上。

亚历克斯:我向购物清单添加了糖粉盐。

在大约第三件商品之后,你开始思考,肯定必须有更快的方法来做这件事。您可以通过将多个不同的项目一起说明几个不同的项目,但列表最终显示整个文本字符串作为单个列表项,如下所示。

Amazon Echo应用程序中购物列表的屏幕截图
当您告诉Alexa将“糖,面粉和盐”添加到您的购物清单中,她添加了单一项目“糖面粉盐”。虽然这可能足以在杂货店慢慢慢跑,但它肯定不适合请求的意图。

结论

在其他方面,Alexa在支持可用性启发式方面比Siri或Google差,主要原因是缺少屏幕:

  • 系统状态的可见性仅限于动画光环;虽然这很好,但它是从录制的丰富文本反馈中哭泣。
  • 支持认可召回在唯一的语音界面中也是严重限制的,因为甚至登录选项列表需要用户在进行选择时将用户存储在工作内存中的选项。

当新技术出现时,狂热者往往会很快宣布,我们需要从头开始,重新发明更适合新技术的设计方法和原则。消除视觉显示肯定会改变交互体验。但是,从视觉输出到听觉输出的转变是否意味着所有的规则都改变了?

无论技术如何不同,使用它的人都没有改变。大多数可用性原则与人类能力和限制相比,与技术有关。(本文中讨论的这种永恒设计原则的示例包括预防,灵活性,效率,系统状态的误差,效率,可见性和识别与召回。)Echo提供独特的价值,即使是已经拥有良好的语音交互系统的用户也是如此。虽然声音的媒介是完全不同的,但在使用回声时经历的令人沮丧的错误和看似神奇的成功措施可以清楚地追溯到审判和真正的可用性启发式。