可用性的圣杯是构建一个无需任何要求的界面交互成本:无需用户做任何事情就能满足他们的需求。虽然界面设计还远远不能读取人们的思想,但像Alexa、谷歌Assistant和Siri这样的智能助手是朝着这个方向迈出的一步。

UI特性

基于智能计算机的助手结合了5个基本的用户界面技术:

  1. 语音输入:说出命令,而不是通过键入或单击/点击图形项目发出。
  2. 自然语理解:用户不局限于使用特定的、计算机优化的词汇或语法,而是可以以多种方式组织他们的输入,就像他们在人类对话中所做的那样。
  3. 声音输出助手不是在屏幕上显示信息,而是大声读出信息。
  4. 聪明的解释:除了用户的文字输入外,该助手还利用其他信息(如上下文或过去的行为)来估计用户想要什么。
  5. 机构:助手执行用户没有要求但由计算机自行执行的操作。

智能口译和代理人都要求该助理积极借鉴关于用户并能够在用户服务中修改其行为。

因此,在评估智能助手的用户体验时,我们需要考虑6个问题:5种技术中的每一种,加上它们的一体化

集成一系列UI技术的想法并不新鲜。最流行的图形用户界面(gui),即WIMP(“窗口-图标-菜单指向设备”),背后也有同样的原理。你可以没有鼠标也有窗口(使用alt.-标签)或没有图标的鼠标(点击文字),但整套工具生成了一个集成良好的GUI,已经提供了30多年的良好可用性。

并不是所有的助理都在任何时候使用所有的5种UI技术:例如,如果一个屏幕可用,助理可能使用视觉输出而不是声音输出。然而,这5种技术在顺利集成的情况下相互支持和增强。例如,与传统的基于命令的交互方式相比,语音命令在可用性上有一个固有的弱点(它们依赖于一定程度的回忆,而单击和直接操纵涉及认出),但自然语言可能使编写命令比点击图标更容易。

集成这5种UI技术保证了具有两个优点的交互风格:

  • 它可以缩短物理界面,简单地允许用户用自然语言表达他们的目标。尽管说话确实涉及交互成本,但从理论上讲,这种成本比学习一个新的UI、按下按钮和做出选择的成本要小。
  • 它可以通过基于上下文信息或先前的用户行为提供适当的建议,推断用户的目标并主动。事实上,这个第二方面更接近“阅读我们的思想”。

背景建议在今天的助手中仍然相当有限,尽管在这个方向上采取了一些小步骤——谷歌Assistant解析电子邮件,并将航班或餐厅预订添加到日历中;Siri和谷歌Assistant都会提醒用户,一旦他们离开某个地点,到达一个经常去的目的地需要多长时间。当这些上下文建议是适当的,它们会无缝地推动用户向他们的目标前进。

用户研究

为了更好地理解这些助手在今天带来了什么挑战,以及它们在哪里帮助用户,我们进行了两个可用性研究(一个在纽约市,一个在旧金山湾区)。共有17名参与者——5人在纽约,12人在加州——被邀请到实验室进行单独的实验,他们至少经常使用一种主要的智能助手(Alexa,谷歌Assistant和Siri)。每节课都包括可用性测试(参与者使用Alexa、谷歌Assistant或Siri完成导师分配的任务)和面试。

在研究的可用性测试部分,我们要求参与者使用助手完成各种各样的任务,从简单的(例如,4th比如,7月的那个周末,附近沃尔格林药店的营业时间,乔治·克鲁尼出生的时间),还有更复杂的情况(比如,斯坦利·库布里克(Stanley Kubrick)的倒数第二部电影拍摄的年份,莫斯海滩周末的交通状况)。

本文总结了我们的主要结论。一种第二篇文章将讨论社会维度与智能助手的相互作用。

结果:交付的可用性严重低于承诺的可用性

我们的用户研究发现,目前的智能助手在所有6个问题(5项技术加上集成)上都失败了,导致整体可用性水平对于稍微复杂的交互几乎毫无用处。对于简单的交互,这些设备确实满足了最低的可用性要求。尽管这违背了以人为本的设计的基本前提,但用户必须训练自己理解什么时候智能助手有用,什么时候最好避免使用它。

我们的意识形态一直是,计算机应该适应人类,而不是反过来。人工智能的前景正是高适应性,但我们在观察实际使用时并没有看到这一点。相比之下,观察用户在AI界面上的挣扎感觉就像回到20世纪70年代的黑暗时代:需要记住神秘的命令,压抑的模式,混乱的内容,不灵活的交互——基本上是一个不愉快的用户体验。

让我们来看看这6种UI技术,并评估它们在多大程度上实现了对用户的承诺。虽然这个问题的答案令人遗憾,但我们也可以问,当前的弱点是技术固有的,并将继续存在,还是由当前的技术限制造成的,并将得到改善。

用户界面技术

最新的可用性

未来潜力

语音输入

很好(非母语人士除外)

很快就会变得很棒,还能应付口音

大部分输入的正确转录,其名称偶尔例外。

自然语言

可以变得更好,但是很难做到吗

不理解多句句;等价的查询公式产生不同的结果。人们对代词指称物的认识有限。

声音输出

固有的可用性有限,除了简单的信息

除了几个任务(例如,导航,天气),助手无法始终会对查询产生令人满意的声音。

聪明的解释

能变得好得多,却很难做到

助手们用简单的上下文信息,如当前位置,联系人数据,或过去的频繁的位置,但很少去那边。

机构

可以变得更好

仅使用外部信息(例如日历或电子邮件)的有限使用,以推断用户感兴趣的潜在行动。

集成

可怕的

可以变得更好,但需要很多繁琐的工作

这些助手不能很好地与设备上的其他可用应用程序工作,与各种“技能”或“动作”的交互也不能利用所有的UI技术。

我们是不是太不讲理了?近年来,基于人工智能的用户界面不是已经取得了巨大的进步吗?是的,目前的人工智能产品比过去几十年的许多人工智能研究系统都要好。但是普通人日常使用的要求远远高于研究生演示的要求。我们在20年前的学术会议上看到的演示令人印象深刻,为基于人工智能的交互带来了巨大的希望。目前的产品更好,但没有实现承诺。

这个承诺仍然存在,而且人们已经从智能助手那里得到了一些用处。但是这种交互风格需要巨大的进步来支持更广泛的使用和高水平的可用性。一个类比是移动设备的发展:当我们2000年测试的移动可用性,结果糟透了。然而,移动信息服务的前景是显而易见的,许多人已经大量使用了一种特别有用的低端服务:人对人短信。经过多年的技术进步和更紧密的用户界面整合,首款像样的智能手机终于面世,但最终还是得到了认可2009年手机可用性水平较低.又一个十年的进步移动用户界面现在非常好

基于人工智能的用户界面可能会略好于手机的可用性是在2000年,但不是很大。这将需要二十年,达到良好的AI可用性?有些问题是需要解决是如此艰难,这甚至可能是一个乐观的评估。但正如与移动,以人工智能为基础的用户界面的好处是足够大,即使中途点(即,体面的,但不是很好,易用性)是可以接受的,并可能是指日可待更快。

人们为什么使用助手

我们的大多数用户报告说,他们在两种类型的情况下使用智能助手:

  1. 当他们的手很忙 - 例如,在驾驶或烹饪过程中
  2. 问问题的速度比打字和阅读结果的速度快

第二种情况值得讨论。大多数人对助手可以做的事情明确的期望,并且经常说他们不会使用助理以获得复杂的信息需求。他们觉得一个明确答案的查询有很好的机会被助理正确回答,两位参与者明确提到5W1H(谁,什么,何地,何时,为何,如何)问题。相比之下,通过网络搜索或与基于屏幕的设备(如电话或平板电脑)更好地解决了更细微的,研究类似的研究的信息需求。

然而,一些人认为,如果问对了问题,这些助手甚至能够完成复杂的任务。一名用户说:“我可以用Siri做所有在手机上能做的事情。(……)复杂的问题——我必须简化它们才能奏效。”

然而,大多数人认为思考正确的问题是不值得的。正如一个用户所说,“Alexa就像一个外星人 - 我必须向它解释一切......它只是简单的疑问。我必须告诉她一切。我想简单地提问,并不认为[关于如何制定问题]。“

一个值得注意的区域,语音助理保存的交互成本是听写:长消息或搜索查询比类型更容易说,尤其是在移动设备上,其中微小的键盘易于出错,缓慢,令人沮丧。参与者通常很快注意听写是轻易不完美的和有用的,当他们不能类型(例如,因为他们走路,开车,做饭,或者只是从一个设备与一个真正的键盘),并避免听写如果文本独特的术语可以mistranscribed使用。他们还提到了让助手插入正确的标点符号的困难(要么是当用户停顿表示句子结束时,助手会停止听,要么助手会完全忽略标点符号,要求用户校对和编辑文本)。

用助手

当参与者花时间考虑如何制定查询然后将其交付给助手以连续流程,助手通常能够解析整个查询。作为一个用户,“在你问它之前,你应该想到你的问题 - 因为在你把它说到[助理]时很难解决它。你只是事先想到它,因为它不像一个人在与他们谈话中的人[你可以模糊]。“另一个人说:“当我问问题时,我几乎觉得自己是一个机器人,因为我必须以如此清晰简洁的方式说出来,我必须如此清楚地想到它。当我试图给出命令或询问特定问题时,你不使用很多拐点。它真的只是拿起言语,它不是在你的声音中捡起情绪。“

但许多参与者开始在完全制定查询之前开始发言(正如您通常与人类一样),并且偶尔会暂停寻找最佳词语。这种暂停在谈话中是自然的,但助理没有正确解释它们,并且经常赶紧回应。当然,在大部分时间内对这种不完整查询的答案不正确,整体效果是不愉快的:参与者抱怨他们被打断了,助理“谈到他们”,或者助理是“粗鲁”。有些人甚至走到明确骂助手(“Alexa,那就粗鲁!”)。

当人们需要重申一个没有被正确理解的问题时,他们通常会以一种非常夸张的方式发音(就像他们在和一个有听力障碍的人说话一样)。

大多数参与者觉得复杂的多句句(比如“如果我想避开交通,周六我应该什么时候出发去莫斯比奇?”或“查找今天下午4:55从伦敦飞往温哥华的航班状态”),但助理们却不太可能理解。一些人试图在多个查询中分解这样的句子。例如,一个参与者想知道库布里克倒数第二部电影是什么时候制作的,他要了一份库布里克的电影清单,然后计划就清单上倒数第二部电影提出问题。不幸的是,Siri一点用都没有,因为它只是提供了库布里克电影的一个子集,没有明显的顺序。

非本地的英语

几个人有外来的口音,觉得助手并没有总是得到他们的话语,不得不经常重复自己。这些人受挫,认为助手必须学会处理各种语言和讲话方式。

除了口音,还有三个因素影响了他们与助手的合作成功:

  1. 他们可能比母语人员在他们的话语中暂停更多。这些暂停通常被助理解释为查询的结束。
  2. 当他们觉得自己读错了一个单词,最终把同一个单词说了两遍时,他们倾向于纠正自己。这些重复的话似乎让助手们感到困惑,尤其是Alexa。
  3. 他们有时会使用不太常见的措辞。例如,一个参与者问“Alexa,英国的足球队在足球锦标赛中扮演的时候。”Alexa无法找到该问题的答案。

幸运的是,口音理解是计算机具有潜力的一个领域比现实:他们可以识别出比人类更好的单词的非标准发音。计算机不关心你是如何发出某个单词的方式 - 除非它训练只识别特定声音,都可以理解,了解几种不同的声音都代表相同的单词。因此,我们期望更好的口音识别只是时间问题。应对本节讨论的其他问题将更困难。

展示答案

助理的语言

一些参与者抱怨助手说得太快,而且没有办法让它重复答案。特别是当答案太长或太复杂时,参与者无法将所有信息提交给他们工作记忆.例如,在提供抵押贷款报价之前,Alexa借贷树技能要求用户通过背诵地址和抵押贷款条款来确认所输入的所有细节是否正确,然后列举一组必要时用于编辑信息的命令。一名用户说:“它在最后说得太快了——它说‘如果有什么不对的,就得说什么等等’;要记住所有的选项太难了。”

当助理误解了问题并给出了错误的回答时,这种经历是令人不快和恼火的。人们讨厌等待一个完全不相干的冗长回答,并努力在对话中插入“Alexa,停止”。一位参与者解释说:“我不喜欢的是,当我开始和Alexa说话时,她总是不闭嘴。这才是更人性化的互动。[…]是理想的如果它互动小于“Alexa,停止”——“ok”,或“足够”,或者几乎任何我咕哝[…]就像跟人地往前走,你等着找到一个停顿,这样你就能以某种方式阻止他们。”

但是,即使是一些正确的助理回应太罗嗦了。一位用户抱怨说,当她试图将项目添加到购物清单,Alexa的确认“<项目>添加到购物清单”各一个。感觉上这样的重复性工作太多的话。另一位用户名为谷歌助理“太繁琐”,当它到约药房营业时间查询提供额外的信息。一位与会者推出了她的眼睛,当在Alexa的提拉米苏配方列表读取每个配方很长的描述,包括(部分)相当明显的和重复的成分一提的 - 像鸡蛋。

语音与屏幕结果

智能助手的主要用途之一是在汽车、厨房或其他类似情况下免提使用。我们的用户认为在绝大多数情况下,语音回答优于屏幕上的回答。(例外情况包括答案包含敏感信息的情况——例如,一名女性不喜欢大声读出她的预约医生信息,她说:“我宁愿让它说‘事件’这个词”。)

大多数智能音箱都没有屏幕,所以它们必须以声音的形式传达答案。这一限制使得一些参与者更喜欢使用扬声器,而不是使用手机,因为混合模式交互感觉更乏味。

基于电话的助理通常推迟到搜索结果时,他们没有现成的答案,迫使用户与屏幕互动。当他们不得不在结果列表中使用他们的眼睛和手指来浏览别人感到失望。他们评论说,“它没有给我正确的答案。它给了我的文章和链接。It doesn’t tell me what I asked,” and “I kind of wish that it didn’t show me just some links… [At least it] should tell me something… And then, maybe `if you want more, check this or that.’”

正确答案后,“它感觉就像魔法一样。”一位参与者要求谷歌助理“我应该在布拉格度过多少天?”,回应大声和清晰:“根据Quora的说法,您应该理想地在布拉格花3-4天。”用户说:“这就是我在别人里寻找的;它大声读取信息,并显示了信息。“这些类型的经验被认为是我们的参与者最有帮助的,但我们在我们的研究中很少见:尽管这项任务由几个参与者执行,但只有一个使用了产生明确的口头答案的“正确”查询制定;另外六个尝试了同一问题的变体(“好的谷歌,你认为在布拉格的假期是多少,”,好的谷歌,我应该在布拉格度假多长时间“,”嘿Siri,怎么样many days is enough for visiting Prague,” “OK Google, what’s a good amount of time to stay in Prague,” “Siri, how many days should I go to Prague for?”, “Siri, if I go to Prague, how long should I go?”) got a set of links instead from both Siri and Google Assistant, except for the last query, which was offered the traffic around Prague.

对于Siri来说,那些链接具有破坏性还有另一个原因:那些点击结果列表中的链接的人会被带到浏览器或其他应用程序,有些人不知道如何回到列表继续检查其他结果。一位iPhone用户点击了一家餐厅,想在地图上看到它,然后试图返回其他餐厅;她说,“噢,不,(餐厅)消失…是困扰我的一件事,我不知道如何检索Siri的请求,你知道,一旦说你会发现有趣的东西……如果我开车,如果我真的想找到谁出演这部电影,我可以说“添加到我的待办事项清单后的或者我可以说“查”,但是我不会看,直到我到达目的地,,我在那里的时候,消失了…所以这列表餐馆地图上消失了,因为我感动,所以我必须再试一次。(如果用户点击了。返回应用程序iphone按钮在屏幕的左上角,但该按钮很小,很多用户不熟悉它。然而,与其他智能助理相比,无法检索互动史的越一般的观点绝对是SIRI的弱点。即使是Alexa允许用户在Alexa移动应用程序中看到他们的查询历史。)

当转录不是瞬时的时候,基于屏幕的助手转录用户的查询会引起问题。一名参与者认为,因为她在屏幕上没有看到自己说过的任何一句话,所以Siri没有听到她说的话,所以她会重复说前几句话。由此产生的话语通常不能被助手正确理解。

部分答案

有时Alexa公开认识到它没有答案。当它提供仍然相关的信息时,虽然不是对用户查询的直接响应,但参与者很高兴。例如,一个用户在Willow Glenn(圣何塞,加利福尼亚州)和Alexa的一家社区)和Alexa表示,它不知道答案,而是提供了旧金山湾区的平均租金。用户很高兴助理将Willow Glenn认可为湾区的一部分,答案也没关系。另一个用户问道“Alexa,山景一卧室公寓多少钱?”而且,当助手回答“抱歉时,我不知道那个。现在,我能够查找电话号码,小时和地址。“,用户评论了”谢谢。这真的很有帮助 - 就像'OK,我不能这样做,但我可以做到这一点'......“

当是,而不是声乐答案,Siri或Google助理提供了一套屏幕结果,第一次反应是失望的,如上所述。但是,如果屏幕上的结果与他们的查询相关,人们有时会觉得经验是可以接受的,甚至是好的。(This perception may be specific to the laboratory setting, where participants’ hands were free and they could interact with their device.) Many felt that they knew how to search and pick out relevant results from the SERP better than an assistant (and especially better than Siri), so when the assistant returned just the search results, some said that they would have to redo the searches anyhow. A few people tried to formulate search queries out loud when talking to the assistant and bet on the idea that the first few results would be good enough. These people used the assistant (Google Assistant usually) as a vocal interface to a search engine.

相信结果

人们知道智能助手是不完美的。因此,即使助手提供了一个答案,他们有时也会怀疑这个答案是否正确——不知道这个问题是否得到了完整的理解,还是助手只匹配了部分答案。正如一位用户所说,“我不相信Siri会给我一个对我有益的答案。”

例如,当被问到配方时,Alexa提供了一个“顶部配方”,其中备选值更多。但它没有关于“顶部”的信息,以及如何选择和订购食谱。这些高度评分的食谱是吗?由知名博客或烹饪网站发布的食谱?人们不得不信任选择和订购为他们制造的alexa,没有任何支持评级或审查数量的证据。特别是alexa,用户无法看到结果并刚刚听到列表,问题是如何组装的问题对几个用户来说很重要。

然而,即使是基于手机的助手也会引发信任问题,尽管他们可以使用屏幕来支持证据。例如,在其中一项任务中,用户要求Siri在前往莫斯比奇的路上找到餐厅。Siri确实返回了一个有相应Yelp评分的餐厅列表(似乎已经回答了这个问题),但没有地图显示这些餐厅确实满足用户指定的标准。访问所有餐厅的地图也很乏味:用户必须选择一家餐厅,然后点击它的地图;那张地图显示了Siri选择的所有餐厅。

Siri没有显示地图上的餐厅列表。要访问地图,用户必须选择一家餐馆并在地图上显示它。一旦他们这样做,有些用户不知道如何恢复餐馆列表(可以通过单击返回应用程序按钮来完成Siri.在屏幕的左上角)。

相比之下,谷歌助理做处理相同的查询的一个更好的工作:它确实显示所有在地图上建议的餐厅,并且用户可以看到(不幸)的结果集中在路线的青苔海滩结束,而不是在之间。

助手在地图上标出了餐馆。

对比较和购物的支持不佳

在我们的研究中,有若干原因,涉及比较的任务尤其较差:

  1. 演讲是一个效率低下的输出方式.需要一个长时间听向助手读出每个可能的选项,我们看到用户在听助手详细讲述一个选项时明显感到恼火。当参与者很快意识到自己并不关心当前的物品时,助理的唠叨尤其令人沮丧,因为她仍然不得不听Alexa或Siri没完没了地唠叨。如果两个人在交谈,他们可以用语调、面部表情或肢体语言来引导谈话走向双方都感兴趣的方向。但语音助手无法理解用户对某个选项不感兴趣,并停止谈论它。
  2. 用户无法轻松地来回切换和比较选项。他们必须将关于一个选项的所有信息存入他们的工作记忆中,以便将该选项与随后的选项进行比较。

For example, when offering different tiramisu recipes to a user, Alexa listed the name of the recipe, the time it takes to prepare it, and then said, “You can ask for more information, or, for more recipes, say ‘Next’.” If the user said, “Next”, it was difficult to go back and refer to a previous recipe. This interaction style assumed that the user was comfortable满意(即,选择第一个最低限度可接受的选项)而不是比较不同选项的优缺点。对于一些简单的任务,选择一个平庸的选择没有后果,满意可能是一个合理的假设,但在我们的研究中,即使是选择晚餐食谱,用户也想做一个公平的比较。

使用多个选择标准会使任务更加困难。例如,当使用谷歌Assistant比较纽约市的披萨店时,用户无法有效地比较每个披萨店的距离,然后根据他们在评论中获得的星级数来决定附近的选项所有这些信息都是针对每家餐厅单独呈现的,用户必须将所有这些细节保存在他们的工作记忆中,以比较不同的餐厅。

每一种选择都缺少相应的视觉细节,这一点很重要,尤其是对于网上购物、餐馆或酒店这样的东西。在我们的研究中,用户在无法查看商品的图像以评估商品,并再次检查商品是否正确的情况下,通常会打消购买商品的念头。含糊不清或名称相似的产品有太多的出错空间。

一位参与者甚至指出,向Alexa询问比特币的当前价格令人沮丧,因为它无法轻松地传达随着时间的变化,而这是人们交易快速波动的加密货币的一个关键因素。

技能和动作

对于像Alexa和谷歌Assistant这样的系统,用户可以访问专门用于特定任务的特殊“应用程序”(在亚马逊的生态系统中称为“技能”,在谷歌的生态系统中称为“行动”)。

从理论技能和行动可以扩大这些系统的力量,但在我们的研究中,他们证明了几乎没用。大多数Alexa用户不知道技能是什么;有些人之前遇到过他们,安装了一两个,然后完全忘记了他们的存在。

Alexa的技能有两个大的可发现性问题:

  • 他们要求用户恰好记住技能的名称。alt.hough you can ask Alexa what skills are currently installed on your device, the enterprise is quite futile, because Alexa starts describing them one by one in no apparent order, and by the time you got to the third skill, you feel you’ve had enough.
  • 它们要求用户记住召唤技能的咒语。理论上,这些是“play ”,“talk to ”,“ask ”,但在实践中,我们的参与者在使用这些短语时遇到了困难:一个词在一种技能中似乎可以,但在另一种技能中却不行。(我们让人们在Alexa应用程序中导航到技能页面,有时他们会尝试上面列出的词组作为例子,即使这些似乎也不起作用。)

一个人讲述了他买了一个回声装置的主要原因是如何来遥控自己的家庭娱乐系统与和谐,但随后挣扎着记得确切的话,他不得不使用调用和谐的技能,并最终放弃了使用它.

人们对谷歌助手的操作甚至不如对Alexa的技能熟悉。一名用户询问去莫斯海滩的路,收到后,继续询问“这周末怎么样”(意思是如果他周末离开,问路)。谷歌助手回答说:“当然,你可以和Solar Flair交谈。听起来不错吧?”这名用户说“可以”,然后意外地发现自己在Solar Flair活动中,在询问位置后,提供“莫斯海滩最多10个”。这个句子让用户完全糊涂了。(事实证明,Solar Flair会返回某个地点的紫外线指数。)这名用户评论道:“在这一点上,我对推出一款新应用却不知道它到底是什么感到不舒服。”

一名用户在周末的时候无意中发现自己在谷歌Assistant的Solar Flair活动中,因为他想去莫斯海滩。(在大多数浏览器中,如果视频不可见,鼠标悬停在视频上可以显示视频播放器控件。)

虽然似乎偶尔可能适当的行动(或技能)建议,但该建议应该附有关于应用程序的一些基本信息。

与技术交流

即使人们终于能够访问Alexa的技能之一,与他们的互动并不简单。与Alexa本身不同,它接受了相对自由形式的语言,技能需要受限制的一组响应。在许多方面,它们似乎非常类似于传统的交互式语音响应系统,这些系统要求用户通过说出特定的单词或数字来进行选择。人们不了解“限制语言”模式和“正常语言”模式之间的区别,以及许多与技能的互动失败,因为他们没有发现与应用程序交谈的正确方法。大多数情况下,他们只是忽略了指示,并以自由形式制定了答案和查询。这种行为产生了困难,并引发了技能的重复响应。

例如,餐厅资源管理器技能强制使用者通过说“1”,“2”或“3”来提出它建议的餐馆,而不是让他们使用餐馆的名称。孤独的星球技能所需的用户可以说明“最佳时间”等特定关键字,并不了解“2018年7月在悉尼的事件”等问题?“当用户询问此或其他未编写的问题时,技能重复了一套关于悉尼的一般事实。一位参与者评论了“太多了。这就是我正在听百科全书 - 它不是互动。[..]它只是告诉我事实,如果我不想听,它不关心。“

加拿大航空技术还提供了有限的功能,想具体措辞的用户;当人们问:“什么是从旧金山到温哥华航班的状态是叶在四张五十下午五点”,技能几乎忽略了所有的话,除了“四55”,它解释为航班号。

技能也是令人讨厌的,因为它的“入门”部分将“启动”屏幕和教程结合在一起。在这种(冗长的)介绍中,这些技能欢迎用户,并列举了他们可以使用的单词命令列表。不幸的是,这些介绍经常被重复,就像所有的教程一样,人们几乎忽略了它们,急于用这种技能开始他们的任务。

当他们询问用户特定问题并允许他们提供答案时,技能更好。但即使在那里,也有一个问题,其中一个人的期望:一个用户与贷款树技能互动的用户抱怨说,这项技能在没有告诉她的情况下,在没有告诉她的情况下,这项技能在没有答案的情况下询问问题,而且(2)没有给予它的答案有答案。对邮政编码94087中的抵押贷款利率的更好回应将是一系列值,然后选择继续并回答一些问题以获得精确的速率。

然而,造成技能和行动的另一个问题是用户迷惑:参与者无法确定他们是否仍然有技能的相互作用或者他们可以恢复与Alexa的正常交互。一位与会者试图通过提出明确的Alexa来解决这个问题:“Alexa的,是我们还在[技巧]活泉?”,找出她需要下一步该怎么做。(这个问题是具有完全失败第一可用性启发式UI的标志 -系统状态可见度.)

与其他应用集成

助理的共同投诉是,他们在用户住的虚拟生态系统中没有融合。iPhone用户抱怨Siri与他们想要使用的各种应用程序之间的集成 - Spotify播放音乐,谷歌地图为方向,等等。许多人认为Siri针对Apple Apps和设备进行了优化,但没有与他们拥有的应用程序和服务说话。

Alexa的用户还抱怨亚马逊的服务优先——许多用户已经订阅了Spotify或Apple Music,他们认为为了在Echo设备上听自己想听的音乐而订阅亚马逊音乐是一种浪费。该公司积极推广自己的服务,迫使用户学会规划查询,以便绕过这些限制:“当我说播放音乐时,它告诉我没有亚马逊音乐,所以我必须非常清楚地说,‘播放iHeart电台’。”

结论

今天的“智能”助手离通过图灵测试还有很长一段路要走——对于大多数交互,人们很容易就会发现他们不是在和人类说话。尽管用户将类似人类的品质投射到这些助手身上,但他们对这些助手的期望值相对较低,只会把它们留给那些黑白的、真实的问题。尽管主要障碍可能是更好的自然语言和对话处理(一个固有的困难问题),许多较小规模的问题可以通过更周到的设计来解决。