菜单 关闭

智能助理的可用性较差:Alexa的用户研究,谷歌助理,西丽

通过 拉鲁卡布迪乌页劳布海默7月22日,二千零一十八

总结:可用性测试发现,纯语音和基于屏幕的智能助手仅在非常有限的情况下才能很好地工作,非常简单的查询,简短的回答。用户在其他方面有困难。


可用性的圣杯是建立一个要求零的接口。交互成本能够满足用户的需求,而不需要用户做任何事情。虽然界面设计还远远没有引起人们的manbetx官方网站手机版注意,Alexa等智能助手,谷歌助理,Siri是朝那个方向迈出的一步。

UI特性

智能计算机助理结合5基本用户界面技术:

  1. 语音输入命令是口头的,而不是通过键入或点击/轻敲图形项发出的。
  2. 自然语言理解:用户不限于使用特定的,计算机优化词汇或语法,但结构能在很多方面他们的输入,就像在人际对话中那样。
  3. 语音输出不是在屏幕上显示信息,助手大声朗读出来。
  4. 智能解释助手利用其他信息(如上下文或过去的行为),除了用户的文字输入之外,估计用户想要什么。
  5. 代理:助理操作,用户没有要求,但是计算机自己承担。

智能口译和机构都需要助手。积极学习关于用户并能够修改他们在用户服务中的行为。

因此,在评估智能助理的用户体验时,我们需要考虑6个问题:5项技术中的每一项,加上他们的整合.

集成一束UI技术的想法并不新鲜。同样的原理在最流行的图形用户界面(GUI)后面,称为“WIMP”窗口-图标-菜单-指向设备.您可以使用没有鼠标的窗口(使用中高音-标签或者没有图标的鼠标(单击单词),但全套GUI生成一个很好地集成,提供了良好的可用性超过30年。

并非所有助手都始终使用所有5种UI技术:例如,如果屏幕可用,助手可以使用视觉输出而不是语音输出。然而,5技术支持和增强彼此当他们顺利地集成在一起。例如,语音命令,像传统的基于命令的交互风格一样,与单击相比,具有固有的可用性弱点(它们依赖于一定量的召回,而单击和直接操作涉及识别)但是自然语言可能使编写命令比单击图标更加简单。

集成5种UI技术提供了具有两个优点的交互风格:

  • 它可以缩短物理接口,并简单地允许用户制定他们的目标自然语言。虽然说话确实涉及交互成本,理论上,这个成本比学习新的UI要小,按下按钮,做出选择。
  • 它可以根据上下文信息或先前的用户行为提供适当的建议,从而推断用户的目标,并对此采取主动。第二个方面实际上更接近读懂我们的心思。”“

对于今天的助手,上下文的建议仍然相当有限,尽管朝那个方向迈出了一小步——谷歌助理解析电子邮件,在日历上增加航班或餐厅预订;Siri和谷歌的助理警告用户所花费的时间要经常目的地一旦他们离开一个位置。当这些上下文建议合适时,他们无缝地向用户的目标前进。

用户研究

为了更好地理解这些助手今天面临的挑战以及他们帮助用户的地方,我们进行了两个可用性研究(一个在纽约,一个在旧金山湾地区)。共有17人参加-5人在纽约,在加利福尼亚州,他们经常使用至少一个主要的智能助理(Alexa,谷歌助理,和Siri)被邀请进入实验室进行个别会议。每个会话都由可用性测试的组合组成(其中参与者使用Alexa完成促进器分配的任务,谷歌助理,或者Siri)和面试。

在研究的可用性测试部分期间,我们要求参与者使用助手完成各种任务,范围从简单(例如,天气的4七月的周末,附近一家沃尔格林药店的营业时间,乔治·克鲁尼出生时,情况变得更加复杂。斯坦利·库布里克的第二部电影上映的那一年,周末去莫斯海滩的交通)。

本文总结了我们的主要发现。第二篇文章将讨论的社会维度的交互与智能助手。

结果:交付的可用性大大低于承诺的可用性

我们的用户研究发现,目前的智能助理在所有6个问题上都失败了(5个技术加上集成),导致总体可用性水平接近于甚至对于稍微复杂的交互也是无用的。对于简单的交互,这些设备的确满足最低可用性要求。尽管它违背了以人为中心的设计的基本前提,manbetx官方网站手机版用户必须训练自己来理解智能助理何时有用,以及何时最好避免使用它。

我们的思想一直是计算机应该适应人类,不是相反的。人工智能的前景正是适应性强,但在观察实际使用情况时,我们没有看到这一点。相反,观察用户在AI接口上挣扎的感觉就像回到20世纪70年代的黑暗时代需要记住隐秘的命令,压迫模式,令人困惑的内容,不灵活的交互-基本上是一种不愉快的用户体验。

让我们来看看这6种UI技术中的每一种,并评估它们如何很好地实现了它们对用户的承诺。而这个问题的答案是悲伤,我们还可以问,目前的弱点是否是技术固有的,并将继续存在,或者它们是否是由于当前的技术限制而导致的,并且将会改进。

用户界面技术

当前的可用性

未来潜力

语音输入

很好(非母语者除外)

很快变得很棒,还能应付口音

大部分输入都被正确地转录了,除了偶尔的名字。

自然语言

坏的

可以变得更好,但很难做到

不能理解多句子;等价的查询公式产生不同的结果。人们对代词指称的理解有限。

语音输出

坏的

固有的有限可用性,除了简单的信息

除了一些任务(例如,导航,天气)助手们无法始终如一地对查询做出令人满意的语音响应。

智能解释

坏的

可以变得更好,但是很难做到

助手使用简单的上下文信息,如当前位置,接触数据,或过去经常出现的地点,但很少超出这个范围。

代理

坏的

可以变得更好

只有非常有限的使用外部信息来源(如日历或电子邮件)来推断用户感兴趣的潜在操作。

整合

可怕的

可以变得更好,但是需要太多的繁重工作

助理不与其他可用的应用程序在设备上工作得很好,与各种“交互技能或“行动“不要利用所有的UI技术。

我们不讲道理吗?近年来,基于AI的用户界面取得了巨大的进步,这难道不是真的吗?对,当前的人工智能产品比许多人工智能研究系统过去的几十年。但是普通人日常使用的要求明显高于研究生演示的要求。20年前我们在学术会议上看到的演示令人印象深刻,对基于人工智能的交互很有希望。现在的产品比较好,但不要履行诺言。

诺言仍然存在,人们已经从他们的智能助手那里得到一些用处。但是这种交互风格需要巨大的进步,以支持更广泛的使用和高可用性。一个类比是移动设备的开发方式:当我们2000年测试移动可用性,结果是糟糕的。然而,移动信息服务的承诺是明确的,许多人已经大量使用了一种特别有用的低端服务:个人对个人短信。第一部像样的智能手机需要多年的技术进步和更加紧密的UI集成,导致可接受的,虽然仍然2009年手机的可用性水平低.再改善十年,和移动用户界面现在很好.

基于人工智能的用户界面可能略好于2000年的移动可用性,但不多。要达到良好的人工智能可用性需要二十年吗?一些需要解决的问题非常棘手,这甚至可能是一个乐观的评估。但是就像移动电话一样,基于人工智能的用户界面的好处足够大,甚至半途而废(即,体面的,但不好,可用性)可能是可以接受的,并且可以更快地达到。

为什么人们使用助手

我们的大多数用户报告说,他们在两种情况下使用智能助理:

  1. 当他们的手忙碌时——例如,开车或做饭时
  2. 提问比打字和阅读结果要快。

第二种情况值得讨论。大多数人对助理能做什么有明确的期望,并且经常说他们不会为复杂的信息需求使用助手。他们觉得有一个明确答案的询问很有可能得到助手的正确回答,两位与会者明确提到了5W1H(世界卫生组织,什么,在哪里?什么时候,为什么?如何)问题。相反,更微妙的,通过网络搜索或与屏幕设备(如电话或平板电脑)的一些其他交互,可以更好地满足类似研究的信息需求。

然而,有些人认为助手们能够完成甚至复杂的任务,只要他们被问对了问题。一个用户说我可以做任何事情,我可以做我的电话与Siri。[…]复杂的问题——我必须简化以使它们起作用。”“

然而,大多数人认为思考正确的问题是不值得的。正如一位用户所说,“Alexa就像一个外星人——我必须向它解释一切……它只适用于简单的查询。我必须把一切都告诉她。我喜欢简单地问问题,不要想[如何提问]。”“

语音助理节省交互成本的一个显著领域是口述:长消息或搜索查询比输入更容易说,特别是在移动设备上,何处微型键盘容易出错,缓慢的,令人沮丧的。参与者通常很快注意到听写并不完美,当他们不能轻易打字时(例如,因为他们在散步,驱动,烹饪,或者干脆离开带有真实键盘的设备,如果文本使用了可能被误译的独特术语,他们就会避免听写。他们还提到了让助手插入正确的标点符号的困难(如果用户停下来表示句末,助手会停止收听,或者助手会完全忽略标点符号,要求用户校对和编辑文本)。

与助手谈话

当参与者花时间考虑如何制定查询,然后以连续的流程将其交付给助手时,助理通常能够解析整个查询。正如用户所说,“你应该在问问题之前先想一想,因为在你向[助手]说话的时候很难解决。你只需要事先考虑一下,因为这不像和他们谈话的人[你可以含糊其词]。”另一个说,“当我问问题的时候,我几乎感觉自己像个机器人,因为我必须说它在这样一个清晰,简明的方式,我必须想得这么清楚。当我试图给出一个命令或问一个特定的问题时,你不用太多的拐点。这真的只是随便说说而已,你的声音里没有感情。”“

但是许多参与者在完全形成查询之前开始发言(就像您通常对人类所做的那样),偶尔停下来寻找最好的词语。这种停顿在对话中很自然,但是助手们没有正确地解释他们,并且经常匆忙作出回应。当然,对这种不完整查询的答案大多数时候是不正确的,总体效果令人不快:参与者抱怨他们被打断了,那个助手谈论他们,或者那个助手是粗鲁。”有些人甚至为此明确地责备了助手。Alexa那太粗鲁了!“)

当人们需要重述一个没有被正确理解的查询时,他们经常用非常夸张的方式发音(好像他们在和一个有听力障碍的人说话)。

大多数参与者都觉得很复杂,多从句如果我想避开交通阻塞,我星期六什么时候动身去莫斯海滩?“或“查找今天下午4:55从伦敦飞往温哥华的航班的航班状态)是不可能理解的助手。一些人试图在多个查询中分解这样的句子。例如,一位想了解库布里克的第二部电影何时被库布里克制作成电影列表的参与者,然后计划问关于列表中第二至最后一项的问题。不幸的是,Siri一点也不帮忙,因为它只是提供了库布里克的电影的一个子集,没有明显的顺序。

非英语母语者

有几个人有外国口音,觉得助手不总是能听懂他们的话,不得不经常重复。这些人感到沮丧,认为助手们必须学会处理各种语言和说话方式。

除了口音,有三个因素影响他们的成功与助理:

  1. 他们比以英语为母语的人在发言中停顿得更多。这些停顿往往被助理解释为查询的结束。
  2. 他们倾向于正确的自己当他们觉得念错一个字,最后两次说同样的话。这些重复的话似乎使助手们感到困惑,尤其是Alexa。
  3. 他们有时使用不太常见的措辞。例如,一位与会者问"Alexa英国足球队什么时候参加足球锦标赛的。”Alexa没能找到那个问题的答案。

幸运的是,口音理解是计算机具有潜力的领域胜于现实他们能够比人类更好地识别单词的非标准发音。计算机并不关心你如何发音,除非它被训练成只识别一个特定的声音,可以理解,几个不同的声音都代表同一个词。因此,我们期望更好的口音识别只是时间问题。处理本节中讨论的其他问题将更加困难。

给出答案

助理语言

一些参与者抱怨的助理说话太快,没有办法让它重复答案。尤其是当答案太长或太复杂时,参与者不能将所有信息提交给工作记忆.例如,在提供抵押贷款报价之前,Alexa贷款树技能要求用户通过背诵地址和抵押条款来确认输入的所有细节都是正确的,然后枚举一组命令,以便在需要时编辑信息。一位用户说:它最后说得太快了-[它说]‘如果某事不对[你必须]去瞎扯’;记住所有的选择太难了。”“

当助手们误解了这个问题并且给出错误的回答时,这种经历令人反感,令人烦恼。人们讨厌等待一个完全不相关的长时间的回答,并努力插入Alexa停下来在谈话中。一位与会者解释说,“我不喜欢的是当我开始和她说话时[Alexa]不会闭嘴。这就是更人性化的交互。[…],这将是理想的如果它小于“Alexa,互动停止-比如‘ok’,或“够了”,或者几乎任何我嘟囔的东西[…]这就像跟一个不停地说个不停的人,你等着停下来,这样你就可以阻止他们。”“

但即使是一些正确的助理回答也太冗长了。一位用户抱怨说,当她试图将物品添加到杂货清单时,Alexa确认”“ 加到杂货清单上每一个之后。对于这样一个重复性的任务,它感到太多的单词。另一个用户名为Google助手”太爱说话了当一个参与者在Alexa阅读提拉米苏食谱列表中每个食谱的长描述时,她转动了眼睛,包括提到(一些)相当明显和重复的成分-如鸡蛋。

语音VS屏幕结果

智能助理的主要用途之一是免提在汽车上使用,在厨房里,或者在其他类似的情况下。我们的用户认为在大多数情况下,有声回答要优于屏幕回答。(例外情况包括答案包含敏感信息的情况,例如,一位妇女对医生的预约大声宣读感到不满,他说:“我宁愿上面写着“事件”这个词。)。

大多数智能扬声器没有屏幕,因此,他们必须以声乐形式传达答案。这一限制使得一些参与者更喜欢演讲者而不是基于电话的对应者,混合模态的交互更加乏味。

手机助手通常延迟搜索结果当他们没有现成的答案,强迫用户与屏幕交互。人们感到失望当他们必须用他们的眼睛和手指浏览一个结果列表。他们评论说"它没有给我正确的答案。它给了我一篇文章和链接。它没有告诉我我要什么,“和“我希望它没有显示给我一些链接……(至少)应该告诉我一些事情……,然后,也许`如果你想要更多,检查一下这个或那个。“

当正确答案被读出来时,“感觉就像是魔法。”一位与会者问谷歌助理我在布拉格应该待几天?“,而反应又响亮又清晰:根据Quora,你最理想的是在布拉格呆3-4天[…]。”用户说:“这就是我正在寻找的人;它把信息大声读给我听,还把信息显示出来。”这些类型的经验被我们的参与者认为是最有帮助的,但在我们的研究中,它们非常罕见:尽管这个任务是由几个参与者执行的,只有一个使用“对提问式表达,产生清晰的口头回答;其他六个人尝试了同一个问题的变体好吧,谷歌,你认为在布拉格度假的好时间是什么,“好吧,谷歌,我应该在布拉格度假多久,“嘿,Siri,参观布拉格需要多少天,““好吧,谷歌,在布拉格待多长时间,““苹果智能语音助手,我应该去布拉格多少天?“,“苹果智能语音助手,如果我去布拉格,我应该去多久?“从Siri和Google助理那里得到一组链接,除了最后一个查询,这是在布拉格周围提供的交通。

和西丽一起,链接中断还有另一个原因:点击结果列表中的链接的人被带到浏览器或者不同的应用程序,还有一些人不知道如何回到清单上继续检查其他结果。一个iPhone用户点击了一家餐馆,在地图上看到了它,然后试图返回其他餐馆;她说,“哦,不,(餐馆)不见了……这是我烦恼的一件事,我不知道如何检索Siri请求,你知道的,一旦上面写着你可能会发现一些有趣的事情……比如,如果我开车,如果我真的想找到谁出演这部电影,我可以说‘把它加到我的待办事项列表中’或者说‘查找’,但是我直到到达目的地才去看,而且,等我到那里的时候,它消失了……所以这张餐馆列表不见了,因为我在地图上碰过,所以我得再试一次。”(如果用户在返回应用程序的iPhone按钮在屏幕的左上角,但是那个按钮很小,许多用户并不熟悉它。然而,与其他智能助手相比,无法检索交互历史的更普遍的一点是Siri的弱点。甚至Alexa也允许用户在Alexa移动应用程序中查看查询的历史。

转录用户查询的基于屏幕的助手在转录不是即时时引起问题。一位与会者认为,因为她在屏幕上没有看到她说的话,Siri没有听到她的声音,所以她会不止一次地重复前面这几句话。由此产生的话语被助理通常不能被正确的理解。

部分答案

有时Alexa公开承认,它没有一个答案。当它确实提供了仍然相关的信息时,尽管不是对用户查询的直接响应,与会者很高兴。例如,一位用户询问了Willow Glenn(圣何塞的一个社区)的租金情况,(加州)Alexa说不知道答案,而是提供了旧金山湾地区的平均租金。用户很高兴助理已经认出柳树格伦是海湾地区的一部分,并且回答正确。另一个用户问”Alexa山景城一居室公寓多少钱?“而且,当助手回答时对不起的,我不知道那个。现在我可以查电话号码了,小时,和地址。”,用户评论”谢谢您。那真的很有帮助——比如“好的,我不能那样做,但我可以做到“

什么时候,而不是口头回答,Siri或Google助理提供了一组屏幕上的结果,第一反应是失望,如上所述。然而,如果屏幕上的结果与他们的查询相关,人们有时觉得这种经历是可以接受的,甚至是好的。(这种感觉可能特定于实验室环境,其中参与者的手是免费的,他们可以与他们的设备交互。)许多人觉得他们比助手(尤其是比Siri)更了解如何从SERP中搜索和挑选相关结果,所以当助手只返回搜索结果时,一些人说,他们将必须重做搜索。当和助手谈话时,一些人试图大声地制定搜索查询,并且打赌最初的几个结果会足够好。这些人使用助手(通常是Google助手)作为搜索引擎的语音接口。

信任结果

人们知道智能助理是不完美的。所以,即使助手提供了答案,他们有时怀疑答案是否正确——不知道整个查询是否被正确理解,或者助手只配了一部分。正如一位用户所说,“我不相信Siri会给我一个对我有利的答案。”“

例如,当问到菜谱时,Alexa提供了一个“顶级配方更多的选项。但它没有提供关于什么的信息顶部意思和如何选择和订购食谱。这些菜谱评价很高吗?由知名博客或烹饪网站发布的食谱?人们必须相信Alexa为他们所做的选择和订单,没有任何支持性证据的评级或审查数量。尤其是亚历克斯,用户看不到结果,只听一个列表,如何组装列表的问题对于几个用户来说非常重要。

然而,甚至电话助理也会引发信任问题,即使他们可以使用屏幕支持证据。例如,在其中一个任务中,用户要求Siri在去Moss Beach的路上找到餐馆。Siri是返回一个列表的餐馆与相应的Yelp评级(似乎在回答查询),但是没有地图显示餐厅确实满足用户指定的标准。与所有餐馆一起访问地图也很乏味:一个人必须选择一家餐馆并点击它的地图;那张地图显示了Siri选择的所有餐馆。

Siri没有在地图上显示餐厅的名单。要访问地图,用户必须选择一家餐馆并在地图上显示它。一旦他们这样做了,一些用户不知道如何恢复餐馆列表(这可以通过单击back-to-app按钮来实现)iPhone上的语音控制功能 在屏幕的左上角)。

相反,Google助理在处理相同的查询方面做得更好:它确实在地图上显示了所有建议的餐厅,用户可以看到(不幸的是)结果集中在路线末端的莫斯海滩,而不是两者之间。

谷歌助理在地图上展示了这些餐馆。

对比较和购物的支持不足

在我们的研究中,涉及比较的任务可用性特别差,有几个原因:

  1. 语言是一种语言无效输出模式.它需要一个长时间倾听向助手宣读每个可能的备选方案,我们看着用户在听助手详细讨论选项时明显地感到恼火。当参加者很快意识到她不在乎当前的物品时,助手的措辞格外令人沮丧,但是她还是得听Alexa或Siri大谈特谈这件事。如果两个人在交谈,他们可以使用语气,脸部,或者肢体语言提示,引导谈话进入双方都感兴趣的方向。但是语音助理不能理解用户何时对选项不感兴趣并停止谈论它。
  2. 用户没有办法轻松地来回比较选项。他们必须提交所有信息的一个替代他们的工作记忆来比较,与后续项目。

例如,当向用户提供不同的提拉米苏食谱时,Alexa列出了食谱的名字,准备它需要的时间,然后说,“你可以要求更多的信息,或者,想要更多的食谱,说“下一步”。如果用户说,“下一个“,很难回到以前的食谱。这种交互方式假定用户很舒服满意度(例如,选择第一个可接受的选项)而不是比较不同方案的利弊。对于一些简单的任务,选择一个平庸的选择不会有什么后果,令人满意可能是一个合理的假设,但在我们的学习中,甚至为了挑选晚餐食谱,用户希望进行相当程度的比较。

使用多个标准选择的任务更加困难。例如,当使用Google Assistant比较纽约的比萨店时,用户无法有效地比较每个用户有多远,然后根据评论中的明星数量在附近的选项中做出决定——所有的信息都是针对每个餐厅单独提供的,用户将所有这些细节都保存在工作记忆中,以便对不同的餐厅进行比较。

缺少每个选择的视觉细节很重要-特别是对于网上购物,餐厅,或者酒店。在我们的研究中,用户通常不考虑购买一件物品而不能看到它的图像来评估它的想法,还要检查它是否正确。对于名称不明确或类似的产品,存在太多的错误空间。

一位与会者甚至指出,向Alexa索要比特币的当前价格令人沮丧,因为随着时间的流逝,它不能轻易地传达变化,一个关键因素为人们交易迅速波动的密码货币。

技能和行动

对于Alexa和Google助理这样的系统,用户可以访问特殊”应用程序“(称为“技能在亚马逊的生态系统中行动“在谷歌)致力于具体的任务。

理论上,技能和行动可以增强这些系统的能力,但在我们的研究中,它们被证明几乎没什么用。大部分Alexa用户不知道什么是技能;有些人以前见过他们,安装一到两个,然后完全忘记了他们的存在。

Alexa技能有两个大的可发现性问题:

  • 它们要求用户精确地记住技能的名称。尽管你可以问Alexa你的设备目前安装了哪些技能,这个企业是徒劳的,因为Alexa开始一个接一个地描述它们,没有明显的顺序,和你有第三个技能的时候,你觉得已经受够了。
  • 它们要求用户记住调用该技能的魔术词汇。理论上,这些是“玩 “,“和某人交谈 “,“问 “,但是,在实践中,我们的参与者很难使这些短语中的一些起作用:一个词似乎用一种技巧就可以,但不是和另一个。(我们让人们浏览Alexa应用程序中的技能页面,有时他们尝试一下这里列出的短语作为例子,甚至那些似乎也行不通。)

一个人讲述他买回声装置的主要原因是为了用和声遥控器控制他的家庭娱乐系统,但是后来他努力记住他必须用来调用和声技巧的确切单词,并最终放弃使用它。

人更熟悉谷歌的行动,而不是助理Alexa的技能。一位用户询问去莫斯海滩的方向,然后,收到后,继续询问这个周末”(意思是如果他在周末离开的话,可以得到指示)。谷歌助理回答肯定的是,为此,你可以和太阳天才谈谈。听起来好吗?“用户说可以,无意中发现自己处于“太阳耀斑”行为之中,哪一个在询问地点之后,提供“在莫斯海滩最多10人。”这个句子让用户完全搞糊涂了。(结果证明Solar Flair返回一个位置的UV索引。)用户评论道:在这一点上,我感觉不舒服有一个新的应用程序,不知道它到底是什么。”“

一个用户无意中发现自己在Google助理的太阳天赋行动中,周末,他正试图找到去莫斯海滩的方向。(在大多数浏览器中,悬停在视频上以显示视频播放器控件(如果它们尚未可见)。

虽然行动(或技能)建议似乎偶尔是适当的,建议应该伴随着一些基本的关于应用程序的信息。

与技术交流

即使人们最终能够接触到Alexa的技能之一,与他们互动并不简单。不像Alexa自己,接受相对自由的语言,技能要求一组有限的回答。在很多方面,它们看起来非常类似于传统的交互式语音应答系统,该系统要求用户通过说出特定的单词或数字来进行选择。人们不明白两者之间的区别受限语言”模式与“正常语言模式,许多与技能的交互都失败了,因为他们没有找到与应用程序对话的正确方法。大多数时候,他们只是忽略了指令,并以自由的形式制定他们的答案和查询。这种行为造成了困难,并触发了技能的重复反应。

例如,“餐厅资源管理器”的技巧迫使用户参考它建议的餐厅,并说“1“,“2”或“3“而不是允许他们使用餐厅的名字。Lonely Planet的技能要求用户说出特定的关键词,如最佳去处并且不明白诸如此类的问题2018年7月在悉尼发生的事件是什么?”。当用户问到这个或其他非脚本问题时,这个技巧重复了一系列有关悉尼的一般事实。一位与会者评论道太多了。就好像我在听百科全书——它不是互动的。它只是告诉我事实,而不管我是否不想听。”“

加拿大航空公司的技术也向用户提供有限的功能和希望的具体措辞;当有人问“从下午04:55起飞的旧金山到温哥华的航班状况如何?,这种技巧几乎忽略了所有单词,除了四点五十五,它解释为航班号。

技能也烦人,因为“导论部分,起到飞溅屏幕和教程。在这样冗长的介绍中,这些技能受到用户的欢迎,并列举了他们可用的word命令列表。不幸的是,这些介绍经常被重复,而且,就像所有的教程一样,人们几乎忽略了他们,渴望开始他们的任务与技能。

当他们向用户提问特定问题并允许他们提供答案时,这些技能会更有效。但即使在那里,设置期望值存在一个问题:一个与Le.Tree技能交互的用户抱怨说,该技能开始询问问题而不告诉她(1)为什么需要答案,以及(2)没有保证会得到答复。更好的应对她94087年邮政编码查询关于抵押贷款利率将是一个范围值,其次是选择继续和回答一些问题为了得到一个精确率。

另一个由技能和行动引起的问题是用户迷失方向:参与者不确定他们是否仍在与技能进行交互,或者他们是否可以恢复与Alexa的正常交互。一位与会者试图通过明确询问Alexa来解决这个问题:Alexa我们仍然在[技术]哇?“,弄清楚她下一步要做什么。(这个问题表明UI在第一次可用性试探中完全失败了——系统状态可见性)。

与其他应用程序的集成

助手们普遍的抱怨是他们没有很好地融入用户所生活的虚拟生态系统。iPhone用户抱怨Siri和他们想要使用的各种应用程序-Spotify播放音乐,缺乏集成,谷歌地图的方向,等等。许多人认为Siri是为苹果的应用程序和设备而优化的,但是没有和他们现有的应用程序和服务进行交流。

Alexa用户也抱怨亚马逊的服务优先级——许多已经订阅Spotify或苹果音乐,觉得它是浪费订阅亚马逊音乐为了得到他们想要听音乐的回声设备。公司自身服务的积极推广迫使用户学会制定查询,从而绕开这些限制:当我说演奏音乐时,它告诉我,我没有亚马逊音乐,所以我必须非常清楚,说'播放iHeart Radio'。“

结论

今天的“智能”助理仍远未通过图灵测试,对大多数交互,人们很容易发现他们不是在和人说话。虽然用户人类品质投射到他们身上,他们对这些助理的期望相对较低,留给黑人和白人,事实问题。尽管主要的障碍可能是更好的自然语言和对话处理(一个固有的难题),许多较小规模的问题可以通过更周到的设计来解决。manbetx官方网站手机版