菜单 关闭

智能助理的可用性很差:用户对Alexa的研究,谷歌助理,西丽

通过 拉鲁卡布迪乌页劳布海默7月22日,二千零一十八

总结:可用性测试发现,仅限语音和基于屏幕的智能助理只在非常有限的情况下工作良好,具有相当简单的简单查询,简短的回答。用户在其他方面有困难。


可用性的圣杯是构建一个需要零的接口交互成本:能够满足用户的需求而不让他们做任何事情。虽然界面设计还远未引起人们的注意manbetx官方网站手机版,像Alexa这样的聪明助手,谷歌助理,Siri是朝这个方向迈出的一步。

用户界面特征

基于计算机的智能助手结合了5种基本用户界面技术:

  1. 语音输入:通过键入或单击/点击图形项来发出命令,而不是发出命令。
  2. 自然语言理解:用户不限于使用特定的,计算机优化的词汇或语法,但可以通过多种方式构建其输入,就像他们在人类对话中一样。
  3. 语音输出:而不是在屏幕上显示信息,助理大声读出。
  4. 智能解释:助理使用附加信息(如上下文或过去的行为),除了用户的文字输入,估计用户想要什么。
  5. 代理:助理执行用户未请求的操作,但计算机自己承担的。

智能翻译和代理都要求助理积极学习关于用户,并且能够在用户的服务中修改他们的行为。

因此,在评估智能助理的用户体验时,我们需要考虑6个问题:5种技术中的每一种,加上他们的整合.

集成一系列UI技术的想法并不新鲜。同样的原则是最流行的图形用户界面(GUI)的背后。称为“窗口-图标-菜单-指向设备”的wimp。您可以在没有鼠标的情况下使用窗口(使用中高音-标签)或者一个没有图标的鼠标(点击单词),但是,这套完整的图形用户界面集成得很好,已经提供了30多年的良好可用性。

并非所有助手都始终使用所有5种UI技术:例如,如果屏幕可用,助理可以使用视觉输出而不是语音输出。然而,这5种技术在顺利集成时相互支持和增强。例如,语音命令,与传统的基于命令的交互风格一样,与点击相比有一个固有的可用性弱点(它们依赖于一定数量的回忆,鉴于点击和直接操纵涉及识别)但是,自然语言可能会使编写命令比单击图标更容易。

集成5种用户界面技术保证了一种具有两个优点的交互风格:

  • 它可以使物理接口短路,只允许用户用自然语言来表述他们的目标。虽然说话确实涉及到互动成本,理论上,这个成本比学习一个新的用户界面要小,按下按钮,做出选择。
  • 它可以根据上下文信息或以前的用户行为提供适当的建议,从而推断用户的目标并对其保持主动。第二个方面实际上更接近于“阅读我们的思想”。

对于今天的助手来说,上下文建议仍然相当有限,尽管在这个方向上采取了一些小步骤——谷歌助手解析电子邮件,并在日历中添加航班或餐厅预订;Siri和Google助手都警告用户,一旦离开某个地点,要花多长时间才能到达一个频繁的目的地。当这些上下文建议合适时,他们无缝地向用户的目标前进。

用户研究

为了更好地了解这些助手目前所面临的挑战以及他们在哪里帮助用户,我们进行了两个可用性研究(一个在纽约,一个在旧金山湾地区)。共有17名参与者-5名来自纽约,加利福尼亚州有12人——他们经常使用至少一个主要智能助理(Alexa,谷歌助理,和Siri)被邀请进入实验室进行单独的会议。每节课都包含可用性测试的组合(参与者使用Alexa完成了引导者分配的任务,谷歌助理,或者Siri)和面试。

在研究的可用性测试阶段,我们要求参与者使用助手完成各种任务,范围从简单(例如,4号的天气七月周末,附近一家沃尔格林药房的营业时间,当乔治·克鲁尼出生时,变得更复杂(例如,斯坦利·库布里克的倒数第二部电影拍摄的那一年,周末去莫斯海滩的交通)。

本文总结了我们的主要发现。第二篇文章将讨论与智能助理互动的社会维度。

结果:交付的可用性大大低于承诺的可用性

我们的用户研究发现,目前的智能助理在所有6个问题上都失败了(5个技术加上集成)。导致整体可用性水平,即使是稍微复杂的交互也几乎没有用处。对于简单的交互,这些设备确实满足最低可用性要求。尽管它违背了以人为中心的设计的基本前提,manbetx官方网站手机版用户必须训练自己去理解什么时候智能助手有用,什么时候最好避免使用它。

我们的理念一直是计算机应该适应人类,不是反过来。人工智能的承诺正是高适应性的承诺之一,但我们在观察实际使用时没有看到这一点。相反,观察用户对人工智能界面的挣扎感觉就像回到70年代的黑暗时代:需要记住秘密命令,压迫模式,内容混乱,僵化的交互-基本上是不愉快的用户体验。

让我们看看这6种UI技术中的每一种,并评估它们在多大程度上实现了对我们用户的承诺。尽管这个问题的答案令人悲伤,我们还可以问,当前的弱点是否是技术固有的,并且将继续存在,或者它们是否是由当前的技术限制引起的,并且将得到改善。

用户界面技术

当前可用性

未来潜力

语音输入

好(非母语人士除外)

很快就会很棒,也能应付口音

大部分输入都被正确转录,偶尔也有名字例外。

自然语言

坏的

可以变得更好,但很难做到

不懂多个句子;等效查询公式产生不同的结果。对代词指称的理解有限。

语音输出

坏的

固有的有限可用性,除了简单的信息

除了一些任务(例如,导航,天气)助理们不能始终如一地对询问作出满意的口头答复。

智能解释

坏的

可以变得更好,但很难做到

助手使用简单的上下文信息,如当前位置,接触数据,或者过去的频繁地点,但很少能超越这一点。

代理

坏的

可以变得更好

只有非常有限地使用外部信息源(如日历或电子邮件)来推断用户感兴趣的潜在行为。

整合

可怕的

可以变得更好,但是需要大量的工作

这些助手不能很好地处理设备上的其他可用应用程序,而与各种“技能”或“动作”的交互不能充分利用所有的UI技术。

我们不讲道理吗?基于人工智能的用户界面近年来取得了巨大的进步,这难道不是真的吗?对,目前的人工智能产品比过去几十年的许多人工智能研究系统都要好。但普通人日常使用的要求远远高于研究生演示的要求。我们在20年前的学术会议上看到的演示令人印象深刻,并为基于人工智能的交互带来了巨大的希望。目前的产品比较好,但不要履行承诺。

承诺仍然存在,人们已经从他们的聪明助手那里得到了一些利用。但是这种交互风格需要巨大的进步来支持更广泛的使用和高可用性。一个类比是移动设备的发展方式:当我们2000年测试了移动可用性,结果糟透了。然而,移动信息服务的前景很明确,许多人已经大量使用了一种特别有用的低端服务:人与人之间的短信。为了推出首款像样的智能手机,还需要多年的技术进步和更紧密的用户界面集成,导致一个可接受的,虽然仍然到2009年移动可用性水平较低.又一个十年的进步,和移动用户界面现在很好.

基于人工智能的用户界面可能比2000年的移动可用性要好一点,但不多。实现良好的人工智能可用性需要20年吗?一些需要解决的问题非常棘手,甚至可能是一个乐观的评估。但就像手机一样,基于人工智能的用户界面的好处足够大,即使是中间点(即,体面的,但不好,可用性)可能是可以接受的,而且很快就能达到。

为什么人们使用助手

我们的大多数用户报告他们在两种情况下使用智能助手:

  1. 当他们的手忙的时候——例如,开车或做饭时
  2. 当问问题比打字和阅读结果快时

第二种情况值得讨论。大多数人对助理能做什么有明确的期望,并且经常说他们不会为复杂的信息需求使用助手。他们觉得一个回答清楚的问题很有可能被助理正确回答,两位参与者明确提到5w1h(世界卫生组织,什么,在哪里?什么时候?为什么?如何)问题。相反,更微妙的,通过网络搜索或与基于屏幕的设备(如电话或平板电脑)进行其他交互,可以更好地满足类似信息需求的研究。

然而,有些人认为助理们能够完成甚至复杂的任务,前提是他们被问到了正确的问题。一位用户说:“我可以用Siri在手机上做我能做的一切。[…]复杂的问题-我必须简化才能使它们发挥作用。”

然而,大多数人认为,思考正确的问题不值得付出努力。正如一位用户所说,“Alexa就像一个外星人——我必须向它解释一切……它只适用于简单的查询。我必须把一切都告诉她。我喜欢简单的提问,“不要想[关于如何提出问题]。”

语音助理节省交互成本的一个显著领域是口述:长信息或搜索查询比打字更容易说,尤其是在移动设备上,何处小键盘容易出错,缓慢的,令人沮丧。参与者通常会很快注意到,当他们不容易打字时,口述是不完美的,也很有帮助的(例如,因为他们在走路,驱动,烹饪,或者只是离开一个有真正键盘的设备,而且,如果文本使用了可能被误解的独特术语,他们就避免了听写。他们还提到了让助手插入正确的标点符号的困难(如果用户暂停以表示句尾,助手将停止聆听,或者助手将完全忽略标点符号,要求用户校对和编辑文本)。

与助手交谈

当参与者花时间思考如何制定查询,然后将其连续地传递给助手时,助手通常能够解析整个查询。正如用户所说,“在问问题之前,你应该先考虑一下你的问题,因为当你跟[助手]说这个问题时,很难解决它。”你得事先考虑一下,因为这不像是一个人在和他们谈话时[你可以含糊其辞]。”另一个人说,“当我问问题的时候,我几乎感觉自己像个机器人,因为我必须以如此清晰简洁的方式来表达,我必须想得很清楚。当我试图发出命令或提出具体问题时,你用的拐点不多。这真的只是字里行间,它不会在你的声音中挑起情感。”

但是许多参与者在完全制定查询之前就开始说话了(就像你通常对人那样)。偶尔会停下来寻找最好的单词。这种停顿在谈话中是自然的,但助手们没有正确地解释这些问题,常常匆忙作出回应。当然,对这些不完整的问题的回答大多是错误的,总体效果不好:参与者抱怨他们被打断了,助理“讨论过他们”,或者说那个助手“粗鲁”。有些人甚至还直截了当地责骂那个助手(“亚历克萨,太粗鲁了!.

当人们需要重述一个不正确理解的问题时,他们经常以高度夸张的方式发音(好像他们在和听力受损的人说话)。

大多数参与者都觉得这很复杂,多个句子(如“如果我想避开交通,星期六我应该什么时候去莫斯海滩?”或者“找到今天下午4点55分从伦敦飞往温哥华的航班的飞行状态”,助理们不太可能理解。有些人试图在多个查询中分解这样的句子。例如,一位想知道库布里克的倒数第二部电影是什么时候拍出来的参加者向库布里克索要了一份电影清单,然后计划提出关于清单中第二个到最后一个项目的问题。不幸的是,Siri一点帮助都没有,因为它只是提供了库布里克电影的一个子集,没有明显的顺序。

非英语母语者

有几个人有异国口音,觉得助理不总是说话,必须经常重复自己的话。这些人很沮丧,认为助手们必须学会应付各种语言和说话方式。

除了口音,还有三个其他因素影响了他们在助手中的成功:

  1. 他们说话的停顿可能比说母语的人还要多。助理经常将这些暂停解释为查询的结束。
  2. 当他们觉得自己把一个词念错了,结果说了两次同一个词时,他们往往会纠正自己。这些重复的话似乎让助手们感到困惑,尤其是亚历克萨。
  3. 他们有时用不太常用的词。一位参与者问“Alexa,英国足球队是什么时候参加足球锦标赛的。”亚历克萨找不到这个问题的答案。

幸运的是,口音理解是计算机有潜力的领域比现实更好他们能比人类更好地识别单词的非标准发音。计算机不关心你如何发音某个词-除非它经过训练只识别某个特定的声音,可以理解,几个不同的声音都代表同一个单词。因此,我们希望更好的口音识别只是时间问题。处理本节讨论的其他问题将更加困难。

提供答案

助理语言

一些参加者抱怨助理说得太快,没有办法让他重复回答。尤其是当答案太长或太复杂时,参与者无法将所有信息提交给工作记忆.例如,在提供抵押贷款报价之前,Alexa Lending Tree技能要求用户通过背诵地址和抵押条款来确认输入的所有详细信息都是正确的,然后根据需要枚举一组用于编辑信息的命令。一位用户说:“它在最后说得太快了——如果有什么不正确的话(你必须)去废话。”很难记住所有的选择。”

当助理们误解了问题并给出了错误的回答时,这种经历令人不快,令人讨厌。人们对不得不等待一个完全不相关的长时间回答而难以插入“Alexa”感到不满,在对话中停止。一位参与者解释说,“我不喜欢的是(亚历克萨)在我开始和她说话时不会闭嘴。这是一种更人性化的互动。[…]如果它能与不到'alexa'的东西相互作用,那就太理想了,停止'-类似'好',或“够”,或者几乎所有我咕哝的事情,就像和一个不断前进的人交谈,你在等待找到一个停顿,这样你就可以以某种方式阻止他们。”

但是,即使是一些正确的助手回答也过于冗长。一位用户抱怨,当她试图在杂货店列表中添加商品时,亚历克萨确认了 添加到食品杂货清单中。对于这样一个重复性的任务来说,它感觉用词太多了。另一个用户称谷歌助手“太健谈”,当它为有关药房营业时间的查询提供额外信息时。当Alexa在Tiramisu食谱列表中阅读每个食谱的详细说明时,一个参与者翻了个白眼,包括提到(一些)相当明显和重复的成分,比如鸡蛋。

语音VS屏幕结果

智能助理的主要用途之一是在车内免提使用,在厨房里,或在其他类似情况下。在绝大多数情况下,我们的用户认为声音回答优于屏幕回答。(例外情况包括答案包含敏感信息的情况-例如,一个女人讨厌她的医生预约大声朗读,说“我宁愿让它说‘事件’”。

大多数智能扬声器没有屏幕,所以他们必须以声音的形式传达答案。这一限制使得一些参与者比他们的电话对应者更喜欢扬声器,在这里,混合模态的交互更加乏味。

基于电话的助理通常在没有现成答案的情况下推迟搜索结果,强制用户与屏幕交互。当人们不得不用眼睛和手指浏览结果列表时,他们感到失望。他们评论说:“它没有给我正确的答案。它给了我一篇文章和链接。它没有告诉我我问了什么,“我希望它没有只显示一些链接……(至少)应该告诉我一些……然后,如果你想要更多,检查这个或那个。”

当正确的答案被读出时,一位参与者问谷歌助手:“我应该在布拉格呆几天?”,回答清晰而响亮:“根据Quora的说法,你最好在布拉格呆3-4天。“这就是我在其他人身上所寻找的;它大声地向我宣读信息,同时也向我展示信息,“这些类型的经验被我们的参与者认为是最有帮助的,但在我们的研究中,它们是罕见的:即使这个任务是由几个参与者完成的,只有一个使用了“正确”的查询公式,能够给出清晰的口头回答;其他六个人尝试了同样问题的变体(“好的,谷歌,你认为在布拉格度假有多少时间?“好吧,谷歌,我应该在布拉格度假多久,“嗨,先生,去布拉格多少天就够了,“好吧,谷歌,在布拉格呆多长时间,“先生,我该去布拉格多少天?”,“西丽,如果我去布拉格,我该走多久?”)从Siri和Google助手那里得到了一组链接,除了最后一个查询,它提供了布拉格周围的交通。

和西丽一起,还有一个原因导致链接中断:点击结果列表中链接的人被带到浏览器或其他应用程序,有些人不知道如何回到名单上继续检查其他结果。一个iphone用户点击一家餐厅在地图上看到它,然后尝试回到其他餐厅;她说,“哦,不,[餐厅]不见了……这件事让我很困扰,我不知道如何恢复Siri请求,你知道的,一旦它说你可能会发现一些有趣的事情…比如如果我开车,如果我真的想找到这部电影的主演,我可以说“将它添加到我的待办事项列表中以后再做”,或者说“查找”,但在我到达目的地之前我不会去看它,而且,当我在那里的时候,它不见了……所以这张餐馆名单不见了,因为我在地图上碰过,所以我必须再试一次。”(如果用户点击返回应用程序iPhone按钮在屏幕左上角,但是这个按钮很小,很多用户并不熟悉。然而,与其他智能助手相比,无法检索交互历史的更普遍的观点无疑是siri的弱点。甚至Alexa也允许用户在Alexa移动应用程序中查看其查询的历史记录。)

转录用户查询的基于屏幕的助手在转录不是即时的时候会引起问题。一位参与者认为,因为她在屏幕上看不到自己说的话,Siri没听见她说话,所以她会把前几个字重复一遍。助理通常不能正确理解由此产生的话语。

部分回答

有时亚历克萨公开承认,它没有答案。当它提供了仍然相关的信息时,虽然不是对用户查询的直接响应,与会者很高兴。例如,一位用户询问了Willow Glenn(圣何塞的一个社区,加利福尼亚州)Alexa说它不知道答案,而是提供了旧金山湾地区的平均租金。用户很高兴助理已将Willow Glenn识别为湾区的一部分,并对答案表示满意。另一个用户问“Alexa,在山景区一居室的公寓多少钱?”而且,当助理回答“对不起,我不知道那个。现在我可以查电话号码了,小时,地址。”,用户评论道:“谢谢。这真的很有帮助-比如“好的,我不能那样做,但我能做到……”

什么时候?不是口头回答,Siri或Google助手提供了一组屏幕上的结果,第一反应是失望,如上所述。然而,如果屏幕上的结果与他们的查询相关,人们有时觉得这种经历是可以接受的,甚至是好的。(这种感觉可能与实验室环境有关,参与者的手是自由的,他们可以与他们的设备交互。)许多人认为他们比助手(尤其比Siri)更了解如何从SERP中搜索和挑选相关结果,所以当助理只返回搜索结果时,有人说无论如何他们必须重新搜索。有几个人在和助手交谈时试图大声提出搜索查询,并打赌前几个结果足够好。这些人使用助手(通常是谷歌助手)作为搜索引擎的声音接口。

对结果的信任

人们知道聪明的助手是不完美的。所以,即使助理提供了答案,他们有时怀疑答案是正确的——不知道问题的整体理解是否正确,或者助理只匹配其中的一部分。正如一位用户所说,“我不相信Siri会给我一个对我有好处的回答。”

例如,当被问到菜谱时,Alexa提供了一个“顶级食谱”,提供了更多的选择。但是它没有提供关于“top”是什么意思以及如何选择和订购食谱的信息。这些是高评价的食谱吗?知名博客或烹饪网站发布的食谱?人们不得不相信亚历克萨为他们做出的选择和命令,没有任何支持性证据的形式评级或数量的审查。尤其是亚历克萨,如果用户看不到结果,只听了一个列表,如何组装列表的问题对一些用户很重要。

然而,即使是电话助理也会引发信任问题,即使他们可以使用屏幕来支持证据。例如,在其中一项任务中,用户要求Siri在去莫斯海滩的路上找到餐馆。Siri的确返回了一份餐馆名单,上面有相应的Yelp评级(似乎回答了问题)。但是没有地图显示这些餐馆确实满足了用户指定的标准。访问所有餐厅的地图也很乏味:一个人必须选择一家餐厅并点击地图;那张地图显示了Siri选择的所有餐馆。

Siri没有在地图上显示餐馆的名单。要访问地图,用户必须选择一家餐馆并将其显示在地图上。一旦他们这样做了,一些用户不知道如何恢复餐厅列表(可以通过单击返回应用程序按钮进行恢复)iPhone上的语音控制功能 在屏幕左上角)。

相反,谷歌助手在处理同一个问题上做得更好:它的确显示了地图上建议的所有餐馆,用户可以看到(不幸的是)结果集中在路线的莫斯海滩端,而不是中间。

谷歌助手在地图上展示了这些餐馆。

不支持比较和购物

在我们的研究中,涉及比较的任务的可用性特别差,原因如下:

  1. 语言是一种语言低效输出方式.它需要一个长时间倾听向助手宣读每种可能的替代方案,我们看到用户在听助手详细谈论某个选项时明显感到恼火。当参加者很快意识到她不关心当前的项目时,助理的措辞尤其令人沮丧。但她还是得听亚历克萨或西丽喋喋不休地说下去。如果两个人在交谈,他们可以使用音调,脸部,或者身体语言提示将对话导向双方都感兴趣的方向。但语音助理无法理解用户何时对某个选项不感兴趣,并停止谈论它。
  2. 用户无法轻松地来回比较选项。为了将这个项目与随后的项目进行比较,他们必须提交关于工作记忆的一个备选方案的所有信息。

例如,向用户提供不同的提拉米苏配方时,Alexa列出了菜谱的名字,准备的时间,然后说,“你可以要求更多信息,或者,更多食谱,说“下一步”。如果用户说,“下一步”,很难回去参考以前的食谱。这种交互风格假定用户感到舒适满意度(即,选择第一个最低可接受的选项),而不是比较不同选项的优缺点。对于一些简单的任务,选择一个平庸的选择没有任何后果,满足可能是一个合理的假设,但在我们的研究中,即使是为晚餐挑选菜谱,用户希望进行公平的比较。

使用多个条件进行选择会使任务更加困难。例如,当使用谷歌助手比较纽约市的比萨店时,用户无法有效地比较每个人的距离,然后根据评审中的明星数量在附近的选项中做出决定——所有这些信息都是针对每个餐厅单独提供的,用户把所有这些细节保存在他们的工作记忆中,以便比较不同的餐馆。

每种选择都缺乏相应的视觉细节,尤其是对于网上购物等事情,餐厅,或者酒店。我们研究中的用户通常会忽略购买商品的想法,而无法查看商品的图像进行评估,还要加倍确认这是正确的项目。对于名称不明确或类似的产品,错误空间太大。

一位参与者甚至指出,向Alexa索要比特币的现价令人沮丧,因为它不能轻易地传达随时间的变化,加密货币交易快速波动的一个关键因素。

技能和行动

对于Alexa和Google Assistant这样的系统,用户可以访问专门用于特定任务的特殊“应用程序”(在亚马逊生态系统中称为“技能”,在谷歌中称为“行动”)。

理论上,技能和行动可以扩大这些系统的力量,但在我们的研究中,它们被证明几乎毫无用处。绝大多数Alexa用户不知道什么是技能;有些人以前见过他们,安装了一个或两个,然后完全忘记了他们的存在。

Alexa Skills有两大发现问题:

  • 它们要求用户准确记住技能的名称。尽管你可以问Alexa你的设备目前安装了哪些技能,这项事业是徒劳的,因为亚历克萨开始一个接一个地描述它们,没有明显的顺序,当你掌握第三种技能时,你觉得你受够了。
  • 它们要求用户记住调用该技能的神奇单词。理论上,这些是“玩” ““谈 “问答 “但是,在实践中,我们的参与者很难让这些短语发挥作用:一个词似乎可以用一种技巧,但另一个没有。(我们要求人们导航到Alexa应用程序中的技能页面,有时他们会尝试此处列出的短语作为示例,甚至那些似乎都不起作用。)

一个人讲述了他购买回音设备的主要原因是如何用和声遥控器控制他的家庭娱乐系统,但后来他努力回忆起他必须使用的准确的词语来调用和声技巧,最终放弃了使用它。

人们对谷歌助手的行为甚至比对Alexa的技能更不熟悉。一位用户询问去莫斯海滩的方向,然后,收到后,继续询问“这个周末怎么样”(意思是如果他在周末离开的话,可以得到指示)。谷歌助手回答“当然,因此,你可以和太阳神交谈。听起来不错吗?”用户说是,偶然发现自己在太阳系的活动中,哪一个,在要求一个地点之后,提供了“最多10个在莫斯海滩。”这句话让用户完全困惑。(事实证明,太阳能能返回某个位置的紫外线指数。)用户评论道:“此时,我觉得有一个新的应用程序和不知道它到底是什么让我不舒服。”

一位用户意外地发现自己在谷歌助手的太阳能活动中,因为他想在周末找到莫斯海滩的方向。(在大多数浏览器中,将鼠标悬停在视频上方,以显示视频播放器控件(如果它们尚不可见)。

虽然行动(或技能)建议偶尔可能是适当的,这个建议应该附带一些关于应用程序的基本信息。

与技能互动

甚至当人们最终能够接触到亚历克萨的技能时,与他们的互动并不简单。不像Alexa本身,接受相对自由的语言,技能需要一套有限的回答。在很多方面,它们似乎非常类似于传统的交互式语音响应系统,要求用户通过说出特定的单词或数字来进行选择。人们不理解“限制语言”模式和“正常语言”模式的区别,很多与技能的互动都失败了,因为他们没有找到与应用程序对话的正确方式。大多数时候,他们只是简单地忽略了这些指示,并以自由形式制定了他们的答案和疑问。这种行为造成了困难,并引发了技能的重复反应。

例如,餐馆探险家的技巧迫使用户引用它建议的餐馆,说“1”,“2”或“3”而不是允许他们使用餐厅的名称。“孤独星球”的技能要求用户说出特定的关键词,如“最佳出发时间”,并且不理解诸如“2018年7月悉尼的活动是什么?”“当用户问这个或其他没有说明的问题时,这项技能重复了一系列关于悉尼的一般事实。一位参与者评论道:“太多了。就像我在听一本百科全书——它不是交互式的。它只是告诉我事实,而不管我是否不想听。”

加拿大航空公司的技术也为用户提供了有限的功能和想要的具体措辞;当人们问“从下午04:55起飞的旧金山到温哥华的航班状态是什么时候”除了“四五五”,技能几乎忽略了所有的单词。它解释为航班号。

由于“入门”部分的原因,技能也很烦人,它发挥了“飞溅”屏幕和教程的组合作用。在这种(冗长的)介绍中,这些技能欢迎用户并列举了他们可用的单词命令列表。不幸的是,这些介绍经常被重复,而且,就像所有的教程一样,人们几乎忽视了他们,渴望以这种技能开始他们的任务。

当他们问用户特定的问题并允许他们提供答案时,这些技能会更好地发挥作用。但即使在那里,有一个设定期望值的问题:一个与Lending Tree Skill交互的用户抱怨该技能开始提问而没有告诉她(1)为什么需要答案,(2)不保证有答案。对于她关于邮政编码94087中的抵押贷款利率的查询,更好的回答应该是一系列值,然后选择继续回答一些问题,以获得准确的比率。

另一个由技能和行为引起的问题是用户定向障碍:参与者不确定他们是否仍在与某项技能互动,或者他们是否可以恢复与Alexa的正常互动。一位参与者试图通过明确地问亚历克萨:“亚历克萨,我们还在追求这项技能吗?”,想知道她下一步要做什么。(这个问题是用户界面完全失败的标志-系统状态可见性

与其他应用程序集成

与助手们共同抱怨的是,他们没有很好地融入用户生活的虚拟生态系统。iPhone用户抱怨Siri和他们想要使用的各种应用程序之间缺乏集成-Spotify播放音乐,谷歌地图导航,等等。很多人认为Siri针对苹果应用程序和设备进行了优化,但是没有和他们拥有的应用程序和服务交谈。

Alexa的用户还抱怨亚马逊的服务占了优先地位——许多用户已经订阅了Spotify或Apple Music,他们觉得订阅亚马逊音乐也是浪费,因为这样他们就可以在他们的Echo设备上收听他们想要的音乐。积极推广公司自己的服务迫使用户学会制定查询,以便绕过这些限制:“当我说播放音乐时,它告诉我,我没有亚马逊音乐,所以我必须非常清楚地说:“播放我听到的广播。”

结论

今天的“智能”助手还远远没有通过图灵测试——对于大多数交互来说,人们很容易发现他们不是在和人说话。尽管用户将人性化的品质投射到他们身上,他们对这些助手的期望相对较低,并将其保留为黑白两色,事实问题。尽管主要障碍可能是更好的自然语言和对话处理(一个固有的难题)。许多小规模的问题可以通过更周到的设计来解决。manbetx官方网站手机版