可用性的神圣奉献是构建一个需要零的界面互动成本:能够满足用户的需求,而不会让他们做任何事情。虽然界面设计仍然远未阅读人们的思想,但智商助理等alexa,谷歌助理和星期六是沿着这方面的一步。

UI特征

基于智能计算机的助手结合了5个基本的用户界面技术:

  1. 语音输入:说出命令,而不是通过键入或单击/点击图形项目发出。
  2. 自然语理解:用户不限于使用特定的计算机优化的词汇或语法,但可以在许多方面构建他们的输入,就像他们在人类谈话中一样。
  3. 语音输出:助手响亮的屏幕上的信息而不是在屏幕上显示信息。
  4. 智能解释:助手利用其他信息(例如上下文或过去行为),除了用户的文字输入,估计用户想要的内容。
  5. 机构:助手确实没有要求用户的行动,但计算机本身就是这样进行的。

智能口译和代理人都要求该助理积极学习关于用户并能够在用户服务中修改其行为。

因此,在评估智能助理的用户体验时,我们需要考虑6个问题:5种技术中的每一个以及它们一体化

集成捆绑UI技术的想法并不是新的。相同的原则是最受欢迎的图形用户界面(GUI)的样式,称为WIMP for“Windows-icons-menus指向设备”。您可以在没有鼠标的情况下拥有窗户(使用一种lt-Tab)或没有图标的鼠标(点击单词),但完整组生成了一个很好的集成GUI,它已经提供了30多年的良好可用性。

并非所有助手始终使用所有5个UI技术:例如,如果可用屏幕,助手可以使用可视输出而不是语音输出。但是,当平滑集成时,5种技术支持并互相增加。例如,与传统的基于命令的交互式样式一样,语音命令具有固有的可用性弱点与单击相比(它们依赖于某种数量的召回,而单击和直接操纵涉及recognition)但是,自然语言可能会潜在地构成比点击图标更艰巨的命令。

整合5个UI技术有助于两个优点的交互式:

  • 它可以短路物理接口,只允许用户在自然语言中制定他们的目标。虽然说话确实涉及交互成本,但在理论上,这种成本小于学习新的UI,按下按钮和制作选择。
  • 它可以通过基于上下文信息或先前的用户行为提供适当的建议,推断用户的目标并主动。事实上,这个第二方面更接近“阅读我们的思想”。

今天的助手仍然有限,虽然在那种方向上采取了小步骤 - Google Assistant Parses,并在日历中预订了较小的步骤 - Google Assistant Parses。SIRI和Google Assistant介绍了一旦留下位置,才能获得频繁的目的地所需的时间。当这些上下文建议是合适的,他们无缝地进入用户目标。

用户研究

为了更好地了解这些助理今天的挑战以及他们帮助用户的挑战,我们运行了两项可用性研究(纽约市中心,一个在旧金山湾区)。在纽约共有17名参与者 - 在加利福尼亚州的12名参与者 - 至少有一个主要的智能助理(Alexa,Google Assistant和Siri)的频繁用户被邀请进入个别课程的实验室。每个会议包括可用性测试的组合(参与者使用Alexa,Google Assistant或Siri完成了协调人分配的任务)和采访。

在该研究的可用性测试部分期间,我们要求参与者使用助手完成各种任务,从简单(例如,4时的天气TH.七月周末,当乔治克鲁尼出生时,乔治·克鲁尼的沃尔格里斯的药房时间(例如,当时斯坦利库巴里克第二部电影的年度,周末到苔藓海滩的交通)。

本文总结了我们的主要研究结果。一种第二篇文章将讨论社会维度与智能助理的互动。

结果:提供可用性较低的劣质可用性

我们的用户研究发现,目前的智能助理失败所有6个问题(5技术加集成),导致整体可用性水平,甚至略微复杂的相互作用接近无用。为了简单的交互,设备确实满足了最低可用性要求。尽管它违反了以人为本的设计的基本前提,但用户必须培养自己,以便在智能助理将是有用的,并且最好避免使用它时。

我们的意识形态一直是计算机应该适应人类,而不是另外一边。AI的承诺是高适应性的恰好,但我们没有看到在观察实际使用时。相比之下,观察用户与AI接口的斗争感觉到一个返回20世纪70年代的黑暗时代:需要记住隐秘命令,压迫模式,混乱的内容,不灵活的相互作用 - 基本上是一种令人不快的用户体验。

让我们来看看6个UI技术中的每一个,并评估他们对用户的承诺如何。虽然这个问题的答案很伤心,但我们还可以询问当前的弱点是技术的固有,还是它们是由当前的技术限制造成的,还是将改善。

UI技术

Current usability

未来的潜力

语音输入

好(非男性扬声器除外)

很快就会变得伟大,也应对口音

大多数输入都被正确转录,偶尔出现名称。

Natural language

坏的

可以变得更好,但很难做到

不当句子不被理解;等效查询制剂产生不同的结果。对代词有限的理解。

语音输出

坏的

自然有限的可用性,除了简单的信息

除了几个任务(例如,导航,天气),助手无法始终会对查询产生令人满意的声音。

智能解释

坏的

可以变得更好,但极难做到

助手使用简单的上下文信息,如当前位置,联系数据或经常频繁的位置,但很少超出它。

机构

坏的

可以变得更好

There is only a very a limited use of external sources of information (such as calendar or email) to infer potential actions of interest to the user.

一体化

糟糕的

可以变得更好,但需要很多咕噜声

助手不适用于设备上的其他可用应用程序以及与各种“技能”或“动作”的交互不利用所有UI技术。

我们不合理吗?基于AI的用户界面近年来取得了巨大进展不是真的吗?是的,当前的AI产品比过去几十年的许多AI研究系统更好。但是,平均人员每天使用的要求都比高于研究生演示的要求。我们在20年前在学术会议上看到的演示令人印象深刻,对AI的互动令人印象深刻。目前的产品更好,但并不符合承诺。

承诺确实存在,人们已经有一些智能助理的用途。但是这种交互式需要巨大的进步,以支持更广泛的可用性。类比是移动设备开发的方式:当我们2000年测试的移动可用性,结果是Abysmal。然而,移动信息服务的承诺是明确的,许多人已经大量使用了一个特别有用的低端服务:人对人的短信。需要更多多年的技术进步和更严格的UI集成为第一个体面的智能手机运送,导致可接受的,虽然仍然是可接受的2009年的移动可用性低。另一十年的改进,和移动用户界面现在非常好

基于AI的用户界面可能略微优于2000年的移动可用性,但不是很多。达到良好的AI可用性需要两十年的时间吗?需要解决的一些问题是如此艰难,这甚至可能是一种乐观的评估。但就像手机一样,基于AI的UI的好处足够大,即使是中途(即,体面,但不是好的,可用性)可能是可以接受的,并且可能在达到速度范围内。

为什么人们使用助手

Most of our users reported that they use intelligent assistants in two types of situations:

  1. 当他们的手很忙 - 例如,在驾驶或烹饪过程中
  2. 当询问问题比键入它并通过结果读取更快

第二种情况值得讨论。大多数人对助手可以做的事情明确的期望,并且经常说他们不会使用助理以获得复杂的信息需求。他们觉得一个明确答案的查询有很好的机会被助理正确回答,两位参与者明确提到5W1H(谁,什么,何时,何时,为什么,为什么)问题。相比之下,通过网络搜索或与基于屏幕的设备(如电话或平板电脑)更好地解决了更细微的,研究类似的研究的信息需求。

然而,有些人认为助手能够实现甚至复杂的任务,只要他们被问到正确的问题。一个用户说:“我可以用Siri手机做我可以做的一切。[...]复杂的问题 - 我必须简化以使他们工作。“

然而,大多数人认为思考正确的问题是不值得的。正如一个用户所说,“Alexa就像一个外星人 - 我必须向它解释一切......它只是简单的疑问。我必须告诉她一切。我想简单地提问,并不认为[关于如何制定问题]。“

一个值得注意的区域,语音助理保存的交互成本是听写:长消息或搜索查询比类型更容易说,尤其是在移动设备上,其中tiny keyboard is error-prone,慢,令人沮丧。参与者通常很快就注意到,当他们无法轻易地键入(例如,因为他们正在走路,驾驶,烹饪或简单地远离具有真正键盘的设备)时,听取是不完美的并且有用),并且他们避免了听写文本使用可能被误解的独特术语。他们还提到了具有助理插入正确标点符号的斗争(如果用户停止暂停句子结束或助手完全忽略标点符号,则助理将停止收听,要求用户校对并编辑文本)。

与助理说话

当参与者花时间考虑如何制定查询然后将其交付给助手以连续流程,助手通常能够解析整个查询。作为一个用户,“在你问它之前,你应该想到你的问题 - 因为在你把它说到[助理]时很难解决它。你只是事先想到它,因为它不像一个人在与他们谈话中的人[你可以模糊]。“另一个人说:“当我问问题时,我几乎觉得自己是一个机器人,因为我必须以如此清晰简洁的方式说出来,我必须如此清楚地想到它。当我试图给出命令或询问特定问题时,你不使用很多拐点。它真的只是拿起言语,它不是在你的声音中捡起情绪。“

但许多参与者开始在完全制定查询之前开始发言(正如您通常与人类一样),并且偶尔会暂停寻找最佳词语。这种暂停在谈话中是自然的,但助理没有正确解释它们,并且经常赶紧回应。当然,在大部分时间内对这种不完整查询的答案不正确,整体效果是不愉快的:参与者抱怨他们被打断了,助理“谈到他们”,或者助理是“粗鲁”。有些人甚至走到明确骂助手(“Alexa,那就粗鲁!”)。

当人们需要重申没有正确理解的查询时,他们经常以高度夸张的方式阐起单词(好像他们正在与人类谈论听力障碍)。

大多数参与者认为,如果我想避免交通,我应该在星期六在星期六在星期六离开莫斯海滩的时间?“或”找到从伦敦飞往温哥华的航班的航班状态:助理不太可能理解下午55磅“)。有些人试图在多个查询中分解这些句子。例如,一个想到Kubrick的第二部电影的一个参与者被kubrick提出了一部电影列表,然后计划在该列表中提出关于第二个上次上一项的问题。不幸的是,SIRI根本没有帮助,因为它只是提供了Kubrick电影的子集,没有明显的顺序。

非英语扬声器

几个人有外来的口音,觉得助手并没有总是得到他们的话语,不得不经常重复自己。这些人受挫,认为助手必须学会处理各种语言和讲话方式。

除了重点外,还有三种其他因素影响他们的助理成功:

  1. 他们可能比母语人员在他们的话语中暂停更多。这些暂停通常被助理解释为查询的结束。
  2. 当他们觉得他们误解了一个单词并最终说了两次时,他们往往纠正自己。这些重复的话语似乎混淆了助手 - 特别是alexa。
  3. They sometimes used less common wordings. For example, one participant asked “Alexa, when did Great Britain’s soccer team play in the soccer championship.” Alexa was not able to find an answer for that question.

幸运的是,强调的理解是计算机有可能成为的领域比现实更好:他们可以识别出比人类更好的单词的非标准发音。计算机不关心你是如何发出某个单词的方式 - 除非它训练只识别特定声音,都可以理解,了解几种不同的声音都代表相同的单词。因此,我们期望更好的口音识别只是时间问题。应对本节讨论的其他问题将更困难。

提出答案

助理的语言

一些参与者抱怨助手讲太快,没有办法让它重复答案。特别是当答案太长或复杂时,参与者无法将所有信息归于他们的所有信息working memory。例如,在提供抵押贷款报价之前,Alexa Lending的树技能要求用户通过重新登录地址和抵押贷款术语确认输入的所有详细信息都是正确的,然后枚举一组命令,以便在需要时编辑信息。一个用户说:“它在最终的时候说得太快 - [它说]”如果某些东西不正确[你必须]去Bla Bla Bla';记得所有选择太难了。“

当助手误解了这个问题并提供了不正确的反应时,这种经历是脱离和烦人的。人们怨恨不得不等待一个完全无关紧要,并努力在谈话中插入“alexa,停止”。一个参与者解释说:“我不喜欢的是[alexa]当我开始和她交谈时不会闭嘴。这应该是更为人类的互动。[…] It would be ideal if it interacted to something less than `Alexa, stop’ — something like `ok’, or `enough’, or pretty much anything that I mutter […] It’s like talking to someone who just goes on and on, and you’re waiting to find a pause so you can somehow stop them.”

但即使是一些正确的助手反应也太令人讨厌。一个用户抱怨,当她试图将物品添加到杂货列表时,Alexa在每一个后确认了“添加到杂货列表”。这对这种重复任务感到太多的话语。另一个用户称为Google Assistant“Too Chatty”在向药房开放时间提供额外信息时提供额外信息。当Alexa阅读提拉米苏食谱列表中的每个食谱的长篇描述时,参与者卷起了眼睛,包括提及(某些)相当明显和重复的成分 - 就像鸡蛋。

Voice vs. Screen Results

智能助理的主要用途之一是汽车的免提使用,在厨房或其他类似情况下。我们的用户在绝大多数案例中考虑了一个优于屏幕答案的声音答案。(例外包括答案所包含的敏感信息的情况 - 例如,一个女人怨恨让她的医生预约大声朗读,说“我宁愿拥有它”事件“这个词”。)

大多数智能扬声器没有屏幕,因此他们必须以声乐格式传达答案。这种限制使一些参与者在基于电话的同行中更喜欢扬声器,其中混合模态互动感觉更繁琐。

当他们没有准备好的答案时,迫使用户与屏幕交互时,基于电话的助手通常会被推迟到搜索结果。当他们不得不使用他们的眼睛和手指来浏览结果列表时,人们感到失望。他们评论说:“它没有给我正确的答案。它给了我一篇文章和链接。It doesn’t tell me what I asked,” and “I kind of wish that it didn’t show me just some links… [At least it] should tell me something… And then, maybe `if you want more, check this or that.’”

When the right answer was read, “it felt like magic.” A participant asked Google Assistant “How many days should I spend in Prague?”, and the response came loud and clear: “According to Quora, you should ideally spend 3-4 days in Prague […].” The user said, “That’s what I was looking for in the others; it read the information out loud to me and it also showed the information.” These types of experiences were considered the most helpful by our participants, but they were rare in our study: even though this task was performed by several participants, only one used the “right” query formulation that produced a clear verbal answer; the other six who tried variants of the same question (“OK Google, what do you think would be a good amount of time to vacation in Prague”, “OK Google, how long should I vacation in Prague”, “Hey Siri, how many days is enough for visiting Prague,” “OK Google, what’s a good amount of time to stay in Prague,” “Siri, how many days should I go to Prague for?”, “Siri, if I go to Prague, how long should I go?”) got a set of links instead from both Siri and Google Assistant, except for the last query, which was offered the traffic around Prague.

通过Siri,还有哪些链接被破坏性的原因:从结果列表中点击链接的人被拍摄给浏览器或者到另一个应用程序,有些并不知道如何返回列表以继续检查其他结果。一张iPhone用户点击了一家餐馆,在地图上看到它,然后试图返回另一家餐馆;she said, “Oh no, [the restaurants] disappeared… That’s one thing that bothers me, that I don’t know how to retrieve the Siri request, you know, once it says there’s something you might find interesting … like if I’m driving, if I really want to find who starred in this movie, I could say `add it to my to-do list to do later’ or I could say `look it up’, but I am not going to look at it until I get to my destination, and, by the time I’m there, it’s disappeared… So this list of restaurants is gone because I touched on Maps, so I’ll have to try it again.” (The list of restaurants could have been retrieved should the user have clicked on theback-to-app iPhone buttonin the top left corner of the screen, but that button was tiny and many users are not familiar with it. However, the more general point of being unable to retrieve the history of interactions is definitely a weakness of Siri compared with other intelligent assistants. Even Alexa allows users to see a history of their queries in the Alexa mobile app.)

基于屏幕的助手,转录用户的查询造成的问题当转录不是瞬时时。一位参与者认为,因为她没有看到屏幕上的任何口语的话,Siri没有听到她,所以她会不止一次重复那些前几个字。助理通常没有正确理解所得到的话语。

部分答案

有时Alexa公开认识到它没有答案。当它提供仍然相关的信息时,虽然不是对用户查询的直接响应,但参与者很高兴。例如,一个用户在Willow Glenn(圣何塞,加利福尼亚州)和Alexa的一家社区)和Alexa表示,它不知道答案,而是提供了旧金山湾区的平均租金。用户很高兴助理将Willow Glenn认可为湾区的一部分,答案也没关系。另一个用户问道“Alexa,山景一卧室公寓多少钱?”而且,当助手回答“抱歉时,我不知道那个。现在,我能够查找电话号码,小时和地址。“,用户评论了”谢谢。这真的很有帮助 - 就像'OK,我不能这样做,但我可以做到这一点'......“

当是,而不是声乐答案,Siri或Google助理提供了一套屏幕结果,第一次反应是失望的,如上所述。但是,如果屏幕上的结果与他们的查询相关,人们有时会觉得经验是可以接受的,甚至是好的。(This perception may be specific to the laboratory setting, where participants’ hands were free and they could interact with their device.) Many felt that they knew how to search and pick out relevant results from the SERP better than an assistant (and especially better than Siri), so when the assistant returned just the search results, some said that they would have to redo the searches anyhow. A few people tried to formulate search queries out loud when talking to the assistant and bet on the idea that the first few results would be good enough. These people used the assistant (Google Assistant usually) as a vocal interface to a search engine.

信任结果

人们知道智能助理不完美。所以,即使助理提供了答案,他们有时怀疑答案是正确的 - 不知道查询是否完全被正确理解,或者助理只匹配其中的一部分。随着一个用户所说,“我不相信Siri会给我一个对我有好处的答案。”

For example, when asked for a recipe, Alexa provided a “top recipe” with the option for more. But it gave no information about what “top” meant and how the recipes were selected and ordered. Were these highly rated recipes? Recipes published by a reputed blog or cooking website? People had to trust the selections and ordering that Alexa made for them, without any supporting evidence in the form of ratings or number of reviews. Especially with Alexa, where users could not see the results and just listened to a list, the issue of how the list was assembled was important to several users.

然而,即使是基于电话的助手引发了信任问题,即使他们可以使用屏幕来支持证据。例如,在其中一个任务中,用户要求Siri找到前往莫斯海滩的餐厅。SIRI确实返回了一系列附有越橘的餐厅列表(似乎回答了查询),但没有地图表明餐馆确实满足了用户指定的标准。使用所有餐厅访问地图也乏味:一个人不得不挑选一家餐馆,点击其地图;该地图显示了Siri选择的所有餐馆。

Siri没有显示地图上的餐厅列表。要访问地图,用户必须选择一家餐馆并在地图上显示它。一旦他们这样做,有些用户不知道如何恢复餐馆列表(可以通过单击返回应用程序按钮来完成Siri.在屏幕的左上角)。

相比之下,谷歌助手做了更好的工作解决了同一查询:它确实显示了在地图上建议的所有餐馆,并且用户可以看到(不幸的是)结果集中在路线的苔藓海滩末端而不是之间。

Google Assistant展示了地图上的餐厅。

对比较和购物的支持不佳

在我们的研究中,有若干原因,涉及比较的任务尤其较差:

  1. 言论是An效率低下的输出方式。它需要一个好久听对于助手来读出每个可能的替代方案,我们观看了用户在收听助理谈话时明显恼火,并在长度上讨论一个选项。当参与者迅速意识到她不关心目前的物品时,助理的虔诚尤其令人沮丧,但她仍然不得不倾听Alexa或Siri致力于它。如果两个人互相交谈,他们可以使用音调,面部或主语线索将对话转向对两者都有兴趣的方向。但语音助手无法理解用户对用户不感兴趣并停止谈论它。
  2. 用户无法轻松来回和比较选项。他们不得不将关于其工作内存的一个替代方案的所有信息致力于将该项目与后续的信息进行比较。

For example, when offering different tiramisu recipes to a user, Alexa listed the name of the recipe, the time it takes to prepare it, and then said, “You can ask for more information, or, for more recipes, say ‘Next’.” If the user said, “Next”, it was difficult to go back and refer to a previous recipe. This interaction style assumed that the user was comfortable满意(即,选择第一个最小可接受的选项)而不是比较不同替代品的优缺点。对于一些简单的任务,没有挑选平庸的选择,令人满意可能是合理的假设,但在我们的研究中,即使为了挑选晚餐,用户也希望进行公平的比较程度。

使用多个标准进行选择使得任务更加困难。For example, when using Google Assistant to compare pizza places in New York City, users couldn’t efficiently compare how far away each one was, and then decide among the nearby options based on the number of stars they had in reviews — all of that information was presented for each restaurant individually, and users had to keep all those details in their working memory to compare different restaurants.

缺乏各种选择的视觉细节 - 尤其是在线购物,餐馆或酒店等事物。我们研究中的用户经常驳回了购买物品的想法,而无需查看它的图像来评估它,并且还为正确的项目。含糊不清或类似产品的错误有太多的空间。

一位参与者甚至指出,要求Alexa为当前比特币价格令人沮丧,因为它不能随着时间的推移很容易地沟通变化,这是交易加密迅速波动的关键因素。

技能和行动

对于像Alexa和Google Assistant这样的系统,用户可以访问亚马逊的生态系统中的特殊“应用程序”(名为“技能”,并在谷歌的“行动”中致力于特定的任务。

从理论技能和行动可以扩大这些系统的力量,但在我们的研究中,他们证明了几乎没用。大多数Alexa用户不知道技能是什么;有些人之前遇到过他们,安装了一两个,然后完全忘记了他们的存在。

alexa技能有两个大的发现性问题:

  • They require users to remember precisely the name of the skill. Although you can ask Alexa what skills are currently installed on your device, the enterprise is quite futile, because Alexa starts describing them one by one in no apparent order, and by the time you got to the third skill, you feel you’ve had enough.
  • 他们要求用户记住调用技能的神奇词语。从理论上讲,这些是“玩<技能>”,“和<技能>”,“问<技能> <具体问题>”,但在实践中,我们的参与者遇到了一些这些短语的工作:似乎有一个词好的技能,但不是另一个技能。(我们要求人们在Alexa App中导航到技能页面,有时他们会尝试那里列出的短语作为示例,甚至那些似乎没有工作。)

一个人讲述了他买了回声设备的主要原因是控制他的家庭娱乐系统,并与一个和谐的遥控器控制他的家庭娱乐系统,但是努力记住他必须用来调用和声技巧的确切词语,最终放弃使用它。

人们甚至不那么熟悉Google Assistant的行为,而不是alexa技能。一个用户要求向莫斯海滩进行指示,然后,在收到他们之后,继续查询“本周末”(意思是在周末离开,如果他在周末离开)。Google Assistant回答了“当然,您可以与太阳能发布。这听起来不错吗?“用户说是的,并且不小心发现自己在太阳能发挥作用中,在寻求某个地点之后,在寻找最多10个在莫斯海滩之后。这句话让用户完全混淆了。(事实证明太阳能Flair返回一个位置的UV索引。)用户评论说:“此时,我对拥有一个新的应用程序感到不舒服,而不是完全了解它是什么。”

一个用户意外发现自己在谷歌助理的太阳能发挥行动中,因为他正试图在周末获得苔藓海滩的指示。(在大多数浏览器中,将鼠标悬停在视频上,以显示视频播放器控件如果它们尚不可见。)

While it seemed that an action (or skill) suggestion may be appropriate occasionally, that suggestion should be accompanied by some basic information about the app.

与技能互动

即使人们终于能够访问一个of Alexa’s skills, interacting with them was not straightforward. Unlike Alexa itself, which accepted relatively free-form language, skills required a restricted set of responses. In many ways, they seemed very similar to traditional interactive voice-response systems that require users to make selections by saying a specific word or number. People did not understand the difference between the “restricted-language” mode and the “normal-language” mode, and many of the interactions with skills failed because they did not discover the right way to talk with the app. Most of the time, they simply ignored the instructions and formulated their answers and queries in free form. This behavior created difficulties and triggered repetitive responses from the skills.

例如,餐厅资源管理器技能强制使用者通过说“1”,“2”或“3”来提出它建议的餐馆,而不是让他们使用餐馆的名称。孤独的星球技能所需的用户可以说明“最佳时间”等特定关键字,并不了解“2018年7月在悉尼的事件”等问题?“当用户询问此或其他未编写的问题时,技能重复了一套关于悉尼的一般事实。一位参与者评论了“太多了。这就是我正在听百科全书 - 它不是互动。[..]它只是告诉我事实,如果我不想听,它不关心。“

Air Canada技能还为用户提供了有限的功能和想要的特定措辞;当人们问“从旧金山飞往温哥华的航班的地位是什么时候离开五十五下午五十五”时,这一技能几乎忽略了除“四五十五”之外的所有词语,它被解释为飞行号码。

技能也很烦人,因为“介绍性”部分,它发挥了“飞溅”屏幕和教程的综合作用。在这种(冗长的)介绍中,技能欢迎用户并枚举它们可用的单词命令列表。不幸的是,这些介绍经常被重复,而且与所有教程一样,人们几乎忽略了他们,渴望通过技能开始任务。

当他们询问用户特定问题并允许他们提供答案时,技能更好。但即使在那里,也有一个问题,其中一个人的期望:一个用户与贷款树技能互动的用户抱怨说,这项技能在没有告诉她的情况下,在不告诉她有答案。对邮政编码94087中的抵押贷款利率的更好回应将是一系列值,然后选择继续并回答一些问题以获得精确的速率。

通过技能和行动引起的另一个问题是用户迷失化:参与者不确定他们是否仍然与技能互动,或者他们可以恢复与alexa的正常互动。一位参与者试图通过明确询问Alexa来解决这个问题:“Alexa,我们仍然在[技能] Woot?”,弄清楚她需要做什么。(这个问题是UI完全失败的UI的标志 -系统状态的可见性。)

与其他应用集成

一种common complaint with the assistants was that they did not integrate well in the virtual ecosystems in which users lived. iPhone users complained about lack of integration between Siri and a variety of apps they wanted to use — Spotify to play Music, Google Maps for directions, and so on. Many felt that Siri was optimized for Apple apps and devices, but did not speak with the apps and services they had.

Alexa用户还抱怨亚马逊的服务优先 - 许多已经有订阅,发现了苹果音乐,并觉得订阅亚马逊音乐是浪费的,以便收听他们在回声设备上的音乐。一种ggressive promoting of the company’s own services forced users to learn to formulate queries so that they get around these restrictions: “When I say play music, it tells me that I don’t have Amazon Music so I have to be very clear and say `Play iHeart Radio.’”

结论

今天的“智能”助手仍远远远远远远传递一个图灵测试 - 对于大多数互动,人们将很容易地弄清楚他们没有与人类说话。虽然用户将人类的品质项目投入到他们身上,但它们对这些助手的预期相对较低,并为黑白事实问题保留了它们。尽管主障碍可能是更好的自然语言和对话加工(一个固有的难题),但是可以通过更周到的设计来解决许多较小的规模问题。