在之前的研究中,我们发现即使是Siri、Alexa或谷歌Assistant等智能助手的频繁用户,也只会在少量简单的任务中使用它们:获取天气或新闻信息,播放音乐,设置警报,定时器或提醒,并回答琐事问题。这个有限的用法反映了这些助手的可用性差,这仍然远离真正解决用户的需求

一个我们警告不要在危险的是,人们会习惯这些业绩不佳的助理,甚至当助手会变得更好,用户可能无法发现他们的能力的改进。

在本文中,我们报告了研究用户的研究心理模型和期望智能助手。特别是,我们看到了执行机构和新用户的频繁用户的心理模型的差异,旨在了解在何种程度上有关IAS的优点和局限性的看法塑造这些系统的使用。

研究性学习

我们进行了两组智能助理用户的2周日记研究:

  1. 频繁IA用户是使用智能扬声器(Alexa或Google Home)的人,或每天像Google Assistant或Siri这样的基于电话的虚拟助手。这组中有23人:13人使用智能演讲者(7 amexa,6谷歌房屋),4人在手机上使用谷歌助手,6人,6位用户Siri。
  2. 新的IA用户有8名iPhone用户不经常使用虚拟助手(无论是在智能音箱中还是在手机上)。我们要求他们在手机上安装谷歌助手应用程序,并在日记学习期间使用它。

两个用户群体必须在日记的两周内与助手进行16个独特的互动,每周至少有8个相互作用。参与者无法录制两次相同类型的活动 - 例如,它们无法使用助手进行两次导航到目的地(即使目的地对于两个实例不同)。

对于每次日记条目,用户必须回应有关其目标的一些问题,包括助理是否帮助他们完成了他们的目标以及他们是否对助理的帮助感到满意。参与者在研究期间还进行了三次心理模型阐述任务:在他们开始日记之前,在第一周开始,最后。心理模型诱惑由参与者不得不回答他们的助手的一系列问题组成。

我们的目标是了解人们如何发展他们的心理模型和对助理的期望,因为他们扩大了他们与他们所表现的活动范围。

一段时间的帮助

只记录新类型活动的要求对我们的参与者来说是一个挑战。虽然第一周基本上是成功的,但在第二周,人们开始评论说,很难找到新的东西来做助手。这一发现证实了我们之前的研究用户与他们的助手进行了一系列相当有限的简单活动(尽管这些助手中有许多被大肆宣传的技能——只是在理论上,而不是在实际使用中)。

我们的许多参与者开始积极探索他们的助手可以做的任务——有时通过查看外部资源,如网络或简报,了解他们的助手的能力。

对于参与者记录的每一个活动,他们必须说明IA是否成功地完成了该活动,以及他们是否对助手在该任务中的表现感到满意。两周内IA的平均完成率(由用户感知)为58%。第一周的平均完成率为60%,第二周为58%。

对各种IAS的分析发现在第1周内完成的统计差异与第2周的完成,一个例外:谷歌家居设备的完成。Google Assistant在Google Home Device上的表现在第2周内每周1至44%的64%恶化得多p< 0.005)。

谷歌家是64%(第1周)和44%(第2周)。其他所有的差异都小于10%。电话助理的第二周时间略长,扬声器助理的第二周时间略短。
上面的图表报告了各种助理所认为成功的用户的平均百分比。除了谷歌房屋外,在研究中的第1周和第2周内取得了统计学上的差异。

满意度数据镜像完成数据。满意度的措施,我们报告中的活动,人们说,他们满意IA的性能的百分比。在第1个满意平均76%;在2周它为72%。在两周的满意度唯一显显著差异对于谷歌首页的设备 - 在1周内,满足互动的平均百分比为86;第2周,数下降到63%(P <0.05)。

谷歌主页率为86%(第1周)和63%(2周)。对于所有其他IAS,有两周之间的小于7%的差异。
上面的图表报告了用户对他们的IA感到满意的活动的平均百分比。第1周和第2周之间唯一具有统计学意义的差异是谷歌家庭用户。

我们试图了解为什么谷歌业主在第二周的完成和满意度得分较低。(随着用户获得更多的经验,可用性研究几乎总是记录更高的成功和满意度,所以这个结果是令人惊讶的。)在他们对系统理解的评论中,在6个谷歌家庭参与者中,4个表达了失望,并说他们发现了助手的一些局限性。以下是他们的一些评论:

  • “它并没有给我最好的答案;它给出了一个答案,但不是最好的。我失去了一点信心。”
  • “那么本周我对我的设备了解的是,当你询问一些具体的东西时,它有点难以理解,并且你必须正确地言语。”
  • “我不喜欢这个事实,有时答案只是短暂的,而且与我在实际要求的内容无关。”
  • “有时它不明白你要问的是什么,如果你以不同的方式问它,如果你如果你的话语不同,那么它会响应不同的。”

在其他两名参与者中,一个人总体上是积极的,另一个人对这个系统很满意,只提到了一个消极的事实(“谷歌仍然不完全了解孩子。”正确的。有时候妈妈跟谷歌说话比跟你说话容易。”)

基于这些评论(以及我们在本文的以下部分中报告的数据),我们推动了在第二周中不得不尝试的新任务造成的成功率和满足感可能导致了衰退weren’t up to their expectations. It’s somewhat surprising however that the second week did not affect the frequent users of the other IAs, as well. To better understand why that was the case, we looked at the types of activities that users did. To increase the number of new activities, most IA users resorted to fact-finding tasks, which were the easiest way to expand their assistants’ realm of use. Not Google Home users — compared with the other IA users, these participants had just a minor increase in fact-finding activities. (In week 2, Google Home users had significantly fewer fact-finding activities than Siri users, p <0.005, Google Assistant users on iPhone, p< 0.0001, and marginally fewer than Alexa users, p =0.07.)

谷歌主页只有在事实调查活动增加了手机上的第1周和2周谷歌助理之间7%的人增加了12%。所有的人有增加高于25%,
这个图表显示了在我们的日记中不同时期的事实调查活动所占的百分比。总的来说,谷歌Home用户进行的此类活动比其他助手的用户要少。

因为事实调查活动相对来说是成功的(只要用户能够充分地规划他们的问题),对于那些为了完成他们的日记而参与其中的用户来说,它们并没有造成太多的失望。相反,那些尝试以不同方式扩展任务的参与者遇到了更多的困难,这些困难可能会导致不满。

IAs的心智模型:频繁用户

出现了一些不同的助理观点:

  1. IA作为接口

    很多人认为他们的IA是(免提)接口到其他东西——网络、电话、智能家居,或这些的组合。下面是一些引用:

    “(Alexa)进入了互联网的神奇世界”。

    “我的谷歌助手能做的和手机差不多。”

    “我的回应是互联网,云计算,无论我在哪里,从询问信息的拉出,还有所有在顶部的信息并将其拉什么需要,把它带回了下来,然后告诉我那是什么做的事情。”

    “Siri可以在我的手机操作系统中做任何它能做的事情——比如设置日历、记笔记、闹铃——或者它……打个比方说,就是从服务器获取信息,然后再把它带回来。如果我问这样的问题“我找当地的餐馆”或某种类型的信息,如一个定义的一个词或类似的东西,然后走出去,真正说到某种类型的服务器,谷歌搜索,这种类型的东西,并将信息反馈给我的电话,传送我口头或只是在屏幕上比如‘这是我在网上找到的’。然后我必须读它。”

    上图:扬声器连接到一个箭头到互联网云,其中列出了几个网站/服务(维基百科,webmd,潘多拉,亚马逊等)底部:图表显示一个人工智能设备与互联网和其他设备的虚线,箭头指向一个棍子人
    一些参与者将他们的IA想象为云(上)或互联网和其他设备(底部)的界面。
  2. 保险业监督是“得力助手”

    有些人认为是一个能够做事的帮助者很快为他们节省工作。他们把代理人比作一个没有报酬的私人助理,后者会提醒你需要完成的任务,或提供澄清信息,让生活更轻松。

    “Siri会支持你的。”

    “谷歌助手就像米老鼠俱乐部里的方便助手。”

    “[Google Assistant]为您的生活简化,因为它就像有助理......和智能家居设备,使您的生活更简单,更容易地生活,因为您想要从沙发上起来关闭灯或从床上起床关灯电视上的灯。这几乎就像魔法。“

    一张图片显示了一部手机,上面写着“我如何帮助你:”,还有两只手放在弹簧上。上面写着:小孩子能做的事我都能做。你的信息架构。方便的助手。
    一个参与者把她的助手画成了米老鼠俱乐部的助手。
    一幅简笔画,旁边是一个坐在桌子前,在头上挂着“Siri”标签的电脑上工作的人。头衔写着:我的个人行政助理
    另一位与会者设想的Siri作为无偿个人助理
  3. ia作为知识库

    最后,一些用户简单地查看了他们的助手收集的知识.他们通常会说,他们的助手“比人聪明”,因为它“知道一切”,把智能等同于了解事实。一名参与者将他的助手比作大脑。

    大脑像一团东西(带有大脑的标签),分为几个区域,分别是:一般信息、音乐/播客、我的一天、探索、计划你的一天、智能家居自动化、天气/计时器。交通/警报,购物清单/日历/食谱,商店,游戏/笑话/故事
    一位谷歌Home用户将其描述为大脑。

界面模型是最常见的。Alexa用户通常属于界面阵营,而其他用户则更平均地分布在不同类型的思维模式中。与智能音箱用户相比,基于电话的IAs用户更有可能采用Handy-Helper心理模型(可能是因为电话上经常使用电话、日历和提醒功能)。

尽管大多数参与者坚持使用其中一种模型,但也有少数人将两种模型混合使用(例如,助手和大脑)。

意识到IAS的局限性

甚至在研究开始时,经常使用助手的用户就意识到助手的局限性。当我们问参与者他们的助手不擅长什么时,一些常见的问题是:

  • 无法理解所有输入查询

    虽然这种抱怨在所有不同的助手中都很常见,但几乎所有Alexa用户都提到过。人们注意到的问题包括名字难记,不理解不同的发音、口音或说话方式(例如,孩子的讲话),以及不理解问题的意思。例如,一些用户抱怨说,他们可能需要重新表述同样的问题,这样助手才能理解:“其他时候,如果我提问的方式不对,它会告诉我它不知道答案。”

    一名用户这样评价Siri:“有时候,他听不懂我说的所有单词。他误解我的频率比我认为的要高得多——考虑到我使用Siri将近6年的事实。”另一位用户评论道:“有时候,如果我用了一个听起来很像的词,[谷歌Home]很难理解我在说什么。而且,它有时也无法理解我的要求。”

  • 不能回答的问题

    当被问及保险监督的局限性时,人们不喜欢助手不能提供帮助,并回忆起这样的例子:

    “很多时候,我问Siri一些问题,得到的回答是‘我不知道’或‘我做不到’,这真的很令人沮丧。”

    “Alexa无法回答我问的许多问题。她只是说'我不知道'或'你必须找到另一个来源。'“

  • 错误的答案

    一些参与者还抱怨说,助手并不总是能找到正确的答案,或者对同一个问题给出了不同的答案。

    “有时候当我得到过具体的这是行不通的,这就是令人沮丧。所以,如果我问:“是不是明天会下雨吗?”他说没有。当“在现实中也许对于一个三小时内它会下雨。

  • 不处理多步骤命令

    一些用户注意到,他们的助手不擅长执行复杂的多步骤命令(这是我们从先前的研究发现之一)。例如,一个谷歌用户的助理说:“我不能告诉它打开谷歌驱动器,打开在谷歌云端硬盘中的特定文件;不明白这一点。所以基本上这是不好做的应用程序内或一旦应用的东西是开放的。”

  • 可视化的,而不是口头回答;显示的网站,可能会或可能不相关

    手机助手用户抱怨他们的助手并不总是口头回答他们的问题;相反,他们将用户导向一个(或多个)网站:

    “有时你会看到一些网站出现,这并不是很有帮助,而且有一半的时间这些网站与你真正想问的问题没有任何关系。”

    “它实际上让我发疯,当我问Siri的东西,反应是‘这是我在网上找到,’然后它只是一个维基百科页面条目,我希望自己阅读。[...]此外,就像我之前提到的,有时我要寻找的信息,但对结果我感到失望,或当它只是获取一个随机的网站,有很多次我想对于Siri的大声说我一直在寻找信息“。

  • 没有挑选隐含或上下文的提示

    一些人提到他们的IA需要良好形成的,明确的问题,以便提供答案。

    “Google Assistant对来自微妙提示或不清楚和未格式化的思想来说是非常糟糕的。”

参与者了解了他们的助手

在第一周结束时,许多用户意识到他们通常只在有限的任务中使用助手;有些人对他们的IA的能力充满希望,并有兴趣发现更多的能力:

“所以,这周,我意识到我并没有像我以为的那样经常使用内务部。我确实经常用它。然而,通常情况下都是一样的五件事一遍又一遍地重复。这很有趣。在认识到这一点的过程中,我相信Siri能做的比我想象的要多得多。”

“所以上周我意识到,我可能没有充分使用Siri……它可能有我不知道的功能;尽管如此,我不知道我是否真的发现了它能做什么或有什么新的用途。我有一些几乎每天都要用到的东西。”

大多数人最终延伸了他们的助手和尝试新活动的限制。在这样做的过程中,有些人发现了新的技能或功能。示例包括:能够拼写困难的单词,而不是发音,而是设置不同的简档,调用优步或检查飞行状态。但很多人都变成了更多地意识到他们的助手的局限性-特别是当尝试一个新功能,并发现它不适合他们.作为一个用户雄辩地放置它:

“一旦我意识到我只用她就像我就像的五件事一样”哦,这是惊人的!“我可以看到她所做的所有这些东西,让我们看看这是否可以以其他方式帮助我生活中的生活。所以我开始使用Siri和互联网尝试发现其他使用智能助手的方法。我刚刚在障碍后守走路后刚刚击落了障碍。所有甚至Siri自己的事情都说她可以做到 - 例如,我可以通过Venmo汇款,试着这样说。“我尝试过,它没有工作,也许有我需要修复的设置。但是,当这些类型的事情发生时,没有按钮说'嘿,为了让这项工作,点击这一点,我们将带你到权限或任何东西。所以我刚刚最终令人沮丧,我真的没有找到别的别人,因为我希望我希望更兴奋地对她更兴奋。“

另一名参与者提到了Alexa:“当然,它也有一些限制,比如提醒和发送信息。它说它会做到的。但最后我们发现,它并没有真正传递出信息。”

我们还要求参与者告诉我们,他们是否认为助理在这两周里了解了他们的一些情况。我们收到了一些积极的反馈(它们都来自谷歌Assistant用户——无论是在手机上还是智能扬声器上):

  • “我注意到,在过去的几个星期[即]当我不喜欢下订单之类的动作,它那种被个性化,理解你,并确实遵守了UPS [...]它种得到的感觉像什么要求你ask, what you’re into. Things like that. So it makes recommendations and personalization, is not only working with you like when you speak to it. It also seems a little proactive as well.”
  • “谷歌一直在了解我们。”
  • “助理[谷歌首页]了解我和个性化事物,但它需要做更多。”

然而,大多数人认为助手并不比研究开始时更了解他们:

  • “[我希望它]开发倾向于了解我喜欢的东西,就像我喜欢的东西取决于我喜欢的东西 - 优惠券,交易,音乐,无论如何。我有点希望它更像是一个个人助理而不是像问型情况一样。我希望它比我来到我更多。“
  • “我认为我的助手在过去的两周里谈到了我的任何事情。我实际上有点失望。我认为我对她有更高的愿望。“

新IA用户的心理模型

新用户倾向于描述助理作为一个接口连接到互联网,他们的电话,他们的智能家居.一名用户称其为“智能设备中心”。有些人在等式中引入了谷歌(很明显,谷歌Assistant是谷歌制作的)——他们说助理使用手机或谷歌账户中的信息来完成任务:“[谷歌Assistant使用它]已经拥有的关于你的信息,要么是因为你手动输入了这些信息,要么是你给了它访问其他应用程序的权限,或者是谷歌获得这些信息。”

速度和能力,快捷的工作也受到当他们描述的谷歌助理若干与会者提到。

两侧旁边的图形:左被标记为“我将一个问题输入谷歌”,并在它旁边旁边显示了一个棒图,文本“三分钟后”,棒形象机智的一个a-ha!讲话泡沫。右图显示了相同的棍子图,而不是“三分钟后”它说“三秒钟后”。
一个新的IA用户认为助手提供了一种快速实现任务的方法。

新用户发现的限制

新用户很快就发现了助手的局限性。最初关于在iPhone上使用谷歌Assistant的一些抱怨与它与iPhone原生应用程序(如闹钟应用程序)的集成很差有关。但我们的调查对象发现的问题很快就与那些频繁用户报告的问题融合在一起。其中包括缺乏口头回应和误解。

但是,在这个组中出现了一些投诉,大多数频繁用户都没有提到:

  • 缺乏对歧义的宽容,需要非常具体

    一名用户解释道:“我问我的内务部‘去机场的最佳路线是哪条?’内务部因为不知道‘最佳’是什么意思,就来问我。”“风景最好还是最快?”然后我澄清说,我想知道去机场的最快路线。内务部恰当地回答说:“Take I 29——那是州际公路——因为40第二街正在建设中。”这就是我看待这些互动的方式,因为“到机场的最佳路线”是主观的,而这可能是人工智能无法提供最好服务的领域之一。因为我们说话的方式——我们说“最佳路线”,一个人可能知道我的意思。但人工智能不会,所以我向人工智能设备提出请求时,必须非常具体。”

  • 不能做研究,不能根据判断给出答案.当人们询问建议或推荐时,助理通常会提供一份列表,用户需要从列表中过滤并选择一个:“这就是我认为使用人工智能的最大难题。我问一个问题“最好的墨西哥餐馆是哪家”它可能在一个特定的城镇、城市或社区。中介回答说:“这是这个地区的墨西哥餐馆名单。”这是有用的信息,但并不能告诉我最好的是什么。[…最终,我需要审查这些信息并做出决定。否则,它只是在提供信息。”
  • 不教学用户如何使用助手

    一些新的用户懊恼的助手本身不能教他们利用其功能和特性充分利用。他们还抱怨说,它没有提供任何错误恢复 - 例如,在情况下,当一个任务失败,原因是设置或权限。

    “它不擅长指导我如何将它与我的日程表联系起来,以及如何改善我与它的关系和联系。”

  • 没有个性化

    “我希望它对我很了解我,我也希望它能够帮助我了解它更好。这是我一直在为这项研究做的很多工作中缺少的事情。“

  • 无法保留上下文,无法进行对话(例如,通过推断为参照物代词)。一位网友说:

    “我已经了解到,她在追踪我目前正在谈论的事情是不好的。例如,我向她询问了当地电影剧院的当地电影时代;她上市的电影显示了,所以我说'什么时候'Incredibles'拥有。“她告诉我时代,然后我说'侏罗纪公园怎么样?';然后,她拔出与电影时期完全无关的东西。她用其他东西做了这个,但这是最好的例子。“

常见的助理用户对这些问题没有抱怨这么多(尽管有一些人提到助手对模糊问题的缺乏宽容) - 可能是因为他们已经发现了这一段时间,并学会了避免或避免他们的学会。

我们为什么关心心理模型

在本文前面,我们介绍了智能助手的用户心理模型的主要类别。我们发现了两种主要的信息监督概念:(1)信息监督是网络、电话或智能家庭的接口,(2)信息监督是“方便的助手”。第三种观点有时会与另外两种观点相结合,即IA是一个“大脑”或所有知识的仓库。

您如何在设计项目中从此信息中受益?

首先,要认识到,如果您为一个IA或一个IA设计一项技能,您的用户很可能会按照这些心理模型来考虑您的系统。订阅每一类心理模型的用户的确切百分比将取决于您的设计的具体情况,但您可能会在用户中遇到所有或大部分这些模型。如果你在设计一个新的AI系统,因为用户从他们的知识带来了现存的经验为他们的新系统的解释。

其次,考虑每个心理模型如何帮助或阻碍用户理解您的设计和采用您的功能。这样做可以作为一个解释框架,使可用性研究中的个别发现有意义,将它们从零散的观察到整体的见解。在进行任何用户界面设计之前,通过考虑常见的心理模型可能会将用户引入歧途,您还可以避免所有类型的可用性问题。

三,解释您的系统及其功能如果您可以在这些常见的心理模型上建立任何用户的帮助,通常会更容易。

第四,考虑如果您更愿意用户有不同的系统智能模型。如果是这样,您在您之前有一项艰巨的任务,但可能有可能更好地传达系统的特征并影响用户对其的影响。特别是,您可以采取措施来解释您的系统与普通心理模型的不同之处。

精神模型如何形成

在我们的研究中,我们研究了频繁助理用户和新助理用户。我们的大多数频繁的用户都是通过报告与助手进行的18个独特的活动而受到挑战。他们很快就实现了(与我们之前的发现一致),他们正在使用他们的IAS进行有限的任务(通常涉及提醒,计时器,警报,琐事问题,并控制智能家庭),并试图扩展它,有时会积极扩展它参考外部来源。有些人提到检查亚马逊或谷歌分别发送关于Alexa和Google Assistant的新闻稿,并兴奋地兴奋地发现他们的生活中的新方面,他们可以从他们的助手中提供帮助。

现有的IA用户拥有稳固的,助理可以轻松做的模型。他们非常清楚他们的一些助理的挑战 - 但他们的意识一般都仅限于其限制案例中可能发生的问题。误解,不能给出一个合适的问题的答案,缺乏免提支持是最突出的问题对于这组日记参与者来说,因为他们几乎可以出现在任何类型的互动中。

当这些用户试图扩大他们的活动范围时,他们通常会发现新的东西特征助手,但他们并没有试图发现与设备交互的新方式。例如,他们发现了新的Alexa技能,建立语音档案,称为尤伯​​杯,企图Venmo付款,或要求一个新的事实调查问题。一些新的活动是成功的,其他人没有,并导致失望。挫折是更深层次的,当用户研究过提前一个功能或看到它标榜的地方,却发现他们无法把它与自己的助手工作。

相比之下,新用户试图延伸他们的助手能力的极限,而不是简单地发现新功能。The new users were more likely to report issues related to true “artificial intelligence” — for example, they complained about the assistant’s inability to find a correct interpretation for sentences that were potentially ambiguous, or about the assistant’s ability to do research by itself and offer an answer for a question for which there was no one agreed-upon answer. They were also more likely to complain about the lack of personalization (and learning based on context and prior use), or the inability to establish context and make implicit references to previously mentioned facts. Another issue that was mentioned by this group of users was that the assistant did not teach users about how to best use the IA.

这些行为模式并不令人惊讶,但它们应该成为设计师的一个警告。一旦用户决定助手不能做某件事,他们不太可能很快再次尝试它。他们倾向于快速了解系统的局限性,然后围绕这些局限性使用系统(或者有时完全停止使用系统)。现在的挑战是教会用户这些系统是如何随着时间的推移而改变和改进的。

考虑基于AI的技能或基于其他助理的功能的公司应遵循以下两个步骤:

  1. 测试您的AI功能具有代表客户和现实的任务。(正如我们推荐任何可用性测试.)
  2. 如果测试显示了常见任务的低成功率,那么不要发布该功能.(曝光你的客户群,以低执行AI解决方案将阻止他们想你可能会在未来发布的任何改进方案。)

新用户是最脆弱的。他们的思维模式决定了未来的用法,所以我们必须帮助他们取得成功,扩大他们的视野。一旦人们发现某个系统无法执行某项任务,他们就会停止尝试。他们不会在以后再回来,希望它已经更新了。因此,IA的工作是积极主动,提供详细的说明和错误恢复,并宣传自己的能力。