在之前的研究中,我们发现即使是Siri、Alexa或谷歌Assistant等智能助手的频繁用户,也只会在少量简单的任务中使用它们:获取天气或新闻信息、播放音乐、设置闹钟、计时器或提醒,以及回答琐碎的问题。这种有限的用法反映了这些助手的可用性差美国离这个目标还有很长的路要走满足用户的实际需求

我们警告过的一个危险是,人们会习惯这些表现不佳的助手,即使助手变得更好了,用户也可能不会发现他们的能力得到了提高。

在本文中,我们报告了一项研究,调查了用户的心智模式以及对智能助理的期望。特别地,我们研究了IAs的频繁用户和新用户之间的心理模型差异,旨在了解关于IAs的优势和限制的观点在多大程度上影响了这些系统的使用。

研究

我们对两组智能助手用户进行了为期2周的日记研究:

  1. 频繁的IA用户是那些每天使用智能音箱(Alexa或谷歌Home)或基于手机的虚拟助手(如谷歌assistant或Siri)的人。这一组有23人:13人使用智能扬声器(7个Alexa, 6个谷歌Home), 4人使用谷歌Assistant, 6人使用Siri。
  2. IA新用户有8名iPhone用户不经常使用虚拟助手(无论是在智能音箱中还是在手机上)。我们要求他们在手机上安装谷歌助手应用程序,并在日记学习期间使用它。

在两周的日志中,两个用户组都必须记录16个与助手的独特互动,每周至少8个互动。参与者不能两次记录相同类型的活动——例如,他们不能两次使用助手导航到一个目的地(即使两个实例的目的地不同)。

对于每个日志条目,用户必须回答一些关于他们的目标的问题,包括助手是否帮助他们完成目标,以及他们是否对助手的帮助感到满意。在研究过程中,参与者还进行了三次心理模型启发任务:开始写日记前、第一周后和最后。心理模型启发包括一系列的问题,参与者必须回答关于他们助手的问题。

我们的目标是了解当人们扩大与助手一起进行的活动范围时,他们的心理模型和对助手的期望是如何发展的。

一段时间的帮助

只记录新类型活动的要求对我们的参与者来说是一个挑战。虽然第一周基本上是成功的,但在第二周,人们开始评论说,很难找到新的东西来做助手。这一发现证实了我们之前的研究用户与他们的助手参与的简单活动相当有限(尽管这些助手中有许多被大肆宣传的技能——只是在理论上,而不是在实际使用中)。

我们的许多参与者开始积极探索他们的助手可以做的任务——有时通过查看外部资源,如网络或简报,了解他们的助手的能力。

对于参与者记录的每一个活动,他们必须说明IA是否成功地完成了该活动,以及他们是否对助手在该任务中的表现感到满意。两周内IA的平均完成率(由用户感知)为58%。第一周的平均完成率为60%,第二周为58%。

对各种IAs的分析发现,第1周完成与第2周完成没有统计学差异,只有一个例外:谷歌家用设备。谷歌Assistant在谷歌家庭设备上的性能显著下降,从第1周的64%下降到第2周的44% (p< 0.005)。

谷歌家是64%(第1周)和44%(第2周)。其他所有的差异都小于10%。电话助理的第二周时间略长,扬声器助理的第二周时间略短。
上面的图表报告了不同助手的用户认为成功的任务的平均百分比。除了谷歌Home,在第1周和第2周的研究成功之间没有统计学上的显著差异。

满意度数据反映了完成数据。我们报告的满意度衡量指标是人们表示对保险业监督的表现感到满意的活动的百分比。第1周满意度平均为76%;在第二周是72%。两周满意度的唯一显著差异是谷歌家用设备——在第1周,满意交互的平均百分比是86;在第2周,这个数字下降到63% (p <0.05)。

谷歌Home为86%(第1周)和63%(第2周)。对于所有其他IAs,两周之间的差异小于7%。
上面的图表报告了用户对他们的IA感到满意的活动的平均百分比。第1周和第2周之间唯一具有统计学意义的差异是谷歌家庭用户。

我们试图了解为什么谷歌业主在第二周的完成和满意度得分较低。(随着用户获得更多的经验,可用性研究几乎总是记录更高的成功和满意度,所以这个结果是令人惊讶的。)在他们对系统理解的评论中,在6个谷歌家庭参与者中,4个表达了失望,并说他们发现了助手的一些局限性。以下是他们的一些评论:

  • “它并没有给我最好的答案;它给出了一个答案,但不是最好的。我失去了一点信心。”
  • “所以这周我对我的设备的了解是,当你问一些具体的问题时,要理解起来有点困难,你必须正确地表达出来。”
  • “我不喜欢有时候答案很短,而且和我真正想问的问题没有关系。”
  • “有时它不明白你问的是什么,如果你用不同的方式问,比如如果你用不同的措辞,它的反应也会不同。”

在其他两名参与者中,一个人总体上是积极的,另一个人对这个系统很满意,只提到了一个消极的事实(“谷歌仍然不完全了解孩子。”正确的。有时候妈妈跟谷歌说话比跟你说话容易。”)

基于这些评论(以及我们报告的数据在本文的以下部分),我们推测成功率和满意度下降可能是由于新任务,人们试图在第二周,没有达到他们的预期。然而,令人有点惊讶的是,第二周并没有影响其他IAs的频繁用户。为了更好地理解为什么会出现这种情况,我们查看了用户所做的活动的类型。为了增加新活动的数量,大多数IA用户求助于事实调查任务,这是扩展助手使用领域的最简单方法。不是谷歌家庭用户——与其他IA用户相比,这些参与者在调查事实方面只增加了少量的活动。(在第二周,谷歌家庭用户明显少于Siri用户,p< 0.005,谷歌iPhone助手用户,p< 0.0001,略少于Alexa用户,p =0.07。)

谷歌Home在第1周和第2周之间的事实调查活动只增加了7%。谷歌手机助手增加了12%。其他的都有超过25%的增长,
这个图表显示了在我们的日记中不同时期的事实调查活动所占的百分比。总的来说,谷歌Home用户进行的此类活动比其他助手的用户要少。

因为事实调查活动相对来说是成功的(只要用户能够充分地规划他们的问题),对于那些为了完成他们的日记而参与其中的用户来说,它们并没有造成太多的失望。相反,那些尝试以不同方式扩展任务的参与者遇到了更多的困难,这些困难可能会导致不满。

IAs的心智模型:频繁用户

助手们出现了几种不同的观点:

  1. IA作为接口

    许多人认为他们的内务部是(免提的)与其他东西的接口——网络、电话、智能家居,或这些的组合。下面是一些引用:

    “(Alexa)进入了互联网的神奇世界”。

    “我的谷歌助手能做的和手机差不多。”

    “我的Echo正在从互联网、云,无论我从哪里询问信息,上面都有所有的信息,它提取需要的信息,把它带回来,然后告诉我它在做什么。”

    “Siri可以在我的手机操作系统中做任何它能做的事情——比如设置日历、记笔记、闹铃——或者它……打个比方说,就是从服务器获取信息,然后再把它带回来。如果我问这样的问题“我找当地的餐馆”或某种类型的信息,如一个定义的一个词或类似的东西,然后走出去,真正说到某种类型的服务器,谷歌搜索,这种类型的东西,并将信息反馈给我的电话,传送我口头或只是在屏幕上比如‘这是我在网上找到的’。然后我必须读它。”

    上图:扬声器连接到一个箭头到互联网云,其中列出了几个网站/服务(维基百科,webmd,潘多拉,亚马逊等)底部:图表显示一个人工智能设备与互联网和其他设备的虚线,箭头指向一个棍子人
    一些参与者将他们的IA想象成与云(顶部)或互联网和其他设备(底部)的接口。
  2. 保险业监督是“得力助手”

    一些人认为内务部是一个可以做事情的助手很快为他们节省工作。他们把代理人比作一个没有报酬的私人助理,后者会提醒你需要完成的任务,或提供澄清信息,让生活更轻松。

    “Siri会支持你的。”

    “谷歌助手就像米老鼠俱乐部里的方便助手。”

    “谷歌助理可以简化你的生活,因为它就像有一个助理,智能设备,让你的生活更简单,更容易生活因为你想从沙发上起来关灯或从床上起身关灯打开电视。就像魔法一样。”

    一张图片显示了一部手机,上面写着“我如何帮助你:”,还有两只手放在弹簧上。上面写着:小孩子能做的事我都能做。你的信息架构。方便的助手。
    一个参与者把她的助手画成了米老鼠俱乐部的助手。
    一幅简笔画,旁边是一个坐在桌子前,在头上挂着“Siri”标签的电脑上工作的人。头衔写着:我的个人行政助理
    另一名参与者设想Siri是一名无偿的个人助理
  3. IA是知识的宝库

    最后,一些用户简单地认为他们的助手是巨大的收集的知识.他们通常会说,他们的助手“比人聪明”,因为它“知道一切”,把智能等同于了解事实。一名参与者将他的助手比作大脑。

    大脑像一团东西(带有大脑的标签),分为几个区域,分别是:一般信息、音乐/播客、我的一天、探索、计划你的一天、智能家居自动化、天气/计时器。交通/警报,购物清单/日历/食谱,商店,游戏/笑话/故事
    一位谷歌Home用户将其描述为大脑。

界面模型是最常见的。Alexa用户通常属于界面阵营,而其他用户则更平均地分布在不同类型的思维模式中。与智能音箱用户相比,基于电话的IAs用户更有可能采用Handy-Helper心理模型(可能是因为电话上经常使用电话、日历和提醒功能)。

尽管大多数参与者坚持使用其中一种模型,但也有少数人将两种模型混合使用(例如,助手和大脑)。

意识到IAs的局限性

甚至在研究开始时,经常使用助手的用户就意识到助手的局限性。当我们问参与者他们的助手不擅长什么时,一些常见的问题是:

  • 无法理解所有输入查询

    虽然这种抱怨在所有不同的助手中都很常见,但几乎所有Alexa用户都提到过。人们注意到的问题包括名字难记,不理解不同的发音、口音或说话方式(例如,孩子的讲话),以及不理解问题的意思。例如,一些用户抱怨说,他们可能需要重新表述同样的问题,这样助手才能理解:“其他时候,如果我提问的方式不对,它会告诉我它不知道答案。”

    一名用户这样评价Siri:“有时候,他听不懂我说的所有单词。他误解我的频率比我认为的要高得多——考虑到我使用Siri将近6年的事实。”另一位用户评论道:“有时候,如果我用了一个听起来很像的词,[谷歌Home]很难理解我在说什么。而且,它有时也无法理解我的要求。”

  • 无法回答问题

    当被问及保险监督的局限性时,人们不喜欢助手不能提供帮助,并回忆起这样的例子:

    “很多时候,我问Siri一些问题,得到的回答是‘我不知道’或‘我做不到’,这真的很令人沮丧。”

    “Alexa不能回答我问的很多问题。她只会说‘我不知道’或者‘你得另找个渠道说’。”

  • 错误的答案

    一些参与者还抱怨说,助手并不总是能找到正确的答案,或者对同一个问题给出了不同的答案。

    “有时候,当我说得太具体时,它并不起作用,这令人沮丧。所以如果我问“明天会下雨吗?”’他说没有。而在现实中,可能会有三个小时的时间下雨。”

  • 不处理多步骤命令

    一些用户注意到了这一点他们的助手不擅长执行复杂的多步骤命令(这是我们先前研究的发现之一)。例如,一个谷歌Assistant用户说:“我不能告诉它打开谷歌驱动器并在谷歌驱动器中打开一个特定的文档;它不理解这一点。所以基本上它不擅长在应用内部或应用打开后进行操作。”

  • 视觉回答而不是口头回答;展示那些可能相关也可能不相关的网站

    手机助手用户抱怨他们的助手并不总是口头回答他们的问题;相反,他们将用户导向一个(或多个)网站:

    “有时你会看到一些网站出现,这并不是很有帮助,而且有一半的时间这些网站与你真正想问的问题没有任何关系。”

    “当我问Siri一些问题时,她的回答是‘这是我在网上找到的东西’,而这只是一个我自己应该读的维基百科页面条目,这真的让我很抓狂。”还有,就像我之前提到的,有时我在寻找信息,但对得到的结果感到失望,或者当它只是检索一个随机网站时,很多时候我希望Siri能大声说出我在寻找的信息。”

  • 没有领会隐含的或上下文的暗示

    一些人提到,他们的IA需要格式良好、明确的问题来提供答案。

    “谷歌Assistant在从微妙的暗示或不清晰和未成形的想法中获取未知和填充意义方面非常糟糕。”

参与者了解了他们的助手

在第一周结束时,许多用户意识到他们通常只在有限的任务中使用助手;有些人对他们的IA的能力充满希望,并有兴趣发现更多的能力:

“所以,这周,我意识到我并没有像我以为的那样经常使用内务部。我确实经常用它。然而,通常情况下都是一样的五件事一遍又一遍地重复。这很有趣。在认识到这一点的过程中,我相信Siri能做的比我想象的要多得多。”

“所以上周我意识到,我可能没有充分使用Siri……它可能有我不知道的功能;尽管如此,我不知道我是否真的发现了它能做什么或有什么新的用途。我有一些几乎每天都要用到的东西。”

大多数人最终都突破了助手的限制,尝试了新的活动。在这样做的过程中,有些人确实发现了新的技能或特征。例如:能够拼写出困难的单词,而不是发音,建立不同的个人资料,呼叫优步,或查看航班状态。但许多人成为更多地意识到他们的助手的局限性-特别是当尝试一个新功能,并发现它不适合他们.正如一位用户雄辩地指出的:

“当我意识到我只用她做五件事的时候,我就想‘哦,这太神奇了!“我能看到她做的所有其他事情,让我们看看这是否能在其他方面帮助我。所以我开始同时使用Siri和互联网,试图找到使用这款智能助手的其他方法。我不断遇到一个又一个的路障。所有Siri自己都说过她能做到的事情,比如“我可以通过Venmo汇款,只要试着说这句话。”“我试过了,但没用,也许有些设置需要修改。”但当这些事情发生时,并没有按钮说,“嘿,为了让这个在未来工作,点击这个,我们会带你到权限或其他”。所以我最终非常沮丧,我真的没有找到更多可以利用她的东西,这有点糟糕,因为我希望在她之后能更兴奋。”

另一名参与者提到了Alexa:“当然,它也有一些限制,比如提醒和发送信息。它说它会做到的。但最后我们发现,它并没有真正传递出信息。”

我们还要求参与者告诉我们,他们是否认为助理在这两周里了解了他们的一些情况。我们收到了一些积极的反馈(它们都来自谷歌Assistant用户——无论是在手机上还是智能扬声器上):

  • “我注意到,在过去几周,当我做下订单之类的操作时,它会变得个性化,能理解你,并跟进你的请求,你喜欢什么。类似这样的事情。所以它会提供推荐和个性化服务,不仅仅是在你跟它说话的时候。这似乎也有点主动。”
  • “谷歌一直在了解我们。”
  • “助理(谷歌Home)了解我,让我的东西个性化,但它还需要做更多的事情。”

然而,大多数人认为助手并不比研究开始时更了解他们:

  • “(我希望它)能形成一种趋势,了解我喜欢什么,并根据我喜欢的东西给我买东西——优惠券、交易、音乐,等等。”我想让它更像是一个私人助理而不是一个询问型的情况。我更希望它自己来,而不是我自己来。”
  • “我觉得我的助理在过去的两周里没有了解我的任何情况。其实我有点失望。我想我对她有更高的期望。”

新IA用户的心理模型

新用户倾向于描述作为连接互联网、手机和智能家居的接口.一名用户称其为“智能设备中心”。有些人在等式中引入了谷歌(很明显,谷歌Assistant是谷歌制作的)——他们说助理使用手机或谷歌账户中的信息来完成任务:“[谷歌Assistant使用它]已经拥有的关于你的信息,要么是因为你手动输入了这些信息,要么是你给了它访问其他应用程序的权限,或者是谷歌获得这些信息。”

一些参与者在描述谷歌Assistant时也提到了速度和快捷工作的能力。

两张并排的图片:左边的标签是“我在谷歌中输入一个问题”,旁边是一个带有三个问号的简笔画,文字是“三分钟后”,简笔画上有一个“啊哈!”演讲泡沫。右边的图形显示的是同样的简笔图,但不是“三分钟后”,而是“三秒钟后”。
一个新的IA用户认为这个助手提供了一种快速完成任务的方法。

新用户发现的限制

新用户很快就发现了助手的局限性。最初关于在iPhone上使用谷歌Assistant的一些抱怨与它与iPhone原生应用程序(如闹钟应用程序)的集成很差有关。但我们的调查对象发现的问题很快就与那些频繁用户报告的问题融合在一起。其中包括缺乏口头回应和误解。

然而,在这组中出现了一些抱怨,但大多数频繁用户都没有提到:

  • 缺乏对歧义的容忍度,并且需要非常具体

    一名用户解释道:“我问我的内务部‘去机场的最佳路线是哪条?’内务部因为不知道‘最佳’是什么意思,就来问我。”“风景最好还是最快?”然后我澄清说,我想知道去机场的最快路线。内务部恰当地回答说:“Take I 29——那是州际公路——因为40第二街正在建设中。”这就是我看待这些互动的方式,因为“到机场的最佳路线”是主观的,而这可能是人工智能无法提供最好服务的领域之一。因为我们说话的方式——我们说“最佳路线”,一个人可能知道我的意思。但人工智能不会,所以我向人工智能设备提出请求时,必须非常具体。”

  • 不能做研究,不能根据判断给出答案.当人们询问建议或推荐时,助理通常会提供一份列表,用户需要从列表中过滤并选择一个:“这就是我认为使用人工智能的最大难题。我问一个问题“最好的墨西哥餐馆是哪家”它可能在一个特定的城镇、城市或社区。中介回答说:“这是这个地区的墨西哥餐馆名单。”这是有用的信息,但并不能告诉我最好的是什么。[...最终,我需要审查这些信息并做出决定。否则,它只是在提供信息。”
  • 不教用户如何使用助手

    一些新用户对助手本身不能教会他们充分利用其功能和特性感到恼火。他们还抱怨说,它没有提供任何错误恢复功能——例如,当任务由于设置或权限而失败时。

    “它不擅长指导我如何将它与我的日程表联系起来,以及如何改善我与它的关系和联系。”

  • 不够个性化

    “我希望它能更多地了解我,也希望它能帮助我更好地理解它。这是我为这项研究所做的很多工作中缺失的东西。”

  • 无法保留上下文,无法进行对话(例如,通过推断代词的指称物)。一个用户说:

    “我已经了解到,她不善于跟上我现在所说的。例如,我问她当地电影院的放映时间;她列出了正在上映的电影,所以我问“《超人特工队》是什么时候上映的?”“她告诉我时间,然后我说‘侏罗纪公园怎么样?’然后,她拉出了一些与电影时间完全无关的东西。她在其他作品中也这么做过,但这是最好的例子。”

经常使用助手的用户对这些问题并没有抱怨太多(尽管有少数人提到助手对模糊的问题缺乏容忍能力)——大概是因为他们在一段时间前发现了这些困难,并学会了避免或绕开它们。

我们为什么关心心理模型

在本文前面,我们介绍了智能助手的用户心理模型的主要类别。我们发现了两种主要的信息监督概念:(1)信息监督是网络、电话或智能家庭的接口,(2)信息监督是“方便的助手”。第三种观点有时会与另外两种观点相结合,即IA是一个“大脑”或所有知识的仓库。

在您的设计项目中,您如何从这些信息中获益?

首先,要认识到,如果您为一个IA或一个IA设计一项技能,您的用户很可能会按照这些心理模型来考虑您的系统。订阅每一类心理模型的用户的确切百分比将取决于您的设计的具体情况,但您可能会在用户中遇到所有或大部分这些模型。如果你在设计一个人工智能系统,因为用户带来过去的知识从他们的现有的经验对他们对新系统的解释产生影响。

其次,考虑每个心理模型如何帮助或阻碍用户理解您的设计和采用您的功能。这样做可以作为一个解释框架,使可用性研究中的个别发现有意义,将它们从零散的观察到整体的见解。在进行任何用户界面设计之前,通过考虑常见的心理模型可能会将用户引入歧途,您还可以避免所有类型的可用性问题。

第三,如果您能够基于这些常见的心理模型提供任何用户帮助,那么解释您的系统及其特性通常会更容易。

第四,考虑您是否希望用户对您的系统有一个不同的心智模型。如果是这样,那么摆在您面前的任务就很困难了,但是有可能更好地交流您的系统的特征并影响用户对它的看法。特别是,您可以采取步骤来解释您的系统与常见的心智模型有何不同。

心理模型是如何形成的

在我们的研究中,我们研究了经常使用助手的用户和新的助手用户。我们的大多数频繁用户都面临着这样的挑战:必须报告他们的助手执行的18项独特活动。他们很快意识到(与我们之前的发现一致),他们正在使用他们的IAs完成有限的任务(通常包括提醒、计时器、警报、琐事问题和控制智能家居),并试图扩展它,有时通过积极参考外部资源。一些人提到,他们查看了亚马逊和谷歌分别发送的关于Alexa和谷歌Assistant的时事通讯,一想到可以从助手那里找到生活的新方面,他们就感到兴奋。

现有的IA用户有可靠的、格式良好的助手可以轻松完成的模型。他们很清楚他们的助手面临的一些挑战,但他们的意识通常局限于在他们受限制的日常活动中可能发生的问题。误解,不能给出一个合适的问题的答案,缺乏免提支持是最突出的问题对于这组日记参与者来说,因为他们几乎可以出现在任何类型的互动中。

当这些用户试图扩大他们的活动范围时,他们通常会发现新的东西特性但他们并没有试图发现与这个设备互动的新方法。例如,他们发现了新的Alexa技能,建立了语音档案,叫了优步,尝试了Venmo付款,或者问了一个新的事实调查问题。这些新活动有些是成功的,有些则不然,结果令人失望。当用户事先研究了某个功能,或者在某个地方看到了它的广告,却发现他们无法让助手使用该功能时,这种挫折感就更深了。

相比之下,新用户试图扩展他们助手的能力极限,而不是简单地发现新功能。新用户更有可能报告与真正的“人工智能”相关的问题-例如,他们抱怨助手无法为潜在的模棱两可的句子找到正确的解释,或者助手自己做研究的能力,并提供一个没有一致答案的问题的答案。他们也更有可能抱怨缺乏个性化(以及基于上下文和先前使用的学习),或者无法建立上下文,无法含蓄地引用之前提到的事实。这组用户提到的另一个问题是,助手没有教用户如何最好地使用IA。

这些行为模式并不令人惊讶,但它们应该成为设计师的一个警告。一旦用户决定助手不能做某件事,他们不太可能很快再次尝试它。他们倾向于快速了解系统的局限性,然后围绕这些局限性使用系统(或者有时完全停止使用系统)。现在的挑战是教会用户这些系统是如何随着时间的推移而改变和改进的。

考虑人工智能技术或其他辅助功能的公司应该遵循以下两个步骤:

  1. 测试你的AI功能有代表性的客户和现实的任务。(我们推荐用于任何可用性测试.)
  2. 如果测试显示普通任务的成功率很低,那么不要发布该功能.(将你的客户群暴露于一个低性能的AI解决方案将阻止他们尝试任何你可能在未来发布的改进解决方案。)

新用户是最脆弱的。他们的思维模式决定了未来的用法,所以我们必须帮助他们取得成功,扩大他们的视野。一旦人们发现某个系统无法执行某项任务,他们就会停止尝试。他们不会在以后再回来,希望它已经更新了。因此,IA的工作是积极主动,提供详细的说明和错误恢复,并宣传自己的能力。