菜单 关闭

智能助理的心理模型

通过 拉鲁卡布迪乌2月3日,二千零一十九

总结:Siri用户,Alexa谷歌助手将它们概念化为三种方式之一:界面,私人助理,或者大脑。与新用户相比,频繁用户不太可能推动这些人工智能系统的交互限制。


在以前的研究中,我们发现即使是像siri这样的智能助理(ias)的频繁用户,Alexa或者谷歌助手只将它们用于少量的简单任务。:获取天气或新闻信息,演奏音乐,设置警报,定时器,或提醒,回答琐事问题。这种有限的使用反映了这些助手的可用性很差,离这里还很远满足实际用户需求.

我们警告的一个危险是人们会习惯这些表现不佳的助手,即使助理们变得更好,用户可能无法发现他们改进的功能。

在本文中,我们报告调查用户的思想模型以及对智能助理的期望。特别地,我们研究了频繁使用IAS和新用户之间的心理模型差异,旨在了解对IAS的优势和局限性的看法在多大程度上影响了这些系统的使用。

研究性学习

我们对两组智能助理用户进行了为期两周的日记研究:

  1. 频繁的IA用户是使用智能扬声器(Alexa或Google Home)的人,或者是基于电话的虚拟助手,比如谷歌助手或者Siri。这一组有23人:13人使用智能扬声器(7名Alexa,6谷歌家居)4个人在电话上使用谷歌助手,Siri的6个用户。
  2. 新IA用户有8位iPhone用户不经常使用虚拟助理(无论是智能扬声器还是手机)。我们要求他们在手机上安装谷歌助手应用程序,并在日记研究期间使用它。

两个用户组必须在日记的两周内与助手记录16次独特的互动,每周至少8次互动。参与者不能两次记录同一类型的活动-例如,他们不能使用助手两次导航到目的地(即使两个实例的目的地不同)。

对于每个日记条目,用户必须回答一些关于他们目标的问题,包括助理是否帮助他们完成目标,以及他们对助理的帮助是否满意。研究期间,参与者还进行了三次心理模型诱导任务:在开始写日记之前,第一周之后,最后。心理模型引出包括一系列的问题,参与者必须回答关于他们助手的问题。

我们的目标是了解当人们扩大与他们一起进行的活动范围时,他们是如何发展他们的心理模型和对助手的期望的。

随着时间的推移帮助他人

要求只记录新类型的活动对我们的参与者来说是一个挑战。虽然第一周总体上是成功的,在第二周,人们开始评论说很难找到新的事情来处理助理。这一发现证实了我们以前的研究,这表明用户与其助手进行相当有限的一组简单活动(尽管这些助手理论上拥有大量的和广为人知的技能,不在实际使用中)。

我们的许多参与者开始积极探索他们的助理可以完成的任务——有时通过检查外部资源,如网页或新闻稿,了解他们的助理的能力。

对于参与者记录的每个活动,他们必须说明IA是否成功完成了活动,以及他们是否对助理在该任务中的表现满意。2周内平均IA完成率(用户认为)为58%。第一周平均完成率为60%,第二周平均完成率为58%。

对各种国际会计准则的分析发现,第1周的完成与第2周的完成没有统计差异,有一个例外:谷歌家庭设备。谷歌助手在谷歌家用设备上的表现明显下降,从第一周的64%下降到第二周的44%。(< 0.005)。

谷歌首页为64%(第一周)和44%(第二周)。对于所有其他人,差异小于10%。第2周电话助理略大,发言人助理略低。
上面的图表报告了不同助手的用户认为成功的任务的平均百分比。除了谷歌主页,研究第1周和第2周的成功率没有统计学上的显著差异。

满意度数据反映了完成数据。我们报告的满意度指标是人们对IA绩效表示满意的活动百分比。第一周的满意度平均为76%;第二周是72%。这两周的满意度在统计学上唯一显著的差异是谷歌家庭设备——第一周,满意互动的平均百分比为86;第2周,数字降至63%(P<0.05)。

谷歌首页为86%(第一周)和63%(第二周)。对于所有其他的国际会计准则,这两周的差异不到7%。
上面的图表报告了用户对其IA满意的活动的平均百分比。第一周和第二周的唯一统计显著差异是谷歌家庭用户。

我们试图理解为什么谷歌的房主在第二周的完成率和满意度较低。(随着用户获得更多经验,可用性研究几乎总是记录更高的成功率和满意度,所以这个结果令人惊讶。)在他们对系统理解的一般性评论中,在6个谷歌主页参与者中,4表示失望,并说他们发现了助理的一些局限性。以下是他们的一些评论:

  • “这并不是给我最好的答案;它给出了一个答案,但不是最好的。我失去了一点信心。”
  • “所以,我本周了解到的是,当你问一些具体的问题时,你会觉得有点难以理解,你必须正确地表达出来。”
  • “我不喜欢这样一个事实:有时候答案很短,而且与我实际要求的不相关。”
  • “有时候它不明白你问的是什么,如果你用不同的方式问它,就像如果你用不同的方式表达,那么它会有不同的反应。”

其他两个参与者中,一个是总体积极的,另一个对这个系统很满意,只提到了一个消极的事实(“谷歌仍然不完全理解孩子们。正确的。有时候妈妈比你更容易和谷歌交谈。”)

基于这些评论(以及我们在本文以下部分中报告的数据),我们将我们推测,成功率和满意度下降可能是由于人们在第二周必须尝试的新任务造成的,这不符合他们的预期。然而,令人惊讶的是,第二周并没有影响其他IAS的频繁用户,也。为了更好地理解为什么会这样,我们研究了用户所做的活动类型。为了增加新活动的数量,大多数信息保障用户求助于事实调查任务,这是扩大助手使用范围的最简单方法。不是谷歌家庭用户-与其他IA用户相比,这些参与者的实况调查活动略有增加。(第2周,与siri用户相比,google home用户的事实调查活动要少得多,P<0.005,iPhone上的谷歌助理用户,P<0.0001,比Alexa用户少一点,p=0.07)。

在第一周到第二周之间,谷歌首页的实况调查活动仅增加了7%。谷歌助理的电话费增长了12%。其他所有的增长都超过了25%,
这张图表显示了我们日记中不同时期的事实调查活动所占的百分比。总体而言,与其他助理用户相比,谷歌家庭用户开展此类活动的次数更少。

因为事实调查活动相对成功(前提是用户能够充分阐述自己的问题)。他们并没有给那些为了完成日记而参与他们的用户带来太多的失望。相反,那些试图以不同方式扩展任务集的参与者遇到了更多的困难,这些困难可能会导致不满。

IAS的心理模型:经常使用的用户

助理们出现了一些不同的看法:

  1. IA作为接口

    许多人认为他们的IA是一个(免提)与其他事物的接口-网络,电话,智能家居,或者这些的组合。以下是一些引用:

    “[亚历克萨]接触到互联网的神奇世界”。

    “我的谷歌助手几乎可以做到手机所能做到的。”

    “我的回声正在从互联网上消失,云,无论我在哪里询问信息,上面有所有的信息,它可以提取需要的信息,把它拿下来,然后告诉我它在做什么。”

    “Siri在我手机的操作系统中做任何事情,就像设置日历一样,记笔记,或者警报-或者它[…]熄灭,比喻地说,从服务器获取信息并将其返回。如果我问诸如“给我找一家本地餐馆”之类的问题,或者诸如单词定义之类的信息,然后就要出去了,真的在和一些服务器说话,谷歌搜索,那种类型的东西,把信息带回我的手机,要么口头地转达给我,要么就在屏幕上——比如“这是我在网上找到的”。然后我必须读它。”

    顶部:连接到互联网云箭头的扬声器,其中列出了几个网站/服务(维基百科,WebMD,潘多拉亚马逊(Amazon)等)底部:显示一个人工智能设备与互联网和其他设备之间的虚线的图形,箭头指向棍子人
    一些参与者把他们的IA想象成云(顶部)或互联网和其他设备(底部)的接口。
  2. 作为一个“方便的助手”

    有些人认为IA是一个能做事情的助手。迅速地为他们节省工作。他们把经纪人比作一个没有报酬的私人助理,他会提醒你需要完成的任务,或者提供明确的信息,让你的生活更轻松。

    “先生,你回来了。”

    “谷歌助手就像一个[米老鼠俱乐部]便利助手。”

    “[谷歌助手]简化了你的生活,因为它就像有一个助手一样……智能家居设备使你的生活更简单,更容易生活,因为你想从沙发上起来关掉灯或从床上起来关掉灯打开电视。就像魔术一样。”

    一幅图片显示了一部手机,上面写着“我能为你做什么?”,还有两只手放在弹簧上,从侧面出现。上面写着:我可以做一个小孩能做的任何事。你的IA。方便助手。
    一位参加者画了一张她的助手的照片,她是一个米老鼠俱乐部的帮手。
    坐在办公桌旁的一个人在电脑上工作时,头上贴着“siri”的小棒图。标题说:我的个人行政助理
    另一位参与者设想Siri是一名无偿的私人助理。
  3. IA作为知识库

    最后,一些用户只是简单地认为他们的助手是巨大的知识的收集.他们通常说他们的助手“比一个人聪明”,因为它“无所不知”,将情报等同于获取事实。一个参与者把他的助手比作大脑。

    一个类似大脑的斑点(带有大脑标签),分为几个标记为一般信息的区域,音乐/播客,我的日子,探索,计划你的一天,智能家居自动化,天气/计时器、交通/警报、购物清单/日历/食谱,商店,玩游戏/笑话/故事
    一个谷歌家庭用户把它描述为一个大脑。

接口模型是最常见的。Alexa的用户一般都在界面阵营,而其他的用户在不同类型的心理模型中被更平均地划分开来。与智能演讲者用户相比,基于电话的IAS用户更倾向于采用方便的助手心理模型(可能是因为电话,日历,提醒功能通常用于手机)。

尽管大多数参与者都坚持使用其中一种模式,一些混合了其中的两个(例如,助手和大脑)。

认识到国际会计准则的局限性

即使在研究开始时,经常使用助理的用户知道助理的局限性。当我们问参与者他们的助手擅长什么时,一些常见的问题是:

  • 无法理解所有输入查询

    尽管这种抱怨在所有不同的助理中都很常见,几乎所有的Alexa用户都提到过。人们注意到的问题从名字难到,不理解不同的发音,口音,或说话方式(例如,孩子们的演讲)不理解问题的含义。例如,一些用户抱怨说,他们可能需要重新表述同一个问题,以便助理能够理解:“其他时候,如果我不以正确的方式表达问题,它会告诉我它不知道答案。”

    一位用户谈到Siri时说:“有时候,他不擅长听我说的所有话。另一位用户评论道:“有时候[谷歌主页]很难理解我所说的话,如果我使用一个听起来与另一个词非常相似的词的话。”也,有时在解释我的请求时会遇到问题。”

  • 无法回答问题

    当助理无法提供帮助时,人们不喜欢这样做,当被问及IA的局限性时,人们回忆起这样的例子:

    “很多时候我问Siri一些事情,然后我就直接得到一个‘我不知道’或者‘我做不到’这真的很让人沮丧。”

    “亚历克萨回答不了我问的许多问题。她只是说“我不知道”,或者“你必须找到另一个来源。”

  • 错误答案

    一些参与者还抱怨,助理不总是为他们的问题找到正确的答案,或者对同一个问题给出了不同的答案。

    “有时候,当我变得过于具体的时候,它就不起作用了,这很令人沮丧。所以如果我问“明天会下雨吗?”他说不行。事实上,可能会下三个小时的雨。”

  • 不处理多步骤命令

    一些用户注意到他们的助手不善于跟踪情结,多步命令(这是我们先前研究的结果之一)。例如,一位谷歌助理用户说:“我不能让它打开谷歌硬盘,在谷歌硬盘上打开一个特定的文档;这不明白。所以,基本上,它不擅长在应用程序内部或一旦应用程序打开。”

  • 视觉而非口头回答;显示可能相关或不相关的网站

    电话助理用户抱怨他们的助理不总是口头回答他们的问题;相反,他们引导他们访问一个(或多个)网站:

    “有时候你只会看到一些网站出现,但这并不是很有帮助,而且有一半的时间,这些网站与你实际询问的内容没有任何关系。”

    “当我问Siri一些事情的时候,它真的让我发疯了,我的回答是‘这是我在网上找到的东西’,然后它只是一个维基百科页面的条目,我希望自己能读到。也……就像我之前提到的,有时我在寻找信息,但对我得到的结果感到失望,或者当它只是检索到一个随机的网站时,很多时候,我想让Siri大声说出我正在寻找的信息。”

  • 不接受暗示或上下文提示

    有几个人提到他们的情报机构需要很好的组织,明确的问题,以便提供答案。

    “谷歌助手对从细微的暗示或不清晰和未成形的想法中获取未知和填充意义非常不在行。”

参加者对助手的了解

第一周结束时,许多用户意识到他们通常只将助手用于有限的一组任务;一些人对他们的情报机构的能力抱有希望,并有兴趣发现更多的情报机构的能力:

“所以,本周,我意识到,我并没有像我想象的那样使用我的IA。我经常用它。不过,通常情况下,这就像五件事一样,一遍又一遍。所以这有点有趣。在认识到这一点的过程中,我相信Siri能做的比我想象的要多。”

“所以在上周,我意识到我可能不会完全使用Siri[…]它可能具有我不知道的功能;也就是说,我不知道我真的发现了它能做的任何新的事情或者它的新用途。[…]我几乎每天都会用到一些东西。”

大多数人最终都会扩大助理的范围,尝试新的活动。在这个过程中,有些人发现了新的技能或特点。例如:能够拼出困难的单词而不是发音,设置不同的配置文件,呼叫尤伯或者检查飞行状态。但许多成为更清楚他们的助手的局限性-尤其是在尝试新功能并发现它对他们不起作用时。.正如一位用户雄辩地说的:

“当我意识到我只用她做五件事时,我就想‘哦,太棒了!我能看到她做的其他事情,让我们看看这是否能在生活中以其他方式帮助我。所以我开始同时使用Siri和Internet来尝试发现使用智能助手的其他方法。我一次又一次地撞上路障。就连Siri自己都说她可以做的事情——比如“我可以通过Venmo汇款,试着说,“我试过了,但没用,也许还有一些设置需要修复。但当这些事情发生时,没有按钮说“嘿,为了将来能成功,单击此按钮,我们将带您访问权限或其他。所以我最终感到非常沮丧,我真的没有找到其他的方法来利用她,哪种糟糕,因为我希望以后能对她更兴奋。”

另一位参与者提到了Alexa:“但是有一些局限性,当然,它有时会说它确实-像提醒和发送信息。它说它会做到的。但最后我们发现它并没有真正发送消息。”

我们还要求参与者告诉我们,他们是否认为助理在这两周内学到了一些关于他们的知识。我们收到了一些积极的回复(这些回复都来自谷歌助理用户,无论是电话还是智能扬声器):

  • “在过去的几周里,我注意到,当我做诸如下订单之类的事情时,它有点个性化,理解你,并做后续工作[…]它有点像你要求的那样,你对什么感兴趣。像这样的事情。所以它提出建议和个性化,不仅仅是和你一起工作,就像你和它说话一样。看起来也有点主动。”
  • “谷歌一直在了解我们。”
  • “助理(Google Home)了解我并对我进行个性化设置,但它还需要做更多的工作。”

大多数,然而,认为助理并不比研究开始时更了解他们:

  • “[我希望]培养理解我喜欢什么的倾向,并且有点喜欢根据我喜欢的东西来给我买东西-优惠券,交易,音乐,无论什么。我希望它更像一个私人助理,而不是像一个问型的情况。我希望它比我更适合我。”
  • “我认为我的助手在过去的两周里没有学到任何关于我的信息。我其实有点失望。我认为我对她抱有更高的期望。”

新IA用户的心理模型

新用户倾向于描述作为Internet接口的助手,他们的电话,还有他们的智慧家园.一位用户称之为“智能设备的中心”,一些人将谷歌引入了这个等式(大概是因为谷歌助手显然,他们说,助理使用手机或谷歌帐户上的信息来完成任务:“[谷歌助理使用它所拥有的信息]已经有了关于你的信息,要么是因为你手动输入了信息,要么是你允许它访问其他应用程序,要么是谷歌获取了这些信息。”“

一些参与者在描述谷歌助手时也提到了快捷工作的速度和能力。

两个并排的图形:左边标有“我在谷歌中键入问题”
一位新的IA用户认为助手提供了一种快速完成任务的方法。

新用户发现的限制

新用户很快就意识到助手的局限性。关于在iPhone上使用谷歌助手的一些最初的抱怨与它与iPhone本地应用程序(如设置闹钟的时钟应用程序)的集成不佳有关。但是,我们的调查对象发现的问题很快就与那些经常用户报告的问题融合在一起。其中包括缺乏口头回应和误解。

然而,这一组中出现了一些投诉,但大多数经常使用的用户并未提及:

  • 缺乏对歧义的容忍,需要非常具体

    一位用户解释说:“我在问我的IA”到机场的最佳路线是什么?而且,IA因为它不知道“最好”是什么意思,要求我澄清。“最美还是最快?”然后我澄清说我想知道到机场最快的路。IA恰当地回答说:“拿29号公路——那是州际公路——因为第四十二条街道正在建设中。”这就是我对这些互动的看法,因为“到机场的最佳路线”是主观的,这是人工智能无法提供最佳服务的领域之一。因为我们说话的方式——我们说的是“最佳路线”,一个人可能知道我的意思。但是人工智能没有,因此,当我从人工智能设备发出请求时,我必须非常具体。”

  • 无法进行研究并根据判断给出答案.当人们提出建议或建议时,助理通常会给他们一份清单,用户必须通过过滤列表并选择一个:“这就是我认为使用人工智能的最大难题。我问一个问题:“哪家墨西哥餐馆最好”,它可能在某个特定的城镇、城市或附近。经纪人回答说:“这是该地区墨西哥餐馆的名单。”现在这是有用的信息,但并不能真正告诉我哪家餐馆最好。[…]最终,我需要回顾这些信息并做出决定。[…]否则,它只是提供信息。”
  • 不教用户如何使用助手

    一些新用户很恼火,因为助理本身无法教会他们充分利用其功能和特点。他们还抱怨它没有提供任何错误恢复——例如,在任务因设置或权限而失败的情况下。

    “在如何将它与我的日历联系起来,以及如何改善我的关系和与它的联系上,给我指路是很糟糕的。”

  • 不够个性化

    “我想让它了解我很多,我也希望它能帮助我更好地理解它。这正是我为这项研究所做的大量工作所缺少的。”

  • 无法保存上下文和进行对话(例如,通过推断代词的引用)。一位用户说:

    “我了解到她不擅长和我现在谈论的事情保持一致。例如,我问她当地电影院的电影时间;她列出了正在放映的电影,所以我说,‘难以置信’有什么时候?’她告诉我时代,然后我说,‘侏罗纪公园怎么样?’;然后她拿出了与电影时代完全无关的东西。她用其他东西做的,但这是最好的例子。”

经常使用助理的人并没有对这些问题抱怨太多(尽管有一些人提到助理对模糊问题缺乏容忍度),大概,因为他们早就发现了这些困难,学会了避免或规避它们。

为什么我们关心心理模型

在本文前面,我们介绍了用户拥有的智能助理的主要心理模型类别。我们发现了两个主要的关于IA的一般概念:(1)IA是一个与Web的接口,电话,或者智能家居,以及(2)IA作为“便利助手”。第三视图,有时和另外两个结合在一起,IA是一个“大脑”还是所有知识的储存库。

在设计项目中,如何从这些信息中获益?manbetx官方网站手机版

第一,认识到如果您为IA设计了IA或某项技能,manbetx官方网站手机版你的用户可能会根据这些心理模型来考虑你的系统。订阅每一类精神模型的用户的确切百分比将取决于您的设计细节,manbetx官方网站手机版但您很可能会在用户中遇到所有或大多数这些模型。如果你正在设计一个manbetx官方网站手机版新的人工智能系统因为用户从他们的现有的在解释新系统方面的经验。

第二,考虑每个心理模型如何帮助或阻碍用户理解您的设计和采用您的特性。manbetx官方网站手机版这样做可以作为理解可用性研究中单个发现的解释框架,从零碎的观察到整体的洞察。在进行任何用户界面设计之前,您还可以避免所有的可用性问题。manbetx官方网站手机版通过考虑常见的心理模型如何导致用户误入歧途。

第三,如果你能以建立在这些共同心理模型基础上的术语来引导任何用户帮助,那么解释你的系统及其特性通常会更容易。

第四,考虑一下,如果你希望用户对你的系统有一个不同的心理模型。如果是这样,你面临着一项艰巨的任务,但是,也许可以更好地交流系统的特性并影响用户对它的看法。特别地,你可以采取步骤来解释你的系统与普通的心理模型的不同之处。

心理模型是如何形成的

在我们的研究中,我们观察了频繁的助理用户和新的助理用户。我们的大多数经常使用的用户都面临这样的挑战:必须报告与他们的助手一起进行的18项独特的活动。他们很快意识到(与我们之前的发现一致),他们正在使用他们的IA来完成有限的任务(通常包括提醒,定时器,警报,琐事问题,控制智能家居)并试图扩大它,有时通过积极地提及外部资源。有人提到查看亚马逊或谷歌发送的有关Alexa和谷歌助手的新闻稿,分别一想到能从助手那里找到他们生活的新方面,他们就很兴奋。

现有的IA用户非常可靠,一个很好的助手可以做的模型。他们很清楚他们的助理所面临的一些挑战,但他们的意识一般只限于在他们有限的日常活动中可能发生的问题。误解,无法正确回答问题,最突出的问题是缺乏免提支持对于这组日记参与者,因为它们几乎可以发生在任何类型的交互中。

当这些用户试图扩大他们的活动范围时,他们通常发现新的特征助理的,但他们并没有试图发现与设备交互的新方法。例如,他们发现了新的亚历克萨技能,设置语音配置文件,叫做Uber,尝试了Venmo付款,或者问一个新的事实调查问题。其中一些新活动取得了成功,其他人没有,结果是失望。当用户提前研究某个特性或在某个地方看到它的广告时,他们的挫败感更大。结果发现他们不能和助手一起工作。

相反,新用户试图扩大助手的能力范围,而不是简单地发现新功能。新用户更可能报告与真正的“人工智能”有关的问题,例如,他们抱怨助理找不到对可能模棱两可的句子的正确解释,或者说,助理能够自己做研究,并为一个没有人同意答案的问题提供答案。他们也更容易抱怨缺乏个性化(以及基于上下文和以前使用的学习)。或者无法建立上下文,也无法隐式引用前面提到的事实。这组用户提到的另一个问题是,助理没有教用户如何最好地使用IA。

这些行为模式并不奇怪,但这对设计师来说应该是个警告。manbetx官方网站手机版一旦用户决定助理不能做什么,他们不太可能很快再试一次。他们倾向于快速了解系统的局限性,然后围绕这些局限性使用系统(或者有时完全停止使用它)。挑战在于教会用户这些系统是如何随时间变化和改进的。

考虑基于人工智能的技能或其他基于助手的功能的公司应遵循以下两个步骤:

  1. 测试你的人工智能功能有代表性的客户和现实的任务。(正如我们推荐任何可用性测试
  2. 如果测试显示常见任务的成功率较低,然后不要释放功能.(将客户群暴露于低性能的人工智能解决方案将阻止他们尝试将来可能发布的任何改进的解决方案。)

新用户是最脆弱的。他们的思维模式决定了进一步的使用,因此,我们必须帮助他们取得成功,扩大他们的视野。一旦人们发现系统不能执行某项任务,他们不再尝试了。他们以后不会回来的,希望它被更新。所以IA的工作就是积极主动,提供详细说明和错误恢复,宣传自己的能力。