菜单 关闭

聪明的助手:令人毛骨悚然,幼稚的,还是工具?用户对Alexa的态度,谷歌助理,西丽

通过 页劳布海默拉鲁卡布迪乌8月5日,二千零一十八

总结:用户认为助理对复杂任务的处理能力很低,并且发现他们在社交上很难进行互动。


介绍

虽然现在还没有一个像星际迷航一样的未来与普及的计算机进行口头交流,近些年来,这方面已经取得了许多进展。智能助理,比如Alexa,苹果智能语音助手,还有谷歌助理,越来越普遍。

很多使用智能的隐含价值主张,会话助手是自然语言的使用。但语言本质上是一种社会化的界面,它的发展帮助我们与他人交流。语言的社会方面如何影响我们与基于语言的用户界面的交互?这是我们对会话助手研究中出现的问题之一。

为了更好地了解这些助手目前所面临的挑战以及他们在哪里帮助用户,我们进行了两个可用性研究(一个在纽约,一个在旧金山湾地区)。共有17名参与者-5名来自纽约,加利福尼亚州有12人——他们经常使用至少一种主要智能代理(Alexa,谷歌助理,和Siri)被邀请进入实验室进行单独的会议。每节课都包含可用性测试的组合(参与者使用Alexa完成了引导者分配的任务,谷歌助理,或者Siri)和面试。

本文总结了我们关于用户感知的主要发现,心智模型以及使用这些代理的社会层面,另一篇文章讨论了与可用性和交互.

我们看到,用户高度认识到,他们所谓的智能助手并非完全智能化。虽然人们不一定完全正确地理解助理的局限性,他们的观点从认为助理有点毛骨悚然或幼稚,或者简单地把它看作一个替代的计算机工具。当用户信任一个计算机化的智能助理,就像信任一个优秀的人力行政助理一样,我们离未来的潜在状态还很远。

拟人特质

语言的社会性使人们把拟人化的特性投射到计算机上。我们的大多数参与者提到助手时都使用了性别代词(“她”或“他”,当他们选择了一个男性声音时)。一些人还插入了礼貌标记,如“请”或“谢谢”,或者以“你认为……”开始提问,“你能……”

他们在谈论助手时经常用人的比喻。例如,一位用户说:“她的大脑一片空白。她说“这位女士想从我这里得到什么?别管我!“当亚历克萨发出哔哔声时,大概是为了表示缺乏理解。

另一位参与者说,“当她不明白的时候,我对她发誓,然后她说了一些有趣的话-我们很开心。”另一个合理化的不恰当的回答是,“这是我通常不会问的[复杂]问题,所以我想需要更多的思考。所以它不能[马上]就回答这样的问题。我问的问题通常不那么深刻;他们不怎么想。”

我们的研究参与者知道这种拟人化,许多人嘲笑或评论它。一位谷歌助手用户故意将助手称为“IT”,说“我只想得到答案。我不想像对一个人那样跟它说话[所以我不想说‘好谷歌’]。人工智能已经足够让我毛骨悚然了。“

人们认为助理不善于察觉情绪,从语调或语言选择上无法理解他们的沮丧。当使用俚语或习惯用语时,他们有着不同的态度:一些人认为助理可能无法理解俚语,并有意避免使用;另一个说他们试过了,那个助手工作得很好。

用户不希望代理选择好的含义区别。例如,一个用户问“山景一居室公寓多少钱?”评论说她的问题对Alexa来说太模糊了,因为,对她来说,“公寓”一词意味着“租金”—如果她对一个销售价格感兴趣,她本来会用“公寓”这个词的。她没想到亚历克萨会接受这种区别。

当人们使用助手时

在公共场合与真人交谈,我们通常不会感到内疚。然而,这种行为并不适用于智能助理。我们研究中的用户报告说,只有在家里或自己使用语音助手时,他们才有强烈的偏好。大多数人说他们现在不会在公共场合与siri或google这样的基于手机的代理进行互动。一些,然而,行走时愿意问路的地方。

一位参与者很清楚地表达了这一点,注意到“当我在公共场合,我通常不使用(siri)——我只是觉得它看起来有点尴尬。它也感觉在公共场合使用她很尴尬。我也没有看到其他人在公共场合使用它。”

而人们通常报告说使用助手是为了简单,黑白查询,通常在他们手忙的时候,另一个常见的用法是娱乐:许多人告诉我们,至少偶尔他们或家人(通常是他们的孩子)喜欢听笑话或和助手玩游戏。一些家长报告称,使用Alexa作为一种娱乐孩子的方式,并使他们远离平板电脑或智能手机等基于屏幕的设备。

当要求乐趣时,愚蠢的问题(例如,关于经纪人的偏好,比如最喜欢的食物,我们研究中的用户知道他们没有得到真实的人工智能响应,但只有一系列由工程团队编写的预先编程的笑话。

与助手一起使用的语言

当谈到他们如何与助手交谈时,参与者可分为两类:

  1. 与人类使用相同语言结构的人.这些参与者在提问时通常很有礼貌;他们以“谢谢你”结束了互动。以及通常以“请…”开头的公式化问题,“你觉得……”,“你能告诉我吗……”。这些参与者通常对经纪人持积极态度。
  2. 那些试图提高语言效率以增加被理解的机会的人。在这个类别中,我们看到了一系列行为——从改变句子词序以确保查询以关键字开头的参与者那里,删除“a”或“the”等项目的实例,manbetx官网手机登陆而且,最后,例如,参与者只需将助手用作搜索引擎的语音接口,并将其查询压缩为几个没有语法结构的关键字(如“ok google”,7月最后一周在伦敦发生的事件)。

例如,一位参与者指出,像“暴风王附近的餐馆”这样的查询可能会检索到与“暴风王餐馆”不同的结果,但“一个人会明白我的意思。”

一些参与者保持简短的查询,并且由几个关键字组成。一个说,“除非我有5w1h(谁,什么,在哪里?什么时候?为什么?如何)问题。…]只有当他们是ESL(英语作为第二语言的说话人)并且我知道他们可能会被一个句子中的太多单词淹没时,我才会和这样的人说话。”

虽然有些用户提到助理时使用了性别代词,大多数用户在实际查询中不使用“it”或“this”等代词-他们更喜欢显式引用查询对象,即使名字又长又复杂。人们不希望助理能够理解像“this”或“it”这样的代词可能指的是什么,尤其是当代词的先行词是前一个查询的一部分时。(这是真正自然语言识别的主要优势之一)尽管助理在后续查询方面做得越来越好(谷歌最近宣布了其谷歌助理的“对话”功能)。大多数参与者已经学会了不要期望他们保留从一个查询到另一个查询的上下文。一位参与者说,“[siri]通常不会保存这样的东西[例如短信草稿]。当她完成了某件事,她已经完成了。”

希望哪些查询有效

即使人们与助手一起使用语言,并将人性化的特质投射到他们身上,他们对代理可以完成哪些任务有明确的期望。有人说这个助手像个小孩子,不懂复杂的事情;其他人把它与一个听不太清楚的老人作了比较。有人指出,你不能“说得太久,因为[助理]会分心,”而另一位参与者说,查询应该少于10个字。但许多人说,助手甚至比人更好,因为它“无所不知”,客观——没有情感或感觉。

(绕道前往科幻小说中未来的用户界面,我们应该注意到,缺乏情感常常被认为是一种不利因素,与LT.《星际迷航》作为主要展览的数据。然而,客观和无需担心电脑的感受当然是有利的。)

复杂和多部分问题被认为是困难或不可能的

复杂的问题不太可能取得好的结果,复杂性往往与问题或任务是否需要首先分解为多个部分密切相关。一位用户指出,她过去运气不佳,曾要求Siri和Alexa查明Adele在纽约的下一场演唱会是什么时候。另一位用户指出,“你可以像个孩子一样跟它说话。没有复杂的问题;天气,数学,体育运动,日历,互联网[将起作用];它不会帮你缴税,甚至可能无法给你点比萨饼。(注意,“儿童”这个比喻是另一个将助理拟人化的例子。)还有一个参与者说,人们可以问助理的最复杂的事情是基于地点的提醒。

然而,有一种感觉,即使是复杂的问题也可以由助手回答,如果一个人“学会了如何提问”。一个参与者将助手与一个文件系统进行了比较,该系统有许多文件:诀窍是找到正确的问题来访问此数据库中的信息。

另一位则抱怨说她不想考虑如何提出正确的问题。许多参与者提到效率是一个重要的考虑因素,他们是否会费心问一个问题——如果“自己做”更快,然后他们觉得与助手的互动不值得花这么多钱。这句话是我们参与者心理模式的一个关键指标,反映了使用助手的信念。应该容易,而不是需要广泛的互动。

例如,一些参与者描述了使用助手设置计时器比使用其他设备更快,而使用Waze或在电脑上使用谷歌地图等应用程序,计算周末到蒙塔克的流量会更快。这个决定是基于一个隐含的成本效益分析平衡预期的 交互成本完成任务的方式期望助理是否能够完成任务。

解释,判断,意见不可信

研究中的所有用户都表示,他们对使用基于意见的信息的代理不感兴趣,比如建议。我们的参与者对任何涉及判断或意见的任务都持怀疑态度。“我绝不会问她这一点”是对涉及个人或高度主观信息的任务的一种常见的反应,比如计算一个人应该在布拉格度假多长时间。一位用户说:“我会为当地人找一个关于布拉格的论坛;我不想做每个人都做的旅游事情。”

然而,参与者们嘲笑的不仅仅是主观信息:一位用户认为亚历克萨不太可能告诉他明星球员是谁,因为这涉及到解释;这个参与者最初向亚历克萨提出的问题是“谁在上一场凯尔特人比赛中得分最多”,而且,当亚历克萨没有回答他的问题时,他把它改为“为我提供最新凯尔特人比赛的球员统计数据”。(这两个问题都有客观真实的答案,而不是判断问题。)

一位参与者注意到了智能代理和人类之间的另一个关键区别:如果你给他们一个模棱两可的要求,语音助理不会问你澄清问题。人类通常会对一个模棱两可的陈述提出后续问题,但是智能助理试图在不获取额外信息的情况下执行请求。

认为可能成功的基于事实的任务

我们研究的参与者经常注意到,某些简单的任务非常适合做语音助理。被认为工作良好的问题通常是基于事实的,比如检查天气,了解名人的年龄,获取到一个已知名称的目的地的方向,复习运动成绩。

心智模型

我们问参与者的一个问题是他们的助手了解了他们的情况。回答总是“不多”,他们觉得助理可以跟踪他们的一些搜索并使用它们,但他们认为助理并没有为了更好地为他们服务而显著地调整自己的行为。

一些人形容这些助手“只是”在互联网上搜索,充当谷歌的语音接口。另一些人提到了一个预先编程的东西清单,这些东西是代理商可以响应的,除了预先编程的选择菜单之外的任何东西都不会工作,默认为搜索。一些人描述了这样一种信念,即这些对话助手不是真正的“聪明”,甚至不是真正意义上理解查询或创造性地解决新问题的人工智能。

一位参与者甚至说“停止称之为人工智能,直到它成为现实。”它能做的事情并不复杂。这不是学习。人们形成期望是基于“人工智能”这个词,但这是一种误导。无人驾驶汽车-那是人工智能。那就更近了。”

另一个人在谈到亚历克萨时描述了一个类似的想法:“在知道你说的和理解力你在说什么。你可能会说,“西红柿是一种水果”,它不知道不把它放在水果沙拉里。我认为她不一定理解;也许有一天计算机会到达那里,在那里他们可以教书或学习。现在,我觉得这更像是一个触发词:单词具有单词结合世界给出了这个答案。如果你采取把它和 其他单词它会给这另一个回答。”

与信任和隐私有关的态度

我们研究中的用户在信任智能代理方面存在问题,考虑到一系列问题:

  • 隐私和社交尴尬
  • 始终将音频录制和传输到云端
  • 误解用户所说内容的后果
  • 未经授权与他人联系
  • 会导致智能家居功能工作不正常的错误
  • 使用过多的移动数据

在我们的研究中,最令人担忧的问题之一是会话助手总是在听(并将音频传输到云端)。一些用户对代理只在由关键字触发时才在听的说法表示强烈怀疑(或完全不信任)。在研究的采访部分,一些参与者在他们的助手旁边的一次谈话中提到了他们,之后他们报告说看到了一些他们通常从未购买过的东西的广告。一些人说,他们甚至参与了对这一假设的非正式测试:他们在自己的智能扬声器或手机附近提到了一种发明的新爱好,随后很快就看到了相关产品的广告。

一些用户还认为,这些代理正在记录和传输完整的音频文件(而不是他们所说的某种抽象数据版本)到云端进行解释。一位用户非常惊讶,因为谷歌助手能够在手机未连接到互联网的情况下进行听写(并且做得非常出色)。

当一个错误或误解可能产生后果时,参与者报告说使用代理有一些不适;最常见的例子是不正确的购买或使用助手工作。

一位用户讲述了他在从地铁回家时如何使用语音助手口述工作电子邮件,当他后来注意到在校对他的电子邮件时,代理用一个不恰当的词替换了他说的话。“就好像我的手机在我手里变成了一个活手榴弹——我现在必须非常小心地把它拆下来。”

另一位用户提到他拥有一台智能空调,但不会和亚历克萨一起使用它,因为他不相信它是没有病毒的,并且在家里保持适当的温度。他说他有宠物,担心的是,如果它不能正常工作,在高温下会使他们窒息,“我关心我的动物——我不相信亚历克萨会这么做。”

智能助理的未来潜力

而科幻电影和电视来自二千零一为我们提供大量的例子,让我们能够轻松地使用语音与计算机进行各种复杂的交互(尤其是涉及口译的任务)。判断,或意见)我们研究中的参与者甚至不愿尝试更复杂的任务,也不相信助手能很好地处理这些问题。

即使这些系统变得更好,新功能的可发现性较低:在我们的上一篇文章关于这个话题,我们注意到用户如何只访问智能助理中可用功能的一小部分,他们甚至经常不得不记住那些有效的查询公式。介绍以前没有的新选项是很棘手的,作为教程,发行说明而提示往往被大多数用户忽略。

随着这些系统能力的提高,一个巨大的挑战将是修改用户的现有思想模型所以他们可以包括其中一些能力。用户的心理模型通常比不断更新的产品的功能集要稳定得多,因此出现了一个catch-22:用户不知道系统可以处理比以前更复杂的查询,所以他们不把它们用于这些任务,这样可以减少培训数据的数量,从而改进助理。

换言之,早期发布的低可用性智能助手很有可能妨碍将来对改进很多的助手的使用。

总结

即使智能会话助手快速提高了正确理解用户语音的能力,仍然存在一些主要的社会和心理模型挑战,阻止用户自然地与这些系统交互。信任问题和用户期望对于这些系统,除了简单的口述和事实查找请求之外,还可以驱动代理对任务的采用。