介绍

虽然在这里尚未用普遍的计算机进行口头互动的明星徒步旅行的未来,但近年来许多走向这一点。智能助理,如alexa,siri和谷歌助理,变得越来越普遍。

使用智能的智能化性会话助手的大部分隐含主张是使用自然语言。但语言是一个基本的社交界面 - 它进化了帮助我们与其他人沟通。语言的社会方面是如何与基于语言的用户界面的交互?这是我们对对话助理研究中出现的问题之一。

为了更好地了解这些助理今天的挑战以及他们帮助用户的挑战,我们运行了两项可用性研究(纽约市中心,一个在旧金山湾区)。加利福尼亚州的12位参加者 - 在纽约参加了17名参加者 - 至少有一个主要智能代理人(Alexa,Google Assightant和Siri)的频繁用户被邀请进入个别课程的实验室。每个会议包括可用性测试的组合(参与者使用Alexa,Google Assistant或Siri完成了协调人分配的任务)和采访。

本文总结了我们关于用户认知,心理模型和使用这些代理商的社会维度的主要发现,而另一篇文章讨论了与之相关的结果可用性和交互.

我们看到用户对他们所谓的智能助理不是完全聪明的事实感到高度认识。虽然人们不一定能够完全正确地了解助手的局限性,但他们的观点范围从顾客的思想中思考有点令人毛骨悚然或幼稚,或者只是将其视为替代计算机工具。当用户相信计算机化的智能助理时,我们远非潜在的未来状态,因为他们相信良好的人类行政助理。

拟人的素质

语言的社会性质使人们将人工素质项目投入到计算机上。我们的大多数参与者都会使用成年代词(“她”或“他”选中男声)的助理。有些人也插入了礼貌标记,例如“请”或“谢谢”,或者从“你觉得......”的问题开始,“你能......”

在谈论助手时,他们经常申请人类的隐喻。例如,一个用户说“她的思想变得空白。她就像'这位女士想要我什么?留下我一个人!“当Alexa令人痛苦的时候,可能是为了信号缺乏理解。

另一个参与者讲述了,“当她不明白时,我发誓她在她的[SIRI],然后她说了一些有趣的东西 - 而且我们很开心。”另一种合理的不合适的答案通过说:“这些是[复杂]的问题,我通常不会问,所以我想这需要更多的思考。所以它不能只是回答这样的东西[马上]。我问的问题通常不是那么深;他们不采取这么多想到。“

我们的学习参与者了解这种人类术语,许多人都嘲笑或评论它。一个谷歌助理用户目的地试图将助手称为“它”,说“我只是想要答案。我不想和这个人谈谈[所以我不想说'OK Google']。AI的东西已经让我筋疲力尽了。“

人们认为助理在侦查情绪方面是不好的,并且不会从语音的语气或单词的选择中理解他们的挫折。当它来使用俚语或惯用语言时,它们的态度很大:有些人认为斯兰特可能无法理解,并且有目的地避免它;其他人说他们已经尝试过,助理工作得很好。

Users did not expect agents to pick fine meaning distinctions. For example, a user who asked “How much is a one-bedroom apartment in Mountain View?” commented that her question was really too vague for Alexa , because, to her, the word “apartment” implies “rent” — if she had been interested in a sale price, she would have used the word “condo.” However, she did not expect Alexa to pick on that difference.

人们使用助理

我们通常没有开展与公共空间中真人的对话的曲线。然而,这种行为不适用于智能助理。我们研究中的用户报告说,只有在家里或自身才能使用语音助手的强烈偏好。大多数人表示,他们不会与像Siri或Google这样的电话的代理商在公共场所中互动。然而,有些人在走路时愿意询问方向。

一位与会者直截了当地说:“当我在公共场合时,我通常不使用(Siri)——我只是觉得这看起来有点尴尬。它也feels尴尬地在公共场合使用她。我也没有看到其他人在公共场合使用它。“

而人们通常会报告使用助手的简单,黑白查询,经常在他们的手忙碌的情况下,另一个常见的用途是娱乐:许多人告诉我们,至少偶尔他们或家庭中的某个人(通常是他们的孩子)享受听听笑话或玩助手玩游戏。几个父母报告使用Alexa作为娱乐孩子的方式,并将它们远离屏幕的设备,例如平板电脑或智能手机。

When asking fun, silly questions (for example, about the agent’s preferences, such as a favorite food), users in our study understood that they weren’t getting authentic artificial-intelligence responses, but only a series of preprogrammed jokes written by the engineering team.

与助理一起使用的语言

当他们与助手的谈话方式时,参与者可以分为两类:

  1. 那些使用与人类相同的语言结构的人. These participants were often polite in their query phrasing; they ended their interactions with “Thank you!,” and often formulated questions that started with “Please…”, “Do you think…”, “Can you tell me…”. These participants usually had a positive attitude towards the agents.
  2. 那些试图使语言更有效的人,以增加被理解的机会。在这一类中,我们看到了一系列的行为——从参与者改变句子词序以确保查询以关键字开头,到他们删除诸如“a”或“the”之类的冠词,最后,例如,参与者只是将助手用作搜索引擎的语音接口,并将其查询压缩为一些没有语法结构的关键字(例如“好的,谷歌,7月上周伦敦的事件”)。manbetx官网手机登陆

例如,一位参与者指出,像“Storm King附近”的“餐馆”的查询可能检索不同的结果,而不是“风暴之王”餐馆“,但是”一个人会得到我的意思。“

一些参与者保持他们的查询简短,并且由几个关键字组成。其中一位说:“我不会把它当作一个真实的人来说话——除非我有一个5W1H(谁、什么、在哪里、什么时候、为什么、如何)的问题。[..]我只会和这样的人说话,如果他们是ESL(英语作为第二语言的人),我知道他们可能会被一句话中太多的单词压垮。”

虽然有些用户确实引用了具有成本代词的助手,但大多数用户都没有使用代词,例如“它”或“这个”在他们的实际查询中 - 它们更愿意明确地引用他们查询的对象,即使名称很长并复杂。人们没有指望助手能够理解像“这个”或“它”的代词可以参考,尤其是当代词的前驱是先前查询的一部分时。(这是真正自然语言识别的关键优势之一。它们将从一个查询中保留上下文到另一个查询。一位参与者说:“SIRI]通常不会像那样保存[例如文字留言草稿]。当她完成某事时,她已经完成了它。“

预期有哪些查询工作

尽管人们使用语言assistants and projected human-like qualities onto them, they had well-defined expectations about what tasks the agents could complete. Some said that the assistant was like a young child who could not understand complicated things; others compared it with an old person who did not hear very well. One noted that you cannot “speak for too long, because [the assistant] gets distracted,” while a different participant said that the queries should be shorter than 10 words. But many said that the assistant is even better than a human because it “knows everything” and is objective — has no emotions or feelings.

(在绕过覆盖范围future user interfaces in science fiction,我们应该注意到,缺乏情绪通常被描述为缺点,与星际跋涉的数据作为主要展览。但是,客观性和缺乏需要担心计算机的感受肯定是优势。)

复杂和多部分问题被认为是困难或不可能的

复杂的问题被认为不太可能得到好的结果,而复杂性往往与问题或任务是否需要首先分解成多个部分密切相关。一位用户指出,过去她是如何运气不佳,让Siri和Alexa知道阿黛尔在纽约的下一场演唱会何时举行。另一位用户指出,“你可以像跟孩子一样跟它说话。没有复杂的问题;天气、数学、体育、日历、互联网[将起作用];它不会帮你交税,甚至可能无法为你点比萨饼。”(注意,“孩子”的比喻是将助手拟人化的另一个例子。)还有一位参与者说,人们可以问助手的最复杂的事情是基于地点的提醒。

However, there was a sense that even complex questions could be answered by the assistants if one “learned how to ask the question.” One participant compared the assistant with a file system with many files: the trick is to find the right questions with which to access the information in this database.

另一个抱怨她不希望to have to think about how to ask the right question. Many participants mentioned efficiency as being an important consideration in whether they were likely to bother asking a question — if it was faster “to do it themselves”, then they felt the interaction with the assistant was not worth the cost. That phrasing is a key indicator of our participants’ mental models — and reflects the belief that using an assistant应该要容易,而不是需要广泛的互动。

例如,若干参与者描述了与助手设置定时器的速度更快,而不是使用另一个设备,而弄定周末流量到Montauk会更快地使用诸如Waze或计算机上使用Google地图的应用程序。该决定是基于隐含的成本效益分析,平衡预期互动成本of completing the task themselves versus their期待助理是否能够完成任务。

解释,判断和意见不受信任

研究中的所有用户都指出,他们对使用代理商进行了不感兴趣的是基于意见的信息,例如建议。涉及判决或意见的任何任务都被我们的参与者持怀疑态度。“我永远不会问她这是对涉及个人或高度主观信息的任务的共同回应,如弄清楚要在布拉格度过多长时间的假期。一位用户说:“我会查询关于当地人的布拉格的论坛;我不想做每个人都做的旅游事情。“

然而,参与者嘲笑的主观信息不仅是:一个用户认为Alexa能够告诉他星球球员在前一夜的波士顿凯尔特人赛,因为这涉及解释;这位参与者将他的查询置于alexa最初作为“谁在最后一个凯尔特人赛游戏中得分最多的点”,而且,当Alexa未能回答他的问题时,他将其改为“为最新的凯尔特人赛游戏提供给我的球员统计数据”。(这两个问题都具有客观真实的答案,而不是判断的问题。)

Another key distinction between intelligent agents and humans was noted by one participant: voice assistants don't ask you clarifying questions if you give them an ambiguous request. Humans will typically respond to an ambiguous statement with followup questions, but intelligent assistants attempt to carry out the request without getting additional information.

基于事实的任务被认为是成功的

Participants in our study frequently noted that certain kinds of simple tasks were a good fit for a voice assistant. Questions that were considered to work well were typically fact-based, such as checking the weather, finding out a celebrity’s age, getting directions to a destination with a known name, and reviewing sports scores.

心理模型

One of the questions that we asked our participants was what their assistant had learned about them. The responses were invariably “not much.” They felt that the assistant may keep track of some of their searches and use them, but they did not think that the assistant tailored its behavior significantly in order to serve them better.

一些描述助手作为“只是”进行互联网搜索并作为到Google的语音接口。其他人提到了代理商可以响应的预编程事物列表,并且在该预编程的选择菜单之外的任何内容都不会工作,并且默认为搜索。有些人描述了这些会话助手并非真正“聪明”或甚至真正一种人工智能形式,这些会话助手甚至可以了解有意义的疑问或者可以创造性地解决新问题的形式。

One participant went as far as saying “Stop calling it AI (artificial intelligence) until it’s real. The things it can do are not complicated. It’s not learning. People form expectations based on the word ‘AI,’ but it’s misleading. Driverless cars — that’s AI. That’s closer.”

另一个人在谈论alexa时描述了类似的信念:“之间有区别会心你在说什么understanding你在讲些什么。你可能会说,'番茄是水果',它不知道不会把它放在水果沙拉中。我认为她不一定了解;也许有一天的计算机将到达那里,他们可以教学或学习。现在,我认为它更像是一个触发词:单词,有word, combined with单词给出这个答案。如果你拍了把它和其他这个词,它会给另一个回答。”

与信任和​​隐私有关的态度

我们研究中的用户有信任智能代理的问题,具有一系列担忧:

  • Privacy and social awkwardness
  • 始终录制和传输音频到云
  • 误解了用户所说的内容
  • 以未经授权的方式与其他人联系
  • Bugs that would cause smart-home features to work improperly
  • 使用过多的移动数据

One of the most concerns expressed in our study was that the conversational assistants were always listening (and transmitting audio to the cloud). Several users expressed strong skepticism (or outright distrust) to the claim that agents are only listening when triggered by their keyword. During the interview portion of the study, some participants reported seeing advertisements for things that they normally never shopped for after mentioning them in a conversation near their assistant. A few said they had even engaged in informal tests of this hypothesis: they had mentioned an invented new hobby near their smart speaker or phone, and then saw advertisements for related products soon thereafter.

一些用户还认为,这些代理正在将完整的音频文件(而不是他们所说内容的某种抽象数据版本)录制并传输到云端进行解释。一位用户感到非常惊讶的是,googleassistant能够在手机未连接互联网的情况下进行听写(而且做得非常出色)。

Participants reported some discomfort with using agents when an error or a misunderstanding could have consequences; the most common examples were making incorrect purchases or using the assistant for work.

一个用户相关的是如何使用语音助理在从地铁上回家的时候决定一份工作电子邮件,当他在稍后注意到他的电子邮件时,恐慌时冻结,而代理人已经用不适当的话取代了他所说的话。正如他解释的那样,“就像我的手机在我手里变成了一个活着的手榴弹 - 我现在必须非常谨慎地解散它。”

另一个用户提到他拥有一个智能空调,但不会与Alexa一起使用它,因为他不相信它是无窃听并在家里保持适当的温度。他提到他有宠物,担心,如果它没有正常工作,它可以在热量中窒息,“我关心我的动物 - 我不会相信Alexa。”

智能助理的未来潜力

而科幻电影和电视2001年为我们提供一系列与计算机的语音交互为一系列复杂的互动,为我们提供了丰富的人的例子(特别是涉及解释,判断或意见的任务),我们研究中的参与者犹豫不决,甚至甚至尝试更复杂的任务,并没有相信助理会对这些查询表现良好。

即使这些系统越来越好,新功能的可发现性低:在我们的上一篇文章在这至pic, we noted how users accessed only a small subset of the functionality available in the intelligent assistants, and that they even often had to memorize query formulations that would worked. Presenting new options that weren’t previously available is tricky, as tutorials, release notes, and tips tend to be ignored by most users.

随着这些系统提高他们的能力,大挑战将是修改用户现有的mental models所以它们可以包含一些这样的能力。用户的心理模型通常比不断更新的产品的功能集稳定得多,因此出现了第二十二条军规:用户不知道系统可以处理比以前更复杂的查询,因此他们不会将它们用于这些类型的任务,这样就减少了训练数据的数量,从而提高了助教的水平。

换句话说,低利用智能助理的早期释放可能会阻碍未来使用大量改善的助手的风险。

Summary

尽管智能会话助理能够迅速提高正确理解用户语音的能力,但仍然存在一些重大的社会和心理模型挑战,妨碍用户与这些系统自然交互。信任问题和用户期望for these systems drive the adoption of the agents for tasks beyond simple dictation and fact-lookup requests.