智能助手是一种新的、越来越受欢迎的与技术互动的方式——智能手机和亚马逊的Echo和谷歌Home等智能扬声器都可以使用。随着美国银行(Bank of America)等公司推出针对特定领域量身定制的助理,这一趋势似乎势将进一步增长。

在别处我们讨论了智能代理的6个特征,这些特征为这种新的交互风格带来了希望,但在可用性测试中,我们发现今天的助手离实现这一承诺还差得很远。

成功的智能代理所需的6个特征

语音输入

自然语言处理

语音输出

智能解释

机构(发起行动的能力)

前5项技术的集成

另一方面,在一个单独的关键事件研究我们发现,尽管助手的能力有限,但人们报告说,他们反复使用这些系统来完成相对少量的简单活动——回答琐碎的事实、获取天气预报或导航到目的地。这些功能足够好吗?我们还需要更多吗?

一般来说,在开始向产品添加新的奇特功能之前,一个基本问题应该是:这些特性满足用户的实际需求吗?为了了解是否真的需要更高级的功能,我们评估和比较了以下内容:

  1. 人们喜欢什么想要一个完美的智能助手吗?
  2. 什么用户和当今的智能助手有什么关系?
  3. 有多少今天的助手可以满足用户的理想需求(不管人们是否知道)?

用户研究

为了回答这些问题,我们进行了两项独立的研究:

  1. 与助手相关的用户需求的日记研究。我们招募了12名参与者,让他们假装自己拥有有史以来最智能的助手(Siri或谷歌assistant的完美版本,而不是当前的产品);这个助手随时随地都可以,可以帮助他们做任何事情。在一个星期内,参与者记录了他们所有与助手相关的需求;对于每个需求,参与者填写一份关于需求和他们期望助手如何帮助他们的问卷;他们还记录了他们是否以及如何最终解决了这一需求。(我们这部分研究的灵感来自孙鹤圭及其同事的研究,早在智能手机普及之前,他们就对移动信息进行了类似的日记研究,以了解这些设备可能会如何使用。)

    为了进一步确定今天的智能助理离人们的需求有多远,我们将参与者记录的每一项需求交给现有的三个智能助理之一:Siri、谷歌Assistant、Alexa;然后我们记录是否可以由助手完成查询。(如果一个助手做不到,我们就换一个。)如果助手可以解决部分需求,我们将该需求定为部分解决。我们决定尽可能地对助手友好,偶尔改变查询公式,让现有的助手能够接受它们。

  2. 一个关键事件研究其中,每天有211名Alexa、Siri或谷歌助手的用户报告了他们上次使用助手的情况。该研究的结果如下:在另一篇文章中描述,但我们在这里引用它们来解释日记研究的结果。

日记研究,参与者记录了636项需求;在这14个样本中,有一个模棱两可,从我们的分析中删除。在剩余的621项需求中,193项是“重复”需求——也就是说,由于参与者在一周内多次记录需求,因此需要记录多次。在下文中,我们将重点分析428个独特的需求

今天的助手能满足用户的需求吗?

我们发现现有的助理本可以满足了41%(177%)的“理想”需求日记里的研究,还有另一个21%的需求可以部分得到满足由现有助理提供。

饼图:今天的助手能满足用户的需求吗?是的= 41%,没有= 38%;部分= 21%
在日记研究中记录的独特需求中,41%可以完全解决,21%可以至少由一名目前可用的智能助理部分解决。

对于智能助手界面的创建者来说,当前助手满足许多用户“理想”需求的能力似乎是个好消息。然而,当我们观察研究参与者实际上是如何解决这些需求时,我们发现实际上,只有7%的需求通过这些助手中的一个得到了满足. (46%的需求通过电脑或智能手机解决,20%的需求通过物理手段解决,4%的需求通过电话解决,25%的需求根本没有解决,而不是使用助手。)

考虑到62%的需求可以完全或部分地由今天的智能助手,用户解决9次中只有一次雇佣了他们现在的助理他们本可以成功地使用它们。不使用助手的情况比使用助手解决部分或全部问题的情况多出8倍。即使我们不认为部分帮助是令人满意的,只比较41%的完全可解决需求和7%的使用需求,我们仍然可以得到它不使用助手比使用助手常见5倍

智能助理的低使用率说明了人们对这些助理的期望值很低以及他们以前在使用助手时可能遇到的困难。此外,请记住,并非所有助理都能同样出色地完成每项任务,而且对于给定的任务,并非所有的命令公式都能同样出色地工作。对于当前助理成功解决的需求,必须满足两个先决条件:(1)参与者必须拥有正确的助理;(2)参与者必须为该需求制定“正确”的命令,以便助理能够回答。这两个要求有助于解释为什么现实生活中可能实现的和实际实现的差别如此之大。

通常,需要人们通过一个代理解决很简单:“为明天8点设置警报,”“是棕榈虚张声势开到多晚,”“玩一些早上醒来的音乐,”“提醒我洗奥利维亚的头发今晚8点,”“今天下午天气怎样”,“15分钟设置一个定时器,”“打开灯,”““掠夺”是什么意思?”

条形图:满足需求的当前方法
日记研究的参与者试图使用现有的数字助理来满足他们想要一个“完美”助理来帮助的7%的独特需求。大多数需求(46%)通过电脑或智能手机等设备得到了满足,而25%的需求仍未得到满足。

启动交互:语音输入命令与代理

我们询问参与者,他们希望如何触发助手的帮助。口头命令是最常提到的触发器(根据84%的需求选择)。因此,良好的理解自由格式的语音输入对于我们的参与者来说,这无疑是一个非常重要的助手特征。

条形图:什么会触发助手的帮助?口头命令=84%;非语言命令=4%;无命令=12%
语音指令是与智能助手互动的首选方法。在12%的需求中,参与者希望助手在没有收到任何明确命令的情况下发起互动。

对于4%的需求,参与者说他们会发出明确的非语言命令(如按下按钮或做出特定的手势)。例如,一名参与者会揉自己的胃,以此向助手表示她饿了。另一名参加者表示,锁上门应促使助理关灯。还有一个人希望当她躺下小睡时,助手能自动知道什么时候想醒来。

一些参与者还表示,当要求的信息过于复杂时,他们更愿意发出非语言命令。例如,一名参与者报告说,她宁愿键入她想预订的餐厅的名称,以确保在口述命令时没有出现错误。

然而,在12%的案例中,参与者认为助理应该知道在不接受任何命令的情况下提供帮助,基于参与者的上下文(这些类型的需求与我们的助理特征列表中的代理部分有关。)有些期望是相当合理的,并且是基于助理应该拥有的明确数据——从之前的交互或访问日历、位置或其他个人信息。其他的期望是基于微妙的、相当微妙的线索,助理应该注意这些线索,表现得几乎像一个善于观察的人,跟踪周围的人,并积极主动。

下表演示了这两种需求类型的示例。

在不需要指令的情况下,助手可以根据上下文推断用户的目标

基于明确数据的需求

基于隐含、微妙线索的需求

在日历上通知人们航班延误

在病人离开医生办公室后,立即检查药房的处方状态

提醒在没有事先设置的情况下定期锻炼、清洁、洗衣服

在Yelp上查找一家餐厅,因为在一次对话中,该餐厅的名称被随意提及

在航班起飞前24小时自动办理登机手续

监测早期头痛症状的健康体征,并提醒参与者采取行动

离开房子时打开安全警报

如果用户在internet上搜索机票,则自动设置航班价格跟踪器

在前往需要安检的目的地(机场、博物馆等)时,提醒旅客将刀具等物品留在家中。

检测衣物的气味并及时清洗manbetx官网手机登陆

当某人可能错过约会时,向其他受影响方发送电子邮件(例如,如果时间离约会越来越近,而此人离得太远)

有些人的期望是相当牵强的:例如,他们希望助手访问他人的行为或数据,并提醒他们。一个用户预期的助理找出附近当他的老板来到他的办公室,警告他,和另一个助理想找出汽车在他的面前,通知他,如果那辆车需要左转,他不困。(这两种做法在技术上都是可行的,但可能会被许多人视为侵犯隐私。)另一个人想让助手发现有人用他妻子的名字报税。

需求的复杂性

参与者记录了各种各样的需求,从简单的一步操作到复杂的流程,这些流程需要从不同来源收集信息:

  • 简单的动作通常需要一个步骤来完成。
  • 多步的需要与网站或应用中的互动流程相似;他们需要经历几个阶段来完成一个过程。
  • 多任务需求涉及使用多个活动和应用程序来实现目标。
  • 研究需求需要整合多个信息源并分析选项。

下表显示了每个类别的需求示例。

简单操作需求

明天我第一次见面是什么时候?

一份辣椒含有多少卡路里?

在8:05到80度之间打开淋浴。

提醒我给妈妈买张生日卡。

最近的星巴克在哪里?

今日天气

早上闹钟设置。

多步的需要

找一家离健身房最近的咖啡店。

在星巴克点咖啡。

上午10点出发去埃塞克斯餐厅。

将100美元从支票账户转到储蓄账户。

保存我丈夫寄来的照片。

创建一个清单。

多任务需求

给我找一条使用拼车车道的最佳路线。

从日历上拨到Webex会议,把自己调成静音,把音量调到中等。

(根据上次会议后的时间)我需要优先安排与谁会面?然后把我的文件按顺序放好。

将我从周五到现在的照片备份到Google Drive,并向我父母发送该文件夹的链接。

跟踪我明天的产品交付,并在每个步骤向我发送更新。

给我的下次会议发电子邮件,让他们知道我迟到了10分钟。

研究需求

给我发一些果汁食谱,我可以用冰箱里的东西做。

我流鼻涕,喉咙痛,背部疼痛。我能吃点什么?

为什么现在旧金山有直升机?

考虑到酒店提供的一切和价格,迈阿密最好的住宿地点是哪里?

喝冰沙或鲜榨果汁更健康吗?

给我找一份高评价且非常独特的甜派食谱。

给我订一把雨伞。

从简单的行动到复杂的研究任务,不同层次的需求的例子

虽然其中一些需求看起来很相似,但参与者经常提供额外的细节,帮助我们对它们进行分类。例如,对于“为我订购一把雨伞”的需求,用户希望助手在亚马逊上找到一些评分不错的雨伞,然后下订单。因为这个需求涉及到一个研究部分(找到一把好的伞,而不是任何伞),所以它被分配到研究中。相比之下,那些只是想在星巴克点一杯咖啡的参与者脑子里有一个非常精确的东西,所以这种需求被归类为“多步骤”需求。

多任务需求要求助手要么执行多个相关任务(“从我的日历拨入Webex会议,静音,并将音量设置为中等”),要么从一个来源获取信息,并将其用于不同的应用程序或在不同的上下文中使用(例如,“给我的下一次会议发送电子邮件,让他们知道我晚了10分钟”包括从日历中确定下一次会议,然后向与会者发送电子邮件)。

一些需求还要求助理制定未来行动计划——要么在指定的时间(“上午10点开始去埃塞克斯餐馆的路线”),要么在助理需要确定的时间(“医生的办公室开门时提醒我打电话”)。

这个我们的参与者记录的大多数需求都是简单的行动(58%的独特需求); 多步骤和研究需求相当普遍(各占17%);最不常见的需求是多任务需求(9%)。因此,总共有42%的需求比简单的一步命令更复杂。

条形图:按复杂性划分的需求百分比
58%的日记参与者记录的需求是一步任务;42%的人更复杂。

有趣的是,简单的动作是人们使用现有助手(如Siri、Google Now和Alexa)完成的主要任务类别。只有26%的频繁用户提到,他们使用今天的助手完成比一步更复杂的任务。因此,人们的需求的复杂性与他们今天使用现有助手实际完成的任务的复杂性之间肯定存在差距(需要42%的复杂任务,完成26%)。

条形图:完美助手与真正助手的任务复杂性
这个图表比较了我们完美的助理日记研究的需求复杂性和我们真实的助理关键事件研究中报告的活动复杂性。在关键事件研究中,简单的行动被过多地提及,而更复杂的行动则很少被提及。然而,需要一个以上步骤的活动(标记为研究,多任务,多步骤)占日记用户跟踪需求的42%。(黄色条表示日记研究中属于该复杂性类别的需求的百分比,绿色条表示在关键事件研究中报告使用当前代理执行该复杂性任务的用户的百分比。)

请注意,可能思想模型人们已经掌握了关于智能助手的信息(基于他们目前使用Alexa、Siri或谷歌Assistant的经验),告诉他们如何使用当前的助手。事实上,目前,人们的期望相当有限关于这些代理可以完成什么。因此,从理论上讲,今天的助手可能实际上能够完成更复杂的需求,但人们可能不知道他们的能力。

一项活动的复杂性是今天的助手能否成功完成它的主要因素。当我们重新审视当前的代理是否能够基于需求的复杂性来满足需求时,我们发现大约一半的简单操作需求可以通过当前的代理来完成。即使在这方面,仍有很大的改进空间。其他类型的任务的百分比要低得多——大约30%的多步骤和研究需求,以及16%的研究需求可以在今天完成。(这些数字代表了上界——它们假设问题是以最好的形式发送给最好的代理;在现实生活中,真正成功的人就更少了。)

条形图:今天的助理可以满足的需求百分比
图表显示了记录的用户需求中可以通过今天的助手来解决的百分比:大约一半的简单操作需求可以通过现有的助手来完成。更高的复杂性需求不太可能通过Google Assistant、Siri或Alexa解决。(这些统计数据不包括现有助理部分可满足的需求。)

用户很难使用传统的计算机系统完成高级任务:在富裕国家,只有31%的成年人有能力当使用传统的用户界面时,执行类似于我们表中的多任务和研究需求的任务。由于超过三分之二的人口不具备使用现有计算机进行任何高级操作所需的计算机技能,如果智能助手实际上足够好,可以接管这些任务,那么就有很大的潜力来帮助这些人。

需要什么与正在做什么

我们确定了用户记录的12种不同类型的任务,定义如下表所示。

沟通

通过短信/电话与其他人明确沟通

交易

下订单或进行其他类型的财务操作

提醒

触发一个通知从助理/电话

行程安排

与其他各方协调,创建一个日历约会

列表

创建一个列表(要购买的物品、想法等)

创建

创建新文档/图像/其他虚拟工件

当地的信息

交通、天气、方向

信息检索

回答一个与当地信息无关的问题

的想法

建议比本地信息或信息检索范围更广的信息,这些信息不符合特定标准,客观上不能是对的或错的

物联网控制

与某人互动物联网设备(电话、计算机或智能扬声器除外)并提供命令(如闹钟、冰箱)

现实世界的控制

与当前不智能的物理世界对象交互(如袜子、布洛芬)

手机控制

在手机、笔记本电脑、智能扬声器、汽车界面上启动特定的活动(例如,播放音乐、播客、打开手机手电筒)

智能代理日记研究参与者记录的需求分类

最常见的任务是提醒(占所有独特需求的26%):参与者需要简单的提醒(支付账单,洗衣服,休息,下订单,接一个孩子),以及更复杂的基于位置的提示(例如,买卡当接近药店)或在外部事件(例如,“通知时我最喜欢的披萨店带来了新鲜派”)。

本地信息是第二常见的任务类型(占需求的21%):人们习惯性地想知道当天的天气、交通状况或到某个特定目的地的方向。

信息检索任务(例如,“我儿子今天和医生的预约是什么时候?”,” “Figure out that movie that starred Jim Carrey and Cameron Diaz”), transactions (e.g., “Call an Uber”, “Order Laughing Planet food”), ideas (e.g., “Decide where to get dinner tonight”, “Choose what to wear today”, “What can I cook with the ingredients in my fridge?”), and沟通needs(例如,“给Kim发短信,告诉她我将晚到10分钟”,“问Jeff是否想和我和Janet一起去越南河粉”,“把这个视频发给妈妈”)也相当受欢迎。

一些需求被分为多个类别。例如,“查找zoodles的配方并打印它”被列为信息检索(查找配方)和物联网控制(将其发送到打印机)。“下午5点我在青岛的常规订单”,包括打电话给餐厅(沟通)和下单(交易);“我需要(根据冰箱里的内容)计划晚餐吃什么”包括信息检索(访问冰箱里的物品)和想法(用这些材料制作食谱)。

柱状图:按任务类型划分的需求百分比
提醒和访问本地信息是完美助手日记研究中记录的最常见任务。(数字增加到100%以上,因为一些需求被划分为多种类型。)

就任务类型而言,当地需求和提醒最有可能由现有助理解决。我们研究中64%的局部信息需求可以得到满足由Siri、Alexa或Google Assistant等提供40%的信息检索、列表或提醒需求也可以得到满足今天由其中一名助理主持。也许毫不奇怪,没有创造需求,物联网控制需求或现实世界控制需求的10%以下可以得到满足。但是,有趣的是,第二个最不受关注的类别是沟通和交易——只有不到20%的需求能够被今天的助理成功满足(这些数字不包括部分可满足的需求)。

这个图表显示了对于每个任务类型,今天的助手可以处理的已记录需求的百分比。

这些类型的用户需求与人们使用当前助手报告的实际活动相比如何?总的来说,日记参与者记录的“理想”需求比今天的助手用户报告的实际使用情况更加多样化。用户目前执行的任务范围更小(获取当地信息,如天气、交通和方向、事实检索、通过打开音乐或设置闹钟来控制手机),但他们确实这样做了需要帮助其他类型的活动。

条形图:按类型报告的活动百分比:用户需要做什么vs.他们使用智能助手做什么
此图表比较了人们需要与完美助手一起完成的任务类型,以及他们报告的与当今助手一起完成的任务类型。黄色条表示该类型需求的百分比(在完美助手日志中记录的需求总数中)。绿色条表示报告与今天的助手一起参与该活动的频繁用户的百分比,这是由我们的关键事件研究确定的。

助理需要知道什么才能满足用户的需求?

智能解释和代理是两个辅助特征,需要结合现实世界的知识、用户的个人信息和此时此地的上下文信息。以下哪些是必要的?今天的助手使用什么类型的知识?

为了回答这些问题,我们在日记研究中根据涉及的信息类型(“知识”)对每种需求进行了分类:

  • 个人的关于请求者的信息,可能包括:
    • 个人的电子数据例如电话,地址,当前位置,联系人,日历
    • 个人的物理信息比如询问者冰箱里的食物或健康标志
    • 过去的历史例如先前的订单或与各种应用程序、企业或人员的交互
  • 网络:可以通过网络搜索找到的信息
  • 第三方信息:关于非用户的其他人或组织的私人信息(例如其他人的位置)
  • 任何信息(例如,设置警报等任务,或命令中包含所有所需信息的其他任务)

大多数需求(65%)要求填写某种形式的个人信息(通常是个人电子数据),44%的需求要求在网络上提供一般信息。22%的需求是独立的,无需额外信息即可完成。

柱状图:按知识类型划分的需求百分比
这个图表显示了为了满足完美助理日志中记录的需求而需要的不同类型的知识。大多数人都需要网上提供的信息或个人信息,如电话、地址或当前位置。22%的需求不需要任何信息就可以完成。(数字加起来超过100%,因为有些数字需要多种类型的知识。)

我们还想了解知识需求如何影响当今代理完成需求的能力。不足为奇的是,需要第三方信息或个人信息的需求不太可能用我们今天拥有的东西来解决。也许更有趣的是,涉及用户之前交互的知识的需求在今天也不太可能得到满足——这可能表明,今天的代理的学习能力有限。(然而,需要注意的是,涉及过去历史的需求总数一开始就很少。)

条形图:按知识类型列出的今天的助理可以满足的需求百分比
这个图表显示了,对于每一种知识类型,有多少需求可以通过今天的助手来解决。基于网络的需求和那些不需要信息的需求在今天最有可能被解决。

最后但并非最不重要的一点是,我们研究了完成关键事件研究中人们报告的任务所需的知识。与用户理想需求所需的信息相比,实际完成的大部分任务似乎严重依赖于网络和个人电子信息(特别是用户的位置和联系人)。与上一节一样,今天围绕特定类型信息的任务两极分化表明,今天的助理相关活动缺乏多样性。

条形图:所需信息:用户需求与用户实际活动
这个图表比较了完美助手日记中满足用户需求所需的知识与我们真实助手研究中参与者报告的完成活动所需的知识。黄色的条形图表示需要每种知识类型的需求占我们日记研究中记录的所有需求的百分比;绿色条表示在关键事件研究中报告涉及相同类型知识的活动的用户的百分比。

结论

我们的研究试图了解智能助手的完美版本能够满足用户的哪些需求,以及目前的助手离满足这些需求还有多远。

手绘图表,显示两个轴:任务复杂性是x轴(从简单到复杂),任务频率是y轴(从很少到经常)。
当前智能助手的工作、可行的工作和需要的工作之间的差距

我们知道有用=实用+可用性.上面的图表显示实现的有用性当前智能助理的数量(绿色区域)相当低,尤其是在更复杂的任务范围内。这个潜在的用途更高,正如我们的用户提到的全部需求所表明的那样:潜在的有用性由图表顶线下方的完整区域表示。但是,可用性差距(蓝色区域)和效用缺口(橙色区域)吞噬了大部分潜在的有用性。可用性差距是由存在但难以使用的特性造成的,而实用差距是由缺失的特性造成的。要让智能助理真正发挥作用,这两个差距必须被弥合(或至少大幅缩小)。

我们发现,即使想象一个能做任何事情的完美助手,人们往往会有相当简单的、一步到位的请求,并希望以不受限制的自然语言,主要以口头方式向助手提出请求。然而,许多用户的需求要求助手具备关于用户的隐含上下文知识,并使用这些知识来解释用户的行为和推断他们的目标。有些需求要求助手在用户发出任何命令之前要积极主动。

虽然41%的需求可以通过今天的助手来解决(如果算慷慨的话),但只有7%的情况下用户真正尝试使用Alexa、谷歌Assistant或Siri来解决需求。这种差异表明了用户对这些助手的期望和它们实际能够做的事情之间的差距。(这也反映了这些系统的可用性——如果通过其他方式更容易满足需求,人们就不会费心去尝试使用助手。)

此外,这项研究还显示了人们的需求和他们使用助手的方式之间的差异。经常使用Alexa、谷歌Assistant或Siri的用户倾向于专注于一些复杂度有限的任务,这些任务需要非常具体的知识类型。然而,需求的范围要广得多,为了解决所有这些问题,助理必须将其能力扩展到更复杂、更复杂的任务,并利用用户当前位置和联系人列表之外的知识。

参考

蒂莫西·孙、凯文·a·李、威廉·g·格里斯沃尔德和詹姆斯·d·霍兰,2008。移动信息需求的日记研究中国08