智能助理是一种新的、越来越流行的与技术交互的方式,可在智能手机和亚马逊的Echo和谷歌Home等智能扬声器上使用。随着美国银行等公司推出针对特定领域定制的助理,这一趋势似乎将进一步发展。

在其他地方我们讨论了智能代理的6个特性,这些特性为这种新的交互方式带来了希望,但在可用性测试中,我们发现今天的助手离实现这一承诺还很远。

成功的智能代理所需的6个特征

语音输入

自然语言处理

声音输出

聪明的解释

代理(发起行动的能力)

前5种技术的集成

另一方面,在一个单独的关键事件研究我们发现,尽管助手的能力有限,但人们报告说,他们反复使用这些系统来完成相对少量的简单活动——回答琐碎的事实、获取天气预报或导航到目的地。这些功能足够好吗?我们还需要更多吗?

一般来说,在开始为产品添加新的奇特功能之前,一个基本的问题应该是:这些特性满足用户的实际需求吗?为了了解是否确实需要更高级的功能,我们评估并比较了以下内容:

  1. 人们喜欢什么想要一个完美的智能助手吗?
  2. 用户需要什么现在的智能助理怎么办?
  3. 有多少今天的助手可以满足用户的理想需求(不管人们是否知道)?

用户研究

为了回答这些问题,我们进行了两项独立的研究:

  1. 与助手相关的用户需求的日记研究。我们招募了12名参与者,让他们假装他们有史以来最聪明的助手(Siri或Google assistant的完美版本,而不是当前的产品);该助理可以在任何地方、任何时间提供,并且可以帮助他们做任何事情。在一周内,参与者记录所有与助理相关的需求;对于每个需求,参与者填写一份问卷,说明他们的需求以及他们期望助理如何帮助他们;他们还记录了他们是否以及如何最终发言这部分研究的灵感来自于Sohn及其同事所做的工作,他们在智能手机普及之前就对移动信息需求进行了类似的日记研究,以了解如何使用这些设备

    为了进一步确定今天的智能助手离人们的需求有多远,我们将参与者记录的每个需求都提供给三个现有智能助手中的一个:Siri、Google Assistant、Alexa;然后我们记录了助手是否可以完成查询。(如果一个助手不能完成,我们尝试另一个。)如果部分需求可以由助理解决,我们将该需求评为部分解决。我们决定尽可能对助理有利,并偶尔更改查询公式,以使现有助理能够接受这些需求。

  2. 关键事件研究211名Alexa、Siri或谷歌Assistant的日常用户报告了他们最后一次使用助手的情况。这项研究的结果是在另一篇文章中描述,但我们在这里引用它们来解释日记研究的结果。

日记研究,参与者记录了636项需求;在这14个样本中,有一个模棱两可,从我们的分析中删除。在剩余的621项需求中,193项是“重复”需求——也就是说,由于参与者在一周内多次记录需求,因此需要记录多次。在下文中,我们将重点分析428个独特的需求

今天的助手能满足用户的需求吗?

我们发现现有的助理可能满足了41%(177%)的“理想”需求记录在日记研究中,另一个其中21%的需求可以部分解决由现有的助手。

饼图:今天的助手能满足用户的需求吗?是的= 41%,没有= 38%;部分= 21%
在日记研究中记录的独特需求中,41%可以被完全解决,21%可以被目前可用的智能助手中的至少一个至少部分解决。

对于智能助手界面的创建者来说,当前助手满足许多用户“理想”需求的能力似乎是个好消息。然而,当我们观察研究参与者实际上是如何解决这些需求时,我们发现实际上,只有7%的需求通过这些助手中的一个得到了满足.(46%的需求通过电脑或智能手机解决,而不是通过助手,20%的需求通过物理手段解决,4%通过电话,25%根本没有解决。)

考虑到62%的需求可以通过今天的智能助手全部或部分解决,用户在这9次中,只有一次雇佣了他们目前的助手当他们本可以成功地利用它们的时候。不使用助手的情况比使用它来满足那些可以用助手完全或部分解决的需求的情况要常见8倍。即使我们不认为部分的帮助是令人满意的,只比较41%的完全可寻址的需求与7%的使用,我们仍然得到它是不使用助手的几率是使用助手的5倍

智能助理的使用率如此之低,说明人们对这些助理的期望值很低以及他们以前在使用助手时可能遇到的困难。同时,记住并不是所有的助手都同样擅长于每一项任务,并且,对于给定的任务,并不是所有的命令公式都同样有效。对于需要由当前助手成功解决的需求,必须满足两个前提条件:(1)参与者必须有合适的助手,(2)参与者必须为该需求制定“合适的”命令,以便助手能够回答。这两个要求有助于解释为什么“可能”和“实际完成”之间的差异如此之大。

一般来说,人们通过代理人解决的需求很简单:“将闹钟定在明天晚上8点”,“Palm Bluff课程开到多晚”,“播放早上起床音乐”,“提醒我今晚8点左右洗Olivia的头发”,“今天下午天气如何”,“设定15分钟的计时器”,“开灯,”“掠夺”是什么意思?”

条形图:满足需求的当前方法
日记研究的参与者试图使用现有的数字助理来满足他们想要一个“完美”助理来帮助的7%的独特需求。大多数需求(46%)通过电脑或智能手机等设备得到了满足,而25%的需求仍未得到满足。

启动交互:语音输入命令与机构

我们询问参与者,他们希望如何激发助理的帮助。口头命令是最常提到的触发器(根据84%的需求选择)。因此,良好的理解自由格式语音输入对我们的参与者来说绝对是一个非常重要的助理特征。

条形图:什么会触发助手的帮助?口头命令=84%;非语言命令=4%;无命令=12%
口头命令是与智能助手互动的首选方法。对于12%的需求,参与者希望助手在没有收到任何明确命令的情况下启动互动。

在4%的需求中,参与者说他们会发出明确的非语言命令(如按下按钮或做出特定手势)。例如,一名参与者会摩擦她的胃,以向助手表示她饿了。另一位参与者说,锁上门会促使助手关灯。而另一位则希望助手在她躺下小憩时自动知道问她想什么时候醒来。

一些参与者还表示,当要求的信息过于复杂时,他们更愿意发出非语言命令。例如,一名参与者报告说,她宁愿键入她想预订的餐厅的名称,以确保在口述命令时没有出现错误。

然而在12%的情况下,参与者认为助理应该知道在不接受任何命令的情况下提供帮助,基于参与者的背景(这些类型的需求与我们助理特征列表中的代理部分有关。)有些期望是相当合理的,并且基于助理应该拥有的明确数据——无论是来自之前的互动,还是来自对日历、位置或其他个人信息的访问。其他期望是基于助理应该注意的细微、相当微妙的线索,表现得几乎像一个观察力强、随机应变的人。

下表演示了这两种需求类型的示例。

在不需要指令的情况下,助手可以根据上下文推断用户的目标

基于明确数据的需求

需要基于含蓄的,微妙的暗示

通知日历中航班延误的人员

有人离开医生办公室后,立即向药房询问处方状态

提醒锻炼,清洁,定期洗衣服没有事先设置

在Yelp上搜索一家餐厅,如果这家餐厅的名字在一次谈话中被不经意地提到了

在航班起飞前24小时自动办理登机手续

监测早期头痛症状的健康体征,并提醒参与者采取行动

离开房子时打开安全警报

如果用户在网上搜索机票价格,自动设置一个机票价格跟踪器

警告人们在前往需要安检的目的地(机场、博物馆等)时将刀具等物品留在家中

检测衣物的气味并及时清洗manbetx官网手机登陆

当某人可能会错过约会时,给其他受影响的人发邮件(例如,如果时间离约会很近,而那个人离得太远)

有些人的期望是相当牵强的:例如,他们希望助手访问他人的行为或数据,并提醒他们。一个用户预期的助理找出附近当他的老板来到他的办公室,警告他,和另一个助理想找出汽车在他的面前,通知他,如果那辆车需要左转,他不困。(这两种做法在技术上都是可行的,但可能会被许多人视为侵犯隐私。)另一个人想让助手发现有人用他妻子的名字报税。

需求的复杂性

参与者记录了各种各样的需求,从简单的一步行动到需要从不同来源收集信息的复杂流程:

  • 简单的动作通常需要一个步骤来完成。
  • 多步的需要类似于网站或应用程序中的交互流;它们需要经过几个阶段才能完成一个过程。
  • 多任务需求涉及使用多个活动和应用程序来实现一个目标。
  • 研究需要需要整合多个信息源并分析选项。

下表显示了每个类别的需求示例。

简单操作需求

我明天第一次开会是什么时候?

一份辣椒有多少卡路里?

在8:05到80度之间打开淋浴。

提醒我给妈妈买张生日卡。

最近的星巴克在哪里?

今日天气

早上闹钟设置。

多步的需要

找一家离健身房最近的咖啡店。

从星巴克点咖啡。

上午10点出发前往埃塞克斯餐厅。

把100美元从支票账户转到储蓄账户。

保存我丈夫寄来的照片。

创建一个清单。

多任务需求

给我找一条使用拼车车道的最佳路线。

从我的日历拨入Webex会议,静音,并将音量设置为中等。

(根据上次会议后的时间)我需要优先安排与谁会面?然后把我的文件按顺序放好。

把我从周五到现在的照片备份到谷歌驱动器,并给我的父母发送一个文件夹的链接。

跟踪我明天的产品交付,并在每个步骤向我发送更新。

给下次开会的人发邮件,让他们知道我要迟到10分钟。

研究需要

寄给我一些果汁食谱,我可以用冰箱里的东西做。

我流鼻涕,喉咙痛,背痛。我能有什么呢?

为什么现在旧金山有直升机?

考虑到酒店提供的一切和价格,迈阿密最好的住宿地点是哪里?

喝冰沙还是鲜榨果汁更健康?

给我找一份甜馅派的食谱,它的评价很高,也很独特。

给我订一把伞。

从简单的行动到复杂的研究任务,各种复杂程度的需求示例

尽管这些需求中的一些看起来很相似,但参与者经常提供额外的细节,帮助我们对它们进行分类。例如,为了满足“为我订购雨伞”的需求,用户希望助手在亚马逊上找到一些评级良好的雨伞,然后订购一把。因为这需要一个研究部分(寻找一个好的伞,而不是任何伞),它被分配到研究。相比之下,只想从星巴克点咖啡的参与者心里有一个非常精确的项目,因此需要被归类为“多步骤”。

多任务需求要求助手要么执行多个相关任务(“从我的日历拨入Webex会议,静音,并将音量设置为中等”),要么从一个来源获取信息,并将其用于不同的应用程序或在不同的上下文中使用(例如,“给我的下一次会议发送电子邮件,让他们知道我晚了10分钟”包括从日历中确定下一次会议,然后向与会者发送电子邮件)。

一些需求还要求助理制定未来行动计划-在给定的时间(“上午10点开始前往埃塞克斯餐厅的指示”)或助理需要确定的时间(“提醒我在医生办公室开门时给医生打电话”)。

这个我们的参与者记录的大多数需求都是简单的行动(58%的独特需求);多步骤和研究需求相当受欢迎(各占17%);最不常见的需求是多任务需求(9%)。因此,总共有42%的需求比简单的一步命令更复杂。

条形图:按复杂性划分的需求百分比
我们的日记参与者记录的58%的需求是一步式任务;42%更复杂。

有趣的是,简单的动作是人们使用Siri、谷歌Now和Alexa等现有助手完成的主要任务类别。只有26%的频繁用户提到他们在今天的助手下完成了比一步更复杂的任务。因此,在人们需求的复杂性和他们今天使用现有助手实际完成的任务之间肯定存在差距(需要42%的复杂任务,而完成26%)。

条形图:完美助理和真正助理的任务复杂性
该图表比较了完美助手日记研究中需求的复杂性与真实助手关键事件研究中报告的活动的复杂性。在关键事件研究中,简单行动的比例过高,而更复杂的行动很少提及。但是,需要不止一个步骤的活动(标记为研究,多任务多步)占日记用户跟踪需求的42%。(黄色条表示日记研究中属于该复杂性类别的需求的百分比,绿色条表示在关键事件研究中报告使用当前代理执行该复杂性任务的用户的百分比。)

注意,有可能思想模型人们已经掌握了关于智能助手的信息(基于他们目前使用Alexa、Siri或谷歌Assistant的经验),告诉他们如何使用当前的助手。事实上,目前,人们的期望相当有限关于这些代理能够完成什么。因此,从理论上讲,今天的助手实际上可能能够完成更复杂的需求,但人们可能没有意识到他们的能力。

一项活动的复杂性是今天的助手能否成功完成它的主要因素。当我们重新审视当前的代理是否能够基于需求的复杂性来满足需求时,我们发现大约一半的简单操作需求可以通过当前的代理来完成。即使在这方面,仍有很大的改进空间。其他类型的任务的百分比要低得多——大约30%的多步骤和研究需求,以及16%的研究需求可以在今天完成。(这些数字代表了上界——它们假设问题是以最好的形式发送给最好的代理;在现实生活中,真正成功的人就更少了。)

条形图:今天的助理可以满足的需求百分比
该图表显示了使用今天的助手可以解决的登录用户需求的百分比:大约一半的简单操作需求可以使用现有的助手完成。谷歌Assistant、Siri或Alexa不太可能解决更高复杂度的需求。(这些统计数据不包括部分可由当前助理解决的需求。)

用户在使用传统计算机系统完成高级任务时有很大困难:在富裕国家,只有31%的成年人有能力在使用传统用户界面时,执行类似于我们表格中多任务和研究需求的任务。由于超过三分之二的人口不具备使用当前计算机进行任何高级操作所需的计算机技能,如果智能助手是我,那么帮助这些人的潜力很大事实上,这足以接管任务。

需要什么vs.正在做什么

我们确定了用户记录的12种不同类型的任务,定义如下表所示。

沟通

通过短信或电话与他人明确沟通

事务

下达订单或其他类型的财务操作

提醒

触发通知从助理/电话

行程安排

与其他各方协调创建日历约会

列表

列一张(要买的物品、想法等)清单

创建

创建一个新的文档/图像/其他虚拟工件

本地信息

交通、天气、方向

信息检索

回答与本地信息无关的问题

主意

建议比本地信息或信息检索范围更广的信息,这些信息不符合特定标准,客观上不能是对的或错的

物联网控制

与一个物联网设备(电话、电脑或智能音箱除外)并提供指令(如闹钟、冰箱)

真实世界控制

与当前不智能的物理世界对象交互(如袜子、布洛芬)

电话控制

在手机、笔记本电脑、智能扬声器、汽车界面上启动特定活动(例如,播放音乐、播客、打开手机手电筒)

智能代理日记研究参与者记录的需求分类

最常见的任务是提醒(占所有独特需求的26%):参与者需要简单的提醒(支付账单,洗衣服,休息,下订单,接一个孩子),以及更复杂的基于位置的提示(例如,买卡当接近药店)或在外部事件(例如,“通知时我最喜欢的披萨店带来了新鲜派”)。

本地信息是下一个最常见的任务类型(占需求的21%):人们通常想知道一天的天气、交通状况或到特定目的地的方向。

信息检索任务(例如,“我儿子今天什么时候去看医生?”,“找出吉姆·凯瑞和卡梅隆·迪亚兹主演的那部电影”),交易(例如,“呼叫优步”,“点笑星球食品”),想法(例如,“决定今晚在哪里吃饭”,“选择今天穿什么”,“我可以用冰箱里的配料做什么?”),以及表达needs(例如,“给Kim发短信,告诉她我将晚到10分钟”,“问Jeff是否想和我和Janet一起去越南河粉”,“把这个视频发给妈妈”)也相当受欢迎。

一些需求被分为多个类别。例如,“查找zoodles的配方并打印它”被列为信息检索(查找配方)和物联网控制(将其发送到打印机)。“下午5点我在青岛的常规订单”,包括打电话给餐厅(沟通)和下单(交易);“我需要(根据冰箱里的内容)计划晚餐吃什么”包括信息检索(访问冰箱里的物品)和想法(用这些材料制作食谱)。

条形图:按任务类型列出的需求百分比
在完美助手日记研究中,提醒和获取本地信息是最常见的任务。(由于一些需求被划分为多种类型,所以这些需求的总和超过了100%。)

在任务类型方面,本地需求和提醒最有可能通过现有的助手来解决。在我们的研究中,64%的本地信息需求可以得到满足由Siri、Alexa或Google Assistant等提供还可以满足40%的信息检索、列表或提醒需求今天由其中一名助理主持。也许毫不奇怪,没有创造需求,物联网控制需求或现实世界控制需求的10%以下可以得到满足。但是,有趣的是,第二个最不受关注的类别是沟通和交易——只有不到20%的需求能够被今天的助理成功满足(这些数字不包括部分可满足的需求)。

此图表显示,对于每种任务类型,今天的助理可以满足的记录需求的百分比。

这些类型的用户需求与人们使用当前助手报告的实际活动相比如何?一般来说,日记参与者记录的“理想”需求比当今助手用户报告的实际使用情况更加多样化。用户目前执行的任务范围较窄(获取当地信息,如天气、交通和方向、事实检索、通过打开音乐或设置闹钟来控制手机),但他们确实这样做了需要帮助其他类型的活动。

条形图:按类型列出的报告活动的百分比:用户需要做什么与他们使用智能助手做什么
此图表比较了人们需要与完美助手一起完成的任务类型,以及他们报告的与当今助手一起完成的任务类型。黄色条表示该类型需求的百分比(在完美助手日志中记录的需求总数中)。绿色条表示报告与今天的助手一起参与该活动的频繁用户的百分比,这是由我们的关键事件研究确定的。

助理需要知道什么才能满足用户的需求?

智能解释和代理是两个助理特征,需要结合现实世界的知识、关于用户的个人信息和关于此时此地的上下文信息。哪些是必要的?今天的助手使用哪些类型的知识?

为了回答这些问题,我们在日记研究中根据解决这些问题所涉及的信息(“知识”)类型对每个需求进行了分类:

  • 个人的信息:关于询问者的信息可能包括:
    • 个人的电子数据例如电话,地址,当前位置,联系人,日历
    • 个人的物理信息比如询问者冰箱里的食物或健康标志
    • 过去的历史例如先前的订单或与各种应用程序、企业或人员的交互
  • 网状物:可通过web搜索找到的信息
  • 第三方信息:关于不是用户的其他人或组织的私人信息(如他人的位置)
  • 任何信息(例如,对于设置报警等任务,或命令中包含所有所需信息的其他任务)

大多数需求(65%)要求填写某种形式的个人信息(通常是个人电子数据),44%的需求要求在网络上提供一般信息。22%的需求是独立的,无需额外信息即可完成。

柱状图:按知识类型划分的需求百分比
此图表显示了为满足完美助手日记中记录的需求所需的不同类型的知识。大多数人需要网络上可用的信息或个人信息,如电话、地址或当前位置。22%的需求不需要任何信息才能完成。(数字增加到100%以上,因为某些需求需要多种类型的知识。)

我们还想了解知识需求如何影响当今代理完成需求的能力。毫不奇怪,需要第三方信息或物理个人信息的需求不太可能用我们今天所拥有的来解决。也许更有趣的是,涉及用户先前交互知识的需求在今天也不太可能得到满足——这可能表明当今代理的学习能力有限。(但是,请注意,涉及过去历史的需求总数从一开始就很小。)

柱状图:按知识类型划分的当今助理可解决需求的百分比
这张图表显示,对于每种知识类型,今天的助手可以满足多少需求。基于网络的需求和不需要信息的需求今天最有可能满足。

最后但并非最不重要的是,我们查看了完成人们在我们的关键事件研究中报告的任务所需的知识。与用户理想需求所需的信息相比,大多数实际完成的任务似乎严重依赖于网络和个人电子信息(尤其是用户的位置和联系方式)。与上一节中一样,当前任务围绕特定类型信息的两极分化表明,当前与助理相关的活动缺乏多样性。

条形图:信息需求:用户需求与用户实际活动
此图表比较了完美助手日记中满足用户需求所需的知识与真实助手研究参与者报告的完成活动所需的知识。黄色条表示日记研究中记录的所有需求中需要每种知识类型的需求的百分比;以及绿色条表示在关键事件研究中报告涉及相同类型知识的活动的用户百分比。

结论

我们的研究试图了解智能助手的完美版本能够满足用户的哪些需求,以及当前的助手离满足这些需求还有多远。

手绘图表显示两个轴:任务复杂性是x轴(从简单到复杂),任务频率是y轴(从很少到经常)。
当前智能助手的工作、可行的工作和需要的工作之间的差距

我们知道有用=实用+可用性. 上图显示实现的有用性目前的智能助手(绿色区域)是相当低的,特别是在更复杂的任务范围内。这个潜在的用途是更高的,正如我们的用户所提到的一整套需求所表明的:潜在的有用性是由图表顶部线下的整个区域所表示的。然而,可用性的差距(蓝色区域)和效用的差距(橙色区域)吞噬了大部分潜在的有用性。可用性差距是由存在但难以使用的特性造成的,而实用差距是由缺失的特性造成的。要让智能助理真正发挥作用,这两个差距必须被弥合(或至少大幅缩小)。

我们发现,即使在想象一个可以做任何事情的完美助手时,人们往往会提出相当简单的一步要求,并希望以不受限制的自然语言,主要是口头的方式向助手提出要求。然而,许多用户的需求要求助手具有关于用户的隐含上下文知识,并使用这些知识来解释用户的行动和推断他们的目标。其中一些需求要求助手在用户发出任何命令之前主动采取行动。

虽然41%的需求可以通过今天的助手来解决(如果算慷慨的话),但只有7%的情况下用户真正尝试使用Alexa、谷歌Assistant或Siri来解决需求。这种差异表明了用户对这些助手的期望和它们实际能够做的事情之间的差距。(这也反映了这些系统的可用性——如果通过其他方式更容易满足需求,人们就不会费心去尝试使用助手。)

此外,这项研究还显示了人们的需求和他们今天如何使用助手之间的差异。Alexa、Google Assistant或Siri的经常用户倾向于关注一些复杂度有限的任务,需要非常特定的知识类型。然而,需求的范围要广得多,为了满足所有需求,助理必须将其能力扩展到更复杂的任务,并利用用户当前位置和联系人列表以外的知识。

参考

蒂莫西·孙、凯文·a·李、威廉·g·格里斯沃尔德和詹姆斯·d·霍兰,2008。移动信息需求的日记研究气08年