当我们最近测试了智能助理的可用性像Siri,Alexa和Google Assistant一样,我们发现与这些代理商的相互作用困扰着问题,从对言语产出中的固有局限性的理解不良。

然而,尽管存在这些问题,但语音助理正变得越来越受欢迎。46%的美国成年人使用语音控制的数字助理报告2017年,根据PEW研究中心。当我们最近询问211个智能助理的用户时,他们最后一次与助手互动时,最多描述的成功经验,以及热情地涌现了他们对他们的助手有多伟大的热情:

“我定期与谷歌助手交谈,我每天都用它,整天都用它。我相信这是创造的最好的事情之一。我只是喜欢它,我不能没有谷歌助理就活着。“

“SIRI绝对非常有用。我每天都多次使用它。我每天使用它可能是30次。我所做的一切都是通过SIRI,我不能与SIRI更快乐。”

“我爱我的alexa。”

显然,我们观察到的可用性问题并没有阻止人们使用智能助理。要了解用户如何具有这种积极反应,尽管这些系统的可用性差,我们研究了语音助理的高频用户和他们通常以帮助的工作。

目前的智能助理使用:用户研究

我们让有兴趣参与一项关于智能助手的研究的人回答一些关于他们使用这些接口的问题。在464个回复我们电话的用户中,有211个是Siri(72个)、Google Assistant(57个在手机上,22个在智能扬声器上)或Alexa(60个)的日常用户。

在本文中,我们专注于我们的受访者对一个严重事件问题的答案:告诉我们你上次使用[你的智能助手]的情况。你想干什么?成功了吗?用户上传了一个自己回答这个问题的视频。除了回答实际问题之外,许多人提供了关于他们如何通常使用助理的评论。

任务类型

尽管代理人的奢侈描述为“巴特勒”或“最好的朋友”,但最常见的用户不使用智能助理来完成人类助理可以做的一切。相反,他们选择性地为其助手分配某些类型的任务。

人们报告的最常用的方法是简单的信息检索- 琐事,词含义或事实例如度量转换、体育统计和地理。下一个最常见的用途是检查天气并与人沟通(通过拨打电话,发短信或发送电子邮件)

图表显示了今天的助手完成的常见活动:信息检索40%,天气29%,通信29%,播放音乐或播客22%,方向19%,计时器或闹钟16%,提醒11%,物联网控制9%,建议目的地8%,新闻7%,日程安排5%,添加项目5%,电话控制4%,流量3%,游戏2%,购物1%,创意1%,交易1%
此图表显示报告每个特定活动的日常助理用户的百分比。(这些数字最有可能是下限,因为有些人可能没有提到他们所吸引的所有活动。)

助理的显着用途是用于智能家用电器或设备的语音控制 - 光开关,电视系统,恒温器或门锁,具有“物联网”连接。大约9%的用户报告了一个这样的活动(分类为IOT控制)

一些不那么常见的任务包括让食谱的想法(分类为想法),关闭手机上的应用程序或控制手机卷(分类为电话控制),玩游戏(尤其是和Alexa)。

人们给予(或不喜欢)他们的助手的原因支持可用性的重要性,也可以解释为什么许多用户尽管有目前的可用性限制,因此许多用户非常重视助理。这些原因范围从良好(或坏)的语音识别,良好(或坏)结果准确性和效率(与键入相比)。但到目前为止,最常提到的好处是能够免提(主要是在开车时)进行互动使用语音助理,共35%的每日用户注意到。这high value of hands-free operation suggests that there is currently a very low bar for how good a voice assistant needs to be: it doesn’t actually need good usability, it just has to be less unpleasant than getting a traffic ticket or having a car accident. (It’s highly doubtful whether the认知负荷由于当前的可用性差实际上降低了司机分心从而防止事故的发生。但是对于喜欢UI的人来说,他们相信这是安全的,即使它实际上是危险的。)

基本上,现在,人们只在最简单的任务中使用智能助手,大多数情况下是在手很忙的时候. 而且,他们经常重复这些任务,每天早上检查天气,或者一天使用几次音乐命令——这意味着这些简单的任务在他们与语音助手的总体互动(以及对语音助手的印象)中占很大比例。

对频繁任务的复杂性低

其他地方我们确定了智能代理的五个特征,该特点是这种新的交互式风格的承诺。它们是:语音输入,自然语言,语音输出,智能解释和代理。我们的可用性研究表明,今天的语音助手很远,无法在那些维度上做出体面的工作。

最常见的助手任务都使用语音输入,但它们在很大程度上绕过其他要求,因为它们仅包括一系列高度可预测的命令和步骤。

例如,当前的语音助理擅长告诉你当前位置的天气预报,这是大多数人每天都想查看的。然而,在这项任务上,即使是稍微不太可预测的变化,例如“秋天伦敦的天气如何”或“周五自由女神像的天气如何”在Siri和Echo上都失败了。(获取方向确实包括多个步骤和丰富的信息,但这项任务得益于几十年来在优化导航方面的投资。而且获取方向仍然相当有限:例如,今天的助手无法在给定的时间开始指引方向,也无法解释在拼车车道上开车的情况。)

任务所需的步骤数是语音助手如何成功完成它的主要决定因素。根据复杂性,可以分为四类任务:

  • 简单的动作需要一步或简单的动作完成。示例包括打开亮度,设置计时器。
  • MultiStep任务类似于网站或应用程序的交互流;他们需要经历几个阶段来完成一个过程。示例包括致电优步或放置电子商务订单(如果您已经知道要购买的内容)。
  • 多任务活动涉及使用若干活动和应用来实现目标。一个例子是为您未读的电子邮件的人创建一个电话号码列表。
  • 研究活动要求将多个信息源和分析选项放在一起。例如,根据一套标准找到一个城市的最佳酒店选择是一项研究活动。

人们大多要求他们的代理商只有一步做任务;我们的26%的参与者使用了具有多个步骤的任务的语音助手,但这些主要是越来越远。其他多步任务,或者更复杂的作业,结合了多项任务或需要开放式研究,罕见罕见。人们甚至没有尝试使用语音助手来满足这些需求。没有智能助理完成的研究活动没有报告。

图表显示了报告任务为单操作(86%)、多步骤(26%)、多任务(1%)或研究(0%)的用户百分比
图表显示了报告各种复杂性的助理相关任务的用户的百分比。大多数用户提到了单步任务;一些相关的更多复杂的多步任务,没有人报告我们最高复杂程度的任务。(由于一些用户报告了多种任务,数字总和为100%。)

任务所需的知识

智能助理的一个关键特征是他们推断用户目标和理解上下文的能力。这项活动需要了解世界以及对用户的了解。我们分析了我们参与者根据所需信息类型报告的任务。

列出执行需要不同类型信息的任务的用户的百分比:Web 64%,当前位置45%,无31%,联系人22%,音乐22%,其他个人数据11%,过去历史1%
图表显示了回忆需要各种类型信息的任务的用户的百分比。大多数任务涉及Web内容和一些基本的个人信息(例如当前位置和联系人)。

大多数任务涉及在网上自由提供的内容。完成任务所需的下一个最常见的信息是用户的当前位置;其他类型的个人信息(联系人,日历)也很重要。大约31%的任务根本不需要任何信息。只有1%的任务涉及更复杂的知识类型,例如用户与系统的先前交互(例如,检索停车位置,订购通常的洗衣洗涤剂或改变亚马逊订单)。

结论

智能助理的可用性挑战是真实的和普遍的。用户不受他们的影响 - 他们只是通过将其用来对一个子集来避免可用性痛苦简单的特征,最不受语言理解的影响,缺乏对复杂的个性化信息或缺乏真正智力的机会。

这与早期网络的状况非常相似:2000年成功率使用新网站的比例为61%,而2010年为78%。这是一个改善速度快与人类努力的其他领域相比。尽管如此,在2000年,人们在网络上尝试新事物时有39%的时间会失败。结果,用户把大部分时间花在了设计水平高于平均水平的熟悉网站上,在那里,他们获得成功的机会比在开放网络上冒险要高得多。在2000年,web整体上相当糟糕,但是web用户体验,正如每个用户实际体验到的那样,要好得多,因为在一个新站点上尝试的任何给定用户任务的百分比都非常低。低可用性导致人们停留在已知的地盘,很少流浪。

现在,能够使用设备“免提”的好处超过了可用性差的烦恼。即使是一个勉强可用的语音助手也可能比驾驶的同时拉过来更快,或者在手上洗掉食物以便使用触摸屏。但是,随着这些代理的发展,可用性将越来越多地成为竞争优势 - 特别是如果助手成为设备无关的(您已经在iPhone上使用Google Assistant)。如2007年在2007年被引入的iPhone所看到的那样,当给出选择时,人们将植入解决可用性问题的系统。

Mediocre但流行助手的一个大风险是他们塑造了人们的心理模型和期望。马上,人们正在认识到“聪明的”助手其实并不那么聪明,他们可能会将其未来的期望和使用基于这些形成性经验。如果助理确实更聪明,更有能力,这些用户体验可能会阻止人们甚至试图使用高级功能。