菜单 关闭

智能助理的悖论:可用性差,高收养

通过 凯瑟琳·怀特顿拉鲁卡布迪乌9月16日,二千零一十八

总结:Siri的频繁用户,Alexa谷歌助手报告说,他们尝试了一些低复杂度的任务,比如简单的事实检索,天气预报,导航,演奏音乐,设置计时器。


当我们最近测试了智能助理的可用性像西丽一样,Alexa还有谷歌助理,我们发现,与这些代理的互动存在问题,从对命令的不理解到语言输出的固有限制。

尽管有这些问题,语音助理越来越受欢迎。美国46%成人报告使用语音控制数字助理2017,根据皮尤研究中心。最近,我们让211名每日使用智能助理的用户回忆上一次与助理互动时的情景,最成功的经验,许多人对他们的助手有多伟大充满热情:

“我经常和谷歌助理交谈,我每天都用它,整天。我相信这是创造出来的最好的东西之一。我就是喜欢它,没有谷歌助手,我就活不下去了。”

“Siri绝对非常有用。我每天都用它做很多次。我一天大概用30次。我所做的一切基本上都是通过Siri完成的,我不能因此而高兴。”

“我爱我的亚历克萨。”

显然,我们观察到的可用性问题并不能阻止人们使用智能助手。为了了解用户如何在这些系统可用性较差的情况下做出如此积极的反应,我们研究了语音助理的高频用户以及他们通常在帮助下执行的任务。

智能助理的当前使用:用户研究

我们要求有兴趣参与智能助理研究的人回答一些关于他们使用此类接口的问题。在我们的464个用户中,211人每天都使用Siri(72人)。谷歌助理(57个在手机上,22个在智能扬声器上)或Alexa(60)。

在本文中,我们关注受访者对重大事件问题的回答:告诉我们您上次使用[智能助手]的情况。你想做什么?成功了吗?用户上传了自己回答这个问题的视频。除了回答实际问题,许多人对他们通常如何使用助理提出了其他意见。

任务类型

尽管代理被描述为“管家”或“最好的朋友”,但大多数频繁使用的用户并不使用智能助手来完成人类助手所能做的一切。相反,他们有选择地将某些类型的任务分配给助手。

这个人们报告的最常见用途是简单的信息检索。 -琐事,词义,或事实例如测量转换,体育统计,还有地理。接下来最常用的用法是检查天气和与人沟通(通过打电话,发短信,或发电子邮件.

显示与今天的助手一起完成的常见活动的图表:信息检索40%,天气29%,通信29%,播放音乐或播客22%,方向19%,计时器或警报16%,提醒11%,物联网控制9%,建议目标8%,新闻7%,调度5%,将项目添加到列表5%,电话控制4%,交通3%,第2%届奥运会,购物1%,想法1%,和交易1%
此图表显示报告每个特定活动的每日助理用户的百分比。(这些数字很可能是下限,因为有些人可能没有提到他们从事的所有活动。)

这些助手的一个显著用途是用于智能家用电器或设备的语音控制-灯光开关,电视系统,恒温器,或者用“物联网”连接的门锁。大约9%的用户报告了这样的活动(分类如下物联网控制.

一些不太常见的任务包括获得一个食谱的想法(分类为想法)关闭手机上的应用程序或控制手机音量(分类为电话控制)和玩游戏(特别是和亚历克萨)。

人们喜欢(或不喜欢)助手的原因都支持可用性的重要性,同时也解释了为什么许多用户如此看重助手,尽管当前存在可用性限制。这些原因包括好(或坏)的语音识别,结果准确度好(或差);效率(与打字相比)。但是到目前为止,人们最常提到的好处是无手互动(主要是开车时)。使用语音助手,有35%的日常用户注意到了这一点。免提操作的高价值表明,目前语音助手需要具备的良好性能标准非常低:它实际上不需要良好的可用性,它只需要比得到一张交通罚单或发生车祸更不令人不快。(很难确定认知负荷由于当前可用性差,实际降低了驾驶员分心从而防止事故发生。但是对于喜欢用户界面的人来说,足够他们相信很安全,即使真的很危险。)

基本上,马上,人们只为最简单的任务使用智能助手,大多数时候他们的手很忙.而且,他们经常重复这些任务,每天早上检查天气,或者一天使用几次音乐命令-这意味着这些简单的任务占他们与语音助手的整体交互(以及对语音助手的印象)的很大比例。

任务复杂度低

别处我们确定了智能代理的五个特征,它们对这种新的交互方式有希望。他们是:语音输入,自然语言,语音输出,智能解释,和代理。我们的可用性研究表明,如今的语音助理在这些方面还远远没有做好一份像样的工作。

最常见的助手任务都使用语音输入,但它们在很大程度上绕过了其他需求,因为它们只包含一系列高度可预测的命令和步骤。

例如,目前的语音助理擅长告诉您当前位置的天气预报,这是大多数人每天都想检查的。然而,在这项任务中,即使是稍微不那么可预测的变化,例如,“秋天伦敦的天气如何”或“星期五自由女神像的天气如何”在Siri和Echo上失败。(获取指示包括多个步骤和丰富的信息,但这项任务得益于几十年来对优化导航制导的现有投资。得到指示仍然相当困难:今天的助手不能,例如,在给定的时间开始指引方向,或考虑在拼车道上驾驶。)

任务所需的步骤数是语音助理成功完成任务的主要决定因素。根据复杂性,任务可以分为四类:

  • 简单动作需要一个步骤或简单的操作才能完成。例如,打开亮度,设置计时器。
  • 多步任务类似于网站或应用程序中的交互流;它们需要经过几个阶段才能完成一个过程。例如,拨打Uber或下电子商务订单(如果您已经知道要买什么)。
  • 多任务活动包括使用多个活动和应用程序来实现一个目标。一个例子是为那些你没有读过电子邮件的人创建一个电话号码列表。
  • 研究活动需要整合多个信息源并分析选项。例如,在一个城市中,根据一系列标准寻找最佳的酒店选择是一项研究活动。

人们大多要求他们的代理只需一步就可以完成任务;26%的参与者使用语音助手执行多个步骤的任务,但这主要是为了指路。其他多步任务,或者更复杂的工作,结合了几个任务或者需要开放式研究,非常罕见。人们甚至不想使用语音助手来满足这些需求。也没有关于一个聪明助手的研究活动的报告。

显示报告单操作任务的用户百分比的图表(86%),多步骤(26%),多任务(1%),或研究(0%)
图表显示了报告各种复杂性的与助手相关任务的用户的百分比。大多数用户提到了单步任务;一些相关的更复杂的多步任务,没有人报告我们最复杂的任务。(数字总和超过100%,因为有些用户报告了多种类型的任务。)

任务所需的知识

智能助理的一个关键特征是能够推断用户目标和理解上下文。这项活动需要了解世界和用户的知识。我们根据参与者需要的信息类型分析他们报告的任务。

图表列出执行需要不同类型信息的任务的用户百分比:web 64%,当前位置45%,没有31%个,联系人22%,音乐22%,其他个人数据11%,过去的历史1%
图表显示调用需要各种类型信息的任务的用户的百分比。大多数任务涉及Web内容和一些基本个人信息(如当前位置和联系人)。

大多数任务都涉及到网络上免费提供的内容。完成任务所需的下一个最常见的信息是用户的当前位置;其他类型的个人信息(联系人,日历)也很重要。大约31%的任务根本不需要任何信息。只有1%的任务涉及更复杂的知识类型,例如用户以前与系统的交互(例如,检索停车位,订购常用的洗衣粉,或者改变亚马逊的订单)。

结论

智能助理的可用性挑战是真实且普遍的。用户不会受到影响-他们只是通过将它们的使用限制在一个子集中来避免可用性的痛苦。语言理解能力差影响最小的简单特征,无法访问复杂的个性化信息,或者缺乏真正的智慧。

这与早期网络的状况有着密切的相似之处:2000年,这个成功率使用新网站的比例为61%,而在2010年,这是78%。这是一个快速改善率,与人类努力的其他领域相比。仍然,2000,在网上尝试新事物时,39%的人会失败。因此,用户大部分时间都花在设计高于平均水平的熟悉网站上,manbetx官方网站手机版在那里,他们会比在开放的网络上冒险获得更高的成功机会。整个网络在2000年相当糟糕,但是网络用户体验,正如每个用户实际经历的那样,好多了,因为在新站点上尝试的任何给定用户任务的百分比都非常低。低可用性导致人们停留在已知的地盘上,很少迷路。

马上,能够“免提”使用设备的好处大于易用性差的烦恼。即使是一个几乎不可用的语音助手也可能比开车时停车更快,或者用触摸屏洗掉手上的食物。但是,随着这些因素的发展,可用性将越来越成为一种竞争优势,尤其是当助手变得不可知设备时(你可以在iPhone上使用Google助手)。正如2007年iPhone推出时看到的那样,当有选择的时候,人们将蜂拥到解决可用性问题的系统中。

平庸而受欢迎的助理的一大风险是他们塑造了人们的思想模型以及期望。马上,人们知道“聪明的”助手实际上并不那么聪明。,他们可能会根据这些形成性的经验来确定他们未来的期望和使用。如果助理们变得更聪明、更有能力,这些以前的用户体验可能会阻止人们尝试使用高级功能。