菜单 关闭

语音优先:互动的未来?

通过 凯瑟琳·怀特顿11月12日,二千零一十七

总结:包括屏幕的设备,但是,将语音作为主要的输入方法,可以为更完整和有用的整体用户体验指明方向。


基于语音和屏幕的交互正在融合,从两个方向:

  • 屏幕优先智能手机等设备,随着语音控制系统的增加,平板电脑和电视也得到了增强。
  • 语音优先像智能扬声器这样的设备正在通过屏幕进行增强,比如Echo秀(毫无疑问很快就会有其他品牌的类似产品)。

我们不应该期望言语完全取代书面交流,尽管有科幻小说中常见的人物。但很明显,标准的人机通信正在迅速扩展,包括书面和口头交互。目前,语音交互主要在个人和家庭使用领域。但随着人们习惯了,他们也会在商业和商业环境中期待它。(对于那些曾在会议室投影仪或电话系统菜单上挣扎过的人,想象一下,如果你能说“显示我的屏幕”或“开始会议”。)

真正集成的语音加屏幕系统可以将用户体验转化为大量任务,通过利用每种交互方式的优势:

  • 语音是一种高效输入方式:允许用户快速向系统发出命令,以他们自己的方式。免提控制允许用户多任务处理,有效的自然语言处理可以避免对复杂导航菜单的需求,至少对于熟悉的任务和已知的命令。
  • 屏幕是一种有效的输出方式:它允许系统同时显示大量信息,因此减少用户内存负担.视觉扫描比顺序信息访问由语音输出强制执行。它还可以有效地传递系统状态,并将执行湾通过提供视觉符号来建议可能的命令。

逻辑上,把它们组合成一个单一的系统听起来是一个明显的胜利。但是,集成两种非manbetx官方网站手机版常不同的交互模式的设计挑战迄今为止阻止了任何单个系统充分实现语音和屏幕的好处。

屏幕优先交互的限制

直到最近,将屏幕和语音控制结合在一起的大多数设备都是屏幕优先:智能手机的语音控制系统以语音代理的形式添加到现有的图形用户界面中,比如siri或者google助手。

这些屏幕第一系统展示了令人印象深刻的语音识别和语言处理,但是由于语音代理和触摸屏应用程序功能之间的基本划分,整个用户体验仍然严重分散。

缺少功能

太频繁了,语音代理只能启动任务的第一步,随后的任何步骤都要求用户转换到触摸交互风格。例如,Siri将执行网络搜索查询或打开Apple News应用程序以响应语音命令,但是用户必须点击屏幕来选择搜索结果或访问新闻报道。谷歌助手还需要屏幕输入来超越许多搜索的第一步。

Siri和Google助手的语音搜索结果示例
Siri和Google助手都执行语音命令来搜索菜谱,但随后要求用户触摸屏幕以选择结果并完成任务。

在“语音模式”中屏幕空间使用不当

即使对于那些支持多步语音输入的任务,Siri使用的屏幕设计与GUI版本完全manbetx官方网站手机版不同,并且经常不充分利用可用的屏幕空间。例如,Siri可以阅读短信并发送回复。但是当你大声读短信的时候,整个屏幕是黑色的,只显示消息发送者的姓名,而不是消息的实际内容。同样地,回复时,屏幕不会像在GUI消息应用程序中那样显示您正在响应的消息的文本。这种限制不必要地限制了用户可用的信息。事实上,语音模式应该能够显示更多的消息历史记录,因为不需要显示键盘。

以语音模式发送消息时,Siri显示的屏幕显示示例
当Siri大声朗读短信时(左)消息内容在屏幕上不可见;口述短信回复时(右)你看不到你要回复的信息。

缺失的负担

Siri的最低限度的语音代理屏幕也忽略了已仔细纳入图形用户界面的大部分视觉功能,就像让人们知道他们有能力在发送短信之前编辑它。(谷歌助手提供了更多的支持,在每个任务结果的正下方显示建议的命令,以及一个允许您重新访问以前任务的提要。)

仅语音交互

随着亚马逊回声(Amazon's Echo)和谷歌主页(Google Home)等智能扬声器的推出,语音交互的方式出现了根本不同。这些设备根本不提供可视显示,每天的使用依赖于音频的输入和输出(除了一些闪光灯)。由于在中等距离上语音识别精度有了很大的提高,智能扬声器可实现真正的免提操作,依次提高灵活性和效率即使对于已经拥有语音智能手机的用户来说,也足以让他们满意。

但是对于这些扬声器来说,缺少屏幕是一个巨大的限制。只有听觉信号可用于提示用户可能的命令,除了最简单的任务外,朗读输出变得单调乏味。烹饪时用语音命令设置计时器很好,但被迫问还有多少时间是没有的。获取天气预报对用户来说是一个记忆测试,他必须努力倾听和吸收一周来的一系列事实,而不是让他们从屏幕上一瞥。

语音优先交互

智能音箱的成功,加上纯语音输出令人沮丧的限制,现在产生了一个新产品:回声秀,它为基本的回声智能扬声器增加了一个显示屏。此屏幕显著扩展了原始回声的功能,使诸如检查天气和监视计时器之类的任务变得容易得多。但与第一款拥有完整图形用户界面(如亚马逊自己的Fire7平板电脑,以更低的价格)Echo Show远不能执行智能手机和平板电脑上长期可用的基本功能。例如,它还不能浏览网站,显示评论,或者显示亚马逊购物车的内容。

什么回声显示提供是一种基本上不同的互动方式,可以称为“语音优先”,几乎完全依赖于语音输入,与其把演讲放在次要位置,有限的模式。

语音优先交互指主要通过语音命令接受用户输入的系统,并且可以通过紧密集成的屏幕显示增强音频输出。

虽然技术上是触摸屏,Echo Show很少提供按钮或菜单。(不情愿地显示触摸键盘,允许您输入无线网络密码,但很快就走开了,再也见不到了。)不是鼓励用户点击或刷卡,回声显示通常显示建议的口头命令,如尝试“Alexa,向右滚动。

回声显示接口
只要可能,Echo Show鼓励用户坚持语音输入而不是触摸屏幕,通过建议口头命令尝试“Alexa,向右滚动 而不是像按钮这样的典型触摸屏符号。

从地面向上集成语音和屏幕输出

基本上,Voice First代表了将语音命令集成到现有图形用户界面的新方法。第一,图形用户界面被完全消除(如原始仅语音回音所示);然后重新引入一个屏幕,视觉信息逐渐融入到一个整体系统中。

人与个人设备之间的语音交互代表了一种全新的、根本不同的通信类型——类似于用户和设计师使用的外语。manbetx官方网站手机版就像外语最容易通过沉浸式学习一样,语音交互的发明和采用可能会被专门关注这种模式的环境大大增强。

在Echo Show的界面中,语音优先方法驱动的创新的一些有趣的例子已经很明显:

  • 搜索结果的顺序编号,这在早期的网络搜索中很常见,但在视觉列表中早已被视为不必要。在语音优先设备上,这些数字具有提供独特和高效的口头“手柄”的重要功能,使用户可以有效地选择物品。
  • 随机显示的建议命令,如尝试“Alexa,扮演艾尔.格林尝试“Alexa,你最喜欢的词是什么?”这项技术类似于两个SIRI使用的方法。(你可以问我的事情)和谷歌助理(探索)但不同的是,这些提示不仅在专门的教育领域展示,但是在主屏幕的底部,各种搜索结果屏幕,以及音乐播放器屏幕。(这种环境教育机制绝对可以吸引新用户自发地使用该设备。但是随机的内容意味着提示通常是无趣的,对有经验的用户来说很烦人,因为他们无法关闭。)
  • 沉浸式展示丰富,交互式内容,这在传统的网络和移动GUI上是正常的,但在以前的屏幕上不是第一个语音接口。例如,Echo展会上的配方结果包括显示成分的详细屏幕,的方向,以及一个演示视频-所有这些都可以通过语音命令访问。
Echo表演让人沉浸其中,响应语音命令的交互式富屏幕显示
作为语音优先系统,Echo Show不只是提供一个到GUI应用程序中配方的链接,但取而代之的是带有详细成分的语音导航沉浸式屏幕,的方向,以及演示视频。

语音优先是一个长期的解决方案吗?

消除传统的GUI元素(如菜单和按钮)可能是学习语音交互界面的必要踏脚石。但就像“移动第一”运动(产生了坏主意,喜欢隐藏全局导航即使使用大屏幕,语音优先的概念并不是万能药。

最终,故意以“纯”语音交互的名义限制屏幕的功能,不必要地限制了设备的实用性,增加了用户的认知负荷和挫败感。视觉显示本质上是一种让人们访问大量信息的更有效的方式,而不是仅用于音频输出。

例如,语音优先方法意味着,尽管它的名字,echo-show它实际上不会“显示”您所要求的任何内容:它不可能看到基本的设备信息,例如所有已安装应用程序的菜单,或者“技能”(亚马逊命名)。

Alexa目前拥有超过15000个技能库,其中许多只能通过说出技能的名称来访问。即使用户只有几十种技能,他们怎么可能希望能记住他们所安装的每项技能的确切名称?个性化建议和自然语言处理可以减少查询应用程序菜单的需要,但除非语音代理成为精神读者,他们不可能建议用户在任何特定时刻可能感兴趣的所有事情。

语音优先设计可以显著改善manbetx官方网站手机版语音交互,但从长远来看,为了语音优先交互而任意禁止视觉菜单,就像一只手背在背后打架一样。随着即将到来的整体的复杂性,智能语音和屏幕接口,万博官manbetx官方网站手机版网manbetx下载用户体验设计师需要他们能得到的所有工具。