用户体验基准测试是一种评估产品或服务用户体验的过程,通过使用指标来衡量其相对性能和有意义的标准。这些度量标准通常使用定量可用性测试、分析或调查来收集。
如果你愿意,可以考虑进行一项基准研究:
- 跟踪产品或服务的整体进度
- 将您的UX与早期版本,竞争对手,行业基准或利益相关者确定的目标进行比较
- 展示UX努力和您的工作的价值
在相关文章中,我们讨论当基准。在高水平上,标杆管理是一种评估产品整体性能的方法(因此,是一种类型总结评估)。因此,基准研究往往发生在一个设计周期的末尾,在下一个设计周期开始之前。
基准测试通常是一个程序,而不是一次性的活动:许多组织重复地收集度量标准,因为他们经历了设计的连续发布。标杆管理使团队有责任感,并以可衡量的方式记录进度。
过程概述
在本文中,我们为创建基准程序提供了一个高级七步过程。在第一次建立这个程序时,将有一些额外的工作要做,以弄清楚衡量和如何。但是,一旦确定了研究结构,该过程变得相当重复,并且涉及更少的工作。

第一步:选择要测量的东西
专注于最能反映您对评估感兴趣的用户体验质量的关键指标。寻找转化为UX和组织目标的指标。
也就是说,在确定要收集的指标之前,必须定义您的学习的上下文。换句话说,考虑:
- 你会关注什么产品?(网站、应用程序等)。
- 你的目标用户群是什么?
- 您想衡量哪些任务或功能?
任务
算出最佳任务用户在您的产品中完成的。如果您的组织没有现有的首要任务,您可以从记录产品中的(大多数)任务开始。然后,优先考虑从任务列表中选择大约5-10个对用户最重要的任务。
下表概述了多种可能的产品和任务场景。每个产品只包含一个任务,但在现实生活中,你可能会关注多个任务。
产品 |
可能的任务 |
智能扬声器应用程序 |
建立一个新的智能扬声器 |
电子商务网站 |
用1次点击购买购买 |
小山的网站 |
更新联系信息 |
B2B-Agency网站 |
提交领先形式 |
移动拼图游戏 |
解决一个拼图 |
以下列表概述了多个可能的产品和任务方案。每个产品只包含一个任务,但在现实生活中,你可能会关注多个任务。
智能扬声器应用程序
- 任务:建立一个新的智能扬声器
电子商务网站
- 任务:使用1点击购买购买
小山的网站
- 任务:更新联系信息
B2B-Agency网站
- 任务:提交引导表单
Mobile-puzzle游戏
- 任务:解决一个难题
指标
现在你已经专注于一组任务,你如何衡量它们呢?谷歌的HEART框架提供了您可能想要收集和跟踪的不同类型指标的简明概述。下表是心脏框架的适应:
描述 |
例子指标 |
|
H安心 |
用户态度或感知的措施 |
满意度评级 易用性评级 |
Engagement |
用户参与程度 |
任务的平均时间 功能使用 |
一个doption |
对产品、服务或特性的最初接受 |
新账户/访客 销售 兑换率 |
R恒星 |
现有用户如何返回,并在产品中保持活动状态 |
返回用户 搅动 更新率 |
T询问效果和效率 |
效率,有效性和错误 |
错误数 成功率 任务的时间 |
现在你已经专注于一组任务,你如何衡量它们呢?谷歌的HEART框架提供了您可能想要收集和跟踪的不同类型指标的简明概述。以下是心脏框架的适应性:
H适应性:用户态度或感知的衡量
- 公制示例:满意度评级,易用度等级,净推动者得分
E管理:用户参与的程度
- Metric示例:任务的平均时间,功能使用情况,转化率
一个doption:产品、服务或特性的初始接受
- Metric示例:新账户/访客,销售,转换率
R恒星:现有用户如何返回并在产品中保持活动状态
- 度量示例:返回用户、流失率、更新率
T提出有效性和效率:效率,有效性和错误
- 度量例子:错误率,成功率,任务时间
注意,作为敬业度度量,任务上的时间应该是高(例如,长时间花在报纸网站上的文章),而作为效率指标,任务的时间应manbetx官网手机登陆该是低(例如,快速签出电子商务网站)。换句话说,相同的变化(例如,更长的时间)可以是好或坏,这取决于所测量的使用类型。
选择为长途运输的指标,从理想情况下,您将在多年内重复收集这些指标。瞄准2-4个指标,专注于UX的不同方面(例如,幸福和参与)。
以下是我们可以跟踪前面示例中的任务的一些可能的指标。
产品 |
任务或功能 |
指标 |
智能扬声器应用程序 |
建立一个新的智能扬声器 |
任务的时间 成功率 单一简易问题(SEQ) |
电子商务网站 |
用1次点击购买购买 |
每周销售1点击 1点击功能采用 |
小山的网站 |
更新联系信息 |
完成率 页面错误 同一任务上的支持电话# |
B2B-Agency网站 |
提交领先形式 |
表格提交 放弃率 |
Mobile-puzzle游戏 |
解决一个拼图 |
成功率 返回用户 |
智能扬声器应用程序
- 任务:建立一个新的智能扬声器
- 度量标准:任务时间、成功率、单一简化问题(SEQ)
电子商务网站
- 任务:使用1点击购买购买
- 指标:每周销售单击1次点击,单击功能采用
小山的网站
- 任务:更新联系信息
- 指标:完成率,页面上的错误,同一任务上的支持调用的#
B2B-Agency网站
- 任务:提交引导表单
- 度量标准:表单提交,废弃率
Mobile-puzzle游戏
- 任务:解决一个难题
- 指标:成功率,返回的用户
对用户体验进行基准测试不仅仅是跟踪指标,它还涉及到展示价值。这样做更容易您选择与您的组织关键绩效指标(KPI)对齐的度量标准。例如,在客户支持成本是KPI的银行中,您可能能够通过跟踪重新设计前后的支持电话数量来减少重新设计的联系人表格。
第二步:决定如何测量
当涉及收集您的指标的方法时,您必须考虑时间承诺研究方法需要,成本这样的方法,技能涉及的研究人员,以及研究工具提供给你。如果你没有合适的技能,就不要去做什么,因为糟糕的数字比没有数字更糟糕。另外,不要指定一个过于昂贵而无法长期维持的度量计划(因为基准测试的整个理念就是一次又一次地重复度量)。
在开始计划新的研究之前,请参阅您组织围绕您想要衡量的经验的现有数据。为对体验提供全面了解并将您的UX指标连接到更大的组织目标可能是非常有价值的。从其他来源请求数据时,请务必解释为什么需要它以及将如何使用它。
有3种适用于用户体验基准测试的研究方法:定量可用性测试、分析和调查数据。
量化的可用性测试。参与者在系统中执行最重要的任务,研究人员收集度量指标(例如任务时间、成功率和满意度)来衡量用户在这些任务上的表现。
- 分析。系统使用数据(例如放弃速率和特征采用)会自动收集。
- 调查。用户回答问题以报告其行为,背景或意见。任务简易,满意度评级,净推动者得分是在调查中收集的所有指标。
理想情况下,您将使用行为,观测方法(定量可用性测试或分析)与行为,观测方法(定量可用性测试或分析)配对调查,以获得用户体验的整体视图。
在下文中,我们绘制了鉴于我们以前的场景的方法。
产品 |
任务或功能 |
指标 |
方法 |
智能扬声器应用程序 |
建立一个新的智能扬声器 |
任务的时间 成功率 单一简易问题(SEQ) |
通过调查进行定量的可用性测试 |
电子商务网站 |
用1次点击购买购买 |
销售 采用 净推荐值 |
分析 调查 |
小山的网站 |
更新联系信息 |
完成率 页面错误 同一任务上的支持电话# |
分析 内部客户支持数据 |
B2B-Agency网站 |
提交领先形式 |
表格提交 放弃率 |
分析 |
Mobile-puzzle游戏 |
解决一个拼图 |
平均时间 保留 |
分析 |
智能扬声器应用程序
- 任务:建立一个新的智能扬声器
- 度量标准:任务时间、成功率、单一简化问题(SEQ)
- 方法:用调查进行定量可用性测试
电子商务网站
- 任务:使用1点击购买购买
- 指标:每周销售单击1次点击,单击功能采用
- 方法:分析,调查
小山的网站
- 任务:更新联系信息
- 指标:完成率,页面上的错误,同一任务上的支持调用的#
- 方法论:分析,内部客户支持数据
B2B-Agency网站
- 任务:提交引导表单
- 度量标准:表单提交,废弃率
- 方法论:分析
Mobile-puzzle游戏
- 任务:解决一个难题
- 指标:成功率,返回的用户
- 方法论:分析
第3步:收集第一次测量:建立基线
既然你已经确定了哪些指标收集以及如何收集它们,是时候收集基准指标了。(但不是那么快 - 做一个试验研究首先收集数据的初始样本,并进行初步分析,以确保您的方法是可靠的,数据能够回答您的问题。最有可能的是,试点将使您修改您的方法,这意味着应该放弃初始数据集。但为了从随后更大的数据收集工作中获得可靠的结果,这是值得投资的。)
当您收集第一组测量时,考虑可能影响您数据的外部因素,并且在可能的情况下,计划围绕它。例如,如果您是使用分析的电子商务网站,以收集基准测试的销售指标,则为广泛的营销活动或大规模经济影响,可能会破坏您的指标并使其难以将设计变更与结果相关联。
对站点的一种测量本身不太可能有意义。即使您刚刚开始您的基准测试程序,并且您没有预先的数据来进行比较,您仍然可以进行比较竞争对手,一个行业基准,或利益相关者确定的目标。下面我们提供了每个的例子。
- 你的竞争对手。例如,如果你的产品是一个智能扬声器应用程序,你可以对建立你的产品和建立一个竞争产品的体验进行基准测试。(要做到这一点,你可能需要收集关于你的产品和竞争对手的产品的数据,所以前面的步骤必须考虑到这一点。也就是说,你不能使用分析作为你的方法论,因为你无法获得你竞争对手的分析。)
- 行业基准。您可以访问与您的领域有关的外部统计数据。例如,如果你是一个酒店网站,你可能想比较你的NPS和该行业平均净推广者得分(NPS)为13%。
- Stakeholder-determined目标。例如,您的利益相关者说,他们希望提交一个潜在客户表单的平均时间不超过3分钟,因此您可能希望将您当前的性能与该阈值进行比较。
正如您正在考虑如何解释这些比较的结果,考虑到第6步中描述的建议。
第4步:重新设计产品
重新设计过程超出了本文的范围,尽管它是一个非常重要的部分:如果没有重新设计,您将无法比较产品的多个版本。
当您重新设计产品时,请保持10个可用性启发用于交互设计。
第五步:收集额外的测量数据
重新设计启动后,再次衡量您的设计。在启动设计后等待在衡量设计后,没有艰巨和快速的规则。如果您正在跟踪分析,则增加了连续测量的益处。但是,对于基于任务的数据收集,如定量可用性测试和调查,您需要确定收集数据的正确时间。用户通常讨厌改变在测量它之前,所以给他们一些时间来适应重新设计。根据用户访问产品的频率如何,时间差异。对于每日访问的产品,可能2-3周是足够的时间。对于用户每周访问一次或两次的产品,在测量之前4-5周更好。
当您考虑衡量新设计的正确时间,再次记录可能影响您发现的任何潜在的外部影响因素。
第6步:解释结果
现在您已经收集了至少两个数据点,是时候解释您的发现了。您不应该只看表面价值,因为用于您的研究的样本可能比您的全部用户要小得多。出于这个原因,您需要使用统计方法来查看数据中是否有任何可见差异是真实的或由于随机噪声。在我们的课程中,如何解释UX号:UX的统计信息,我们非常详细地讨论这个话题。
一般来说,解释度量标准与您的产品和您选择收集的度量标准高度相关。例如,花费报告应用程序的任务时间与手机游戏的任务时间是不同的。在下面的文章中,我们将概述前面讨论的一个场景和对研究结果的解释。
场景:设置智能扬声器
假设我们使用定量可用性测试与调查相结合来收集任务时间、成功率和SEQ。下表列出了我们最初设计和重新设计的假设指标。
初步设计 |
重新设计 |
|
任务的平均时间(分钟) |
6.28 |
6.32 |
平均成功率 |
70% |
95% |
平均SEQ. (1非常困难 - 7很容易) |
5.4 |
6.2 |
总之,任务时间几乎相同,成功率增加,平均SEQ增加。让我们假设我们在这些指标对之间发现了统计上的显着差异。因此,在重新设计中,用户更成功并对设置过程满意。换句话说,重新设计是成功!
第7步:计算ROI(可选)
基准允许您跟踪您的成功并展示您的工作价值。一种方式展示用户体验的价值是将用户体验指标与组织的目标联系起来计算投资回报(ROI)。这些计算将用户体验度量与关键绩效指标(KPI)联系起来,如利润、成本、员工生产率或客户满意度。
计算投资回报率是非常有益的,尽管UX专业人员没有广泛练习(也许是因为与KPI相关的UX指标通常令人信服)。无论如何,如果您努力证明UX的影响,计算ROI可以说服。
提出基准测试结果
当您将分析包装并与利益相关者分享您的调查结果时,旨在讲述一个故事与数据。虽然你的领导团队中有些人喜欢数字,但这并不意味着你不能吸收一些定性的发现,或者引用一些与你的发现相一致的以前的研究——这是一个很好的方法,可以让你的用户在数据驱动的受众中产生共鸣。
此外,在向利益相关者展示时,一定要记录下你所有的假设和研究中可能出现的混淆变量。尽管您可能不必直接对它们进行评论,但将它们放在演示文稿的附录中可以表明您对产品环境有全面的理解,并且允许您在对度量的有效性产生任何疑问时轻松地引用它们。
结论
基准测试是一种很好的工具,可以将用户体验工作与组织的总体目标和结果联系起来。要进行基准研究,首先要关注产品中的重要任务或特性,并确定如何度量它们。接下来,在给定时间、预算和技能的情况下,选择一种可以让您收集这些指标的研究方法。收集您的第一次度量,重新设计您的产品,并在相同的方法下再次收集这些度量。最后,通过比较你收集的数据点来解释你的发现,并使用你的产品和组织知识来理解它。
然后,明年再次做到这一点!(或下一个版本之后。)希望您的数字会更好,如果没有,如果没有,您将知道在随后重新设计期间焦点的努力。
参考资料
K. Rodden,H. Hutchinson,X. Fu。“测量大规模的用户体验:用于Web应用程序的用户中心度量标准”(2010)。来源:https://research.google/pubs/pub36299/
分享这篇文章: