UX基准测试是通过使用指标来评估产品或服务的用户体验的过程,以衡量其相对性能的针对有意义的标准。这些指标通常使用定量可用性测试,分析或调查来收集。

如果您愿意,请考虑进行基准研究:

  • T.rack the overall progress of a product or service
  • Compare your UX against an earlier version, a competitor, an industry benchmark, or a stakeholder-determined goal
  • 展示UX努力和您的工作的价值

在相关文章中,我们讨论什么时候到基准。在高水平,基准测试是一种评估产品整体性能的方法(因此,是一种类型summative evaluation)。因此,在下一个循环开始之前,在一个设计周期结束时往往会发生基准研究。

基准测试通常是一个程序而不是一次性活动:许多组织反复收集指标,因为他们通过连续的他们的设计版本。基准测试使团队保持责任和文件以可衡量的方式进展。

Process Overview

在本文中,我们为创建基准程序提供了一个高级七步过程。在第一次建立这个程序时,将有一些额外的工作要做,以弄清楚衡量和如何。但是,一旦确定了研究结构,该过程变得相当重复,并且涉及更少的工作。

基准测试您的产品的UX有7个步骤:选择要测量的内容,选择如何测量,收集第一次测量,重新设计产品,收集更多的测量,解释结果,计算ROI(可选)。
要进行端到端的UX基准测试,首先决定您要衡量的是什么以及将使用哪种研究方法来收集这些指标。接下来,收集第一个测量,重新设计产品,并收集额外的测量。然后,比较和解释您的发现,并可能计算ROI。完成初始端到端流程后,您的研究未来迭代(假设上下文保持不变)可以在步骤4开始(重新设计产品)。

第1步:选择衡量的内容

专注于最能反映您对评估感兴趣的用户体验质量的关键指标。寻找转化为UX和组织目标的指标

也就是说,在确定要收集的指标之前,必须定义您的学习的上下文。换句话说,考虑:

  • 你将专注于什么产品?(网站,应用等)
  • 您将瞄准哪个用户组?
  • 您想衡量哪些任务或功能?

任务

弄清楚了top tasks用户在产品中完成。如果您的组织没有现有的顶级任务,则可以通过产品中的文档(大多数)任务开始。然后,prioritize任务列表并选择大约5-10对您的用户最重要的。

下表概述了多个可能的产品和任务方案。它仅包括每个产品的一个任务,但在现实生活中,您可能会专注于多个任务。

产品

可能的任务

Smart-speaker app

建立一个新的智能扬声器

电子商务网站

Making a purchase with 1-click purchasing

移动银行网站

更新联系信息

B2B-agency website

提交领先形式

移动益智游戏

Solving one puzzle

以下列表概述了多个可能的产品和任务方案。它仅包括每个产品的一个任务,但在现实生活中,您可能会专注于多个任务。

Smart-speaker app

  • T.ask: setting up a new smart speaker

电子商务网站

  • 任务:使用1点击购买购买

移动银行网站

  • 任务:更新联系信息

B2B-agency website

  • 任务:提交领先形式

移动益智游戏

  • 任务:解决一个难题

指标

现在你已经专注于一套任务,你怎么能衡量它们?谷歌的心脏框架提供了一个简明概述不同类型的指标,您可能想要收集和跟踪。下表是心脏框架的适应:

描述

示例度量标准

H安心

用户态度或感知的措施

满意度评级

易用性评级

净推动者得分

E.n

用户参与水平

一种verage time on task

Feature usage

兑换率

一种Doption.

初步摄取产品,服务或功能

新账户/访客

销售

兑换率

R.etention

现有用户如何返回,并在产品中保持活动状态

R.eturning users

搅动

R.enewal rate

T.提出有效性和效率

E.fficiency, effectiveness, and errors

错误计数

Success rate

任务的时间

现在你已经专注于一套任务,你怎么能衡量它们?谷歌的心脏框架提供了一个简明概述不同类型的指标,您可能想要收集和跟踪。以下是心脏框架的适应:

H适应性:用户态度或感知的衡量

E.ngagement:用户参与水平

  • Metric示例:任务的平均时间,功能使用情况,兑换率

一种DOPTON:初步吸收产品,服务或功能

  • Metric示例:新账户/访客,销售,转换率

R.etention: how existing users return and remain active in the product

  • 度量标准示例:返回用户,流失,续订率

T.提出有效性和效率:效率,有效性和错误

  • 度量标准示例:错误计数,成功率,任务时间

请注意,作为参与度量,任务的时间应该是high(例如,长时间阅读新文章manbetx官网手机登陆spaper site), whereas as an efficiency metric, time on task should be(例如,快速签出电子商务网站)。换句话说,相同的变化(例如,更长的时间)可以是好或坏,取决于测量的使用类型。

选择为长途运输的指标,从理想情况下,您将在多年内重复收集这些指标。一种im for 2–4 metrics that focus on different aspects of your UX(例如,幸福和参与)。

Here are some possible metrics we may track for the tasks in our previous example.

产品

任务或功能

指标

Smart-speaker app

建立一个新的智能扬声器

任务的时间

Success rate

单一简易问题(SEQ)

电子商务网站

Making a purchase with 1-click purchasing

每周销售1点击

1单击“功能采用

移动银行网站

更新联系信息

完成率

页面错误

同一任务上的支持电话#

B2B-agency website

提交领先形式

Form submissions

放弃率

移动益智游戏

Solving one puzzle

成功率

R.eturning users

Smart-speaker app

  • T.ask: setting up a new smart speaker
  • 指标:任务时间,成功率,单一简易问题(SEQ)

电子商务网站

  • 任务:使用1点击购买购买
  • 指标:每周销售单击1次点击,单击功能采用

移动银行网站

  • 任务:更新联系信息
  • 指标:完成速率,页面错误,同一任务上的支持电话#

B2B-agency website

  • 任务:提交领先形式
  • 指标:表格提交,放弃率

移动益智游戏

  • 任务:解决一个难题
  • 指标:成功率,返回用户

基准测试用户体验不仅仅是关于跟踪指标,也是关于展示价值的。这何时更容易完成you select metrics that align to your organizations’ key performance indicators (KPIs)。例如,在客户支持成本是KPI的银行中,您可能能够通过跟踪重新设计前后的支持电话数量来减少重新设计的联系人表格。

第2步:决定如何衡量

当涉及收集您的指标的方法时,您必须考虑时间承诺研究方法需要,成本of such method,技能of the researchers involved, and the research工具适合您。如果您没有合适的技能,请不要做一些事情,因为不良数字比没有数字差。此外,不指定一个测量计划,其无法长期持续(因为基准测试的整个概念是一次又一次地重复测量)。

在开始计划新的研究之前,请参阅您组织围绕您想要衡量的经验的现有数据。It can be extremely valuable to gain a holistic understanding of the experience and connect your UX metrics to larger organization goals. When requesting data from other sources, be sure to explain why it’s needed and how it will be used.

T.here are3研究方法适用于UX基准测试:定量可用性测试,分析和调查数据

定量可用性测试。参与者在系统中执行最高任务,研究人员收集指标(例如在任务上的时间,成功率和满足时间),这些时间衡量用户对这些任务的性能。

  • 一种nalytics。System-usage data (such as abandonment rates and feature adoption) is automatically gathered.
  • 调查。用户回答问题以报告其行为,背景或意见。任务简易,满意度评级,净推动者得分是在调查中收集的所有指标。

Ideally, you’ll pair a survey (to get self-reported metrics) with a behavioral, observational method (quantitative usability testing or analytics) to get a holistic view of the user experience.

In the following, we’ve charted out methodologies given our previous scenarios.

产品

任务或功能

指标

方法

Smart-speaker app

建立一个新的智能扬声器

任务的时间

Success rate

单一简易问题(SEQ)

调查定量可用性测试

电子商务网站

Making a purchase with 1-click purchasing

销售

采用

净推动者得分

一种nalytics

调查

移动银行网站

更新联系信息

完成率

页面错误

同一任务上的支持电话#

一种nalytics

内部客户支持数据

B2B-agency website

提交领先形式

Form submissions

放弃率

一种nalytics

移动益智游戏

Solving one puzzle

平均时间花了

R.etention

一种nalytics

Smart-speaker app

  • T.ask: setting up a new smart speaker
  • 指标:任务时间,成功率,单一简易问题(SEQ)
  • 方法论:调查定量可用性测试

电子商务网站

  • 任务:使用1点击购买购买
  • 指标:每周销售单击1次点击,单击功能采用
  • 方法:analytics, survey

移动银行网站

  • 任务:更新联系信息
  • 指标:完成速率,页面错误,同一任务上的支持电话#
  • 方法:analytics, internal customer support data

B2B-agency website

  • 任务:提交领先形式
  • 指标:表格提交,放弃率
  • 方法:analytics

移动益智游戏

  • 任务:解决一个难题
  • 指标:成功率,返回用户
  • 方法:analytics

Step 3: Collect First Measurement: Establish Baseline

Now that you’ve determined which metrics to collect and how to collect them, it’s time to gather your baseline metrics. (But not so fast — do a试验研究首先要收集数据的初始数据并运行初步分析以确保您的方法是声音,并且数据可以回答您的问题。最有可能的是,飞行员将使您修改您的方法,这意味着应丢弃初始数据集。但这是值得的投资,以便从随后的数据收集工作中获得声音结果。)

一种s you gather your first set of measurements,consider external factors that may affect your data and, when possible, plan around it.例如,如果您是使用分析的电子商务网站,以收集基准测试的销售指标,则为广泛的营销活动或大规模经济影响,可能会破坏您的指标并使其难以将设计变更与结果相关联。

您网站的一个测量本身并不可能是有意义的。即使您刚刚启动了基准计划,并且您没有先前的数据来比较,您仍然可以进行比较竞争对手,一个行业基准,或利益相关者确定的目标。Below we provide examples of each.

  • 你的竞争对手。例如,如果您的产品是智能扬声器应用程序,则可以基准建立产品与设置竞争产品的体验。(To do so, you will likely have to collect data on your product and on competitors’ products, so the prior steps will have to take that into account. That said, you could not use analytics as your methodology, since you won’t have access to your competitor’s analytics.)
  • 工业基准。您可以访问与您的领域有关的外部统计信息。例如,如果您是酒店网站,您可能希望将您的NPS比较这个行业的平均净启动子评分(NPS),这是13%
  • 利益相关者确定的目标。例如,您的利益相关者表示,他们希望将铅形式提交3分钟的平均时间,因此您可能希望将您当前的性能进行比较到该阈值。

一种s you’re considering how to interpret the outcome of these comparisons, take into account the recommendations described in step 6.

Step 4: Redesign the Product

重新设计过程超出了本文的范围,尽管它是一个非常重要的部分:没有重新设计,但您将无法比较产品的多个版本。

一种s you redesign your product, keep10个可用性启发式考虑到互动设计。

第5步:收集额外的测量

一种fter your redesign is launched, measure your design again.T.here is no hard and fast rule on how long to wait after a design is launched to measure again.If you’re tracking analytics, there’s added benefit of continuous measurement. However, for task-based data collection, like quantitative usability testing and surveys, you’ll need to determine the right time to collect the data.用户经常讨厌变化在测量它之前,所以给他们一些时间来适应重新设计。T.he amount of time varies depending on how frequently users accesses your product. For products accessed daily, perhaps 2–3 weeks is enough time. For a product that users access once or twice a week, 4–5 weeks before you measure is better.

一种s you consider the right time to measure your new design, once again document any potential external influencers that may impact your findings.

第6步:解释结果

现在你已经收集了至少两个数据点,是时候解释了你的发现了。由于用于您的研究的样本可能比用户的整个人口小得多,因此您不应该以面值为您的指标。是因为,您需要使用统计方法来查看数据中是否有任何可见差异是真实的或由于随机噪声。在我们的课程中,如何解释UX号:UX的统计信息,我们非常详细地讨论这个话题。

一般而言,解释您的指标对您的产品具有高度语境和您选择收集的指标。例如,费用报告应用程序的任务时间与移动游戏的任务的时间不同。在下文中,我们概述了先前讨论的场景之一和对结果的解释。

Scenario: Setting up a Smart-speaker

假设我们使用与调查配对的定量可用性测试来收集任务,成功率和SEQ的时间。下表概述了我们的初始设计和重新设计的假设指标。

初步设计

重新设计

一种verage time on task (minutes)

6.28

6.32

平均成功率

70%

95%

一种verage SEQ

(1非常困难 - 7很容易)

5.4

6.2

In summary, time on task was nearly the same, success rate increased, and average SEQ increased. Let’s assume we found statistically significant differences between these pairs of metrics. Therefore, in the redesign, users were more successful and satisfied with the setup process. In other words, the redesign was a success!

Step 7: Calculate ROI (Optional)

Benchmarking allows you to track your success and demonstrate the value of your work. One way to展示UX的值是将UX指标连接到组织的目标和计算投资回报(ROI)这些计算将UX指标连接到关键性能指标(KPI),例如利润,成本,员工生产力或客户满意度。

计算投资回报率是非常有益的,尽管UX专业人员没有广泛练习(也许是因为与KPI相关的UX指标通常令人信服)。无论如何,如果您努力证明UX的影响,计算ROI可以说服。

Presenting Benchmarking Findings

一种s you wrap up your analysis and share your findings with stakeholders, aim to讲一个故事使用数据。Just because some members of your leadership love numbers doesn’t mean you can’t incorporate some qualitative findings or quotes from previous studies that align with your findings — this can be a great way to build empathy for your users among that data-driven audience.

此外,在提交利益相关者时,请务必记录您研究的所有假设和可能的混淆变量。虽然您可能不必直接对他们发表评论,但在演示文稿附录中将它们显示您对产品环境有一个整体的理解,并允许您轻松参考它,如果有任何问题,您应该出现测量的有效性。

Conclusion

基准是一个很棒的工具,可以将UX努力与整体组织目标和成果联系起来。要进行基准测试,请首先关注产品中的重要任务或功能,并确定您如何测量它们。接下来,选择一个研究方法,允许您鉴定您的时间,预算和技能,您可以收集这些指标。收集您的第一次测量,重新设计您的产品,并在相同的方法下再次收集这些指标。最后,通过比较收集的数据点并使用您的产品和组织知识来解释您的调查结果来解释您的产品和组织知识。

然后,明年再次做到这一点!(或下一个版本之后。)希望您的数字会更好,如果没有,如果没有,您将知道在随后重新设计期间焦点的努力。

参考资料

K. Rodden,H. Hutchinson,X. Fu。“测量大规模的用户体验:用于Web应用程序的用户中心度量标准“(2010)。资源:https://research.google/pubs/pub36299/