所需参与者的确切人数量化的可用性测试可能会有所不同。显然相互矛盾的建议(从20.30岁到40岁或以上)经常会让新的定量用户体验研究者感到困惑(事实上,多年来我们推荐了不同的数字。)

这些建议来自哪里你真正需要多少参与者?这是一个重要的问题。如果你用太少,您的结果可能不是统计上可靠.如果你测试太多,你基本上是在浪费你的钱。我们希望达到完美的平衡——收集足够多的数据点,对我们的结果有信心,但又不能太多,以免浪费宝贵的研究资金。

在大多数情况下,我们推荐40名学员为定量研究。如果你真的不关心这个数字背后的原因,你可以在这里停止阅读。如果你想知道这个数字来自哪里,什么时候使用不同的数字,以及为什么你可能会看到不同的推荐,请继续读下去。

由于这是一个常见的困惑,让我们澄清一下:有两种研究,定性和定量。Qual的目标是洞察力,而不是数字,统计显着性不会发挥作用。相比之下,量子确实专注于收集用户体验指标,所以我们需要确保这些数字是正确的。和关键点:这篇文章大约是QUALL,而不是QUAL. (定性研究只需要少量的用户,但这不是我们在这里讨论的。)

40-与会者指南的直觉:为什么需要40名参与者

当我们进行量化的可用性研究时,我们正在收集用户体验指标-代表用户体验的某些方面的数字。

例如,我们可能希望知道用户的百分比可以预订Expedia酒店房间,旅游预订网站。我们将无法询问每个Expedia用户试图预订酒店房间。相反,我们将经营一项学习,其中会提出我们的Expedia用户目标群体的子集进行预订。

例如,假设我们想知道能够在Expedia.com上成功预订酒店房间的用户比例。

然后,我们将计算有多少参与者能够完成这项任务,我们将使用这个百分比来估计我们人口的百分比。当然,我们从这项研究中得到的结果不会与我们的总体成功率完全相同(总会有一些测量误差),但我们希望它会足够接近。

当我们纳入研究的人数很少时,研究的百分比将不太可能预测整个人群的成功率——这个数字将只是太吵了。

作为另一个例子,你想在夏天期间弄清楚柏林的平均每日温度。您决定通过仅查找三个随机日温度来估计平均水平。这三天可能不会给你一个非常准确的数字,他们会吗?这是用于量化研究的小样本的问题。

在一个定量的可用性研究中,为了对总体用户的行为做出合理可信的预测,您需要大约40个数据点。这取决于你愿意承担多大的风险,以及你到底想要衡量什么。

40参与者建议来自计算.该计算估计了基于一项研究产生合理的人口行为预测所需的最小用户数量。它有特定的假设,但是将对许多量化可用性研究有效吗

如果你不关心统计数据,你可以在这里停止阅读(或者直接跳到结论).否则,如果你对这条建议背后的微妙之处感到好奇,请继续阅读。

40人参与指南的假设

从统计学的角度来看,40个参与者的指导方针来自一个非常具体的情况,可能适用于也可能不适用于您的特定情况。它假设你有一个相当大的用户群体(超过500人),并且以下是真实的:

  • 你需要基于对用户群体样本的研究来估计成功率或转换率等二元指标。
  • 你的目标是15%的误差幅度,也就是说,你想要你的真实的分数(例如,整个人群的成功率或转化率)应在观察得分(您从研究中获得的百分比)的15%以内。
  • 在这种预测中,您希望在这一预测中造成错误的风险(即,您将使用a置信水平95%的计算误差)。

如果以上都是真的,那么事实证明您可以计算您学习所需的参与者数量,它是39。我们将其四舍五入至40——因此有上述建议。(这些估计通常由少数参与者汇总。首先,四舍五入让数字更容易记住。其次,如果有一两个参与者出了问题,他们的数据必须被删除,稍微的过度招聘会有所帮助。例如,你可能会在研究中发现你不小心招募了一个不具代表性的用户或骗子。)

当你可能越来越少参与者

如果上述最后两个假设不成立,就可能需要更少的参与者。具体来说,如果你是:

  • 愿意让误差幅度大于15%
  • 愿意冒更大的风险

愿意误差幅度大于15%

误差幅度告诉你,你可以期望你的总体人口率随着观察到的分数变化多少。在任何时候收集度量时,都应该计算误差幅度(或等效的置信区间)。换句话说,如果在您的Expedia研究中,70%的研究参与者能够预订房间,而您的误差幅度为15%,这意味着您的总体完成率(真实分数)为70%±15%——也就是说,可能在55%到85%之间。

如果研究中的成功率为70%,误差范围为15%,那么整个人群的成功率可以在55%(70%-15%)到85%(70%+15%)之间;该范围表示95%的置信区间。

如果研究中的成功率为70%,误差范围为15%,那么整个人群的成功率可以在55%(70%-15%)到85%(70%+15%)之间;该范围表示95%的置信区间。

这个范围是30%它代表你估计的准确度;然而,在某些情况下,你可能并不关心它是否更宽,你的误差幅度是否更大(例如,如果你想说大多数人都可以使用你的UI的某个特性)。我们不建议误差幅度大于20%,因为你的真实分数的置信区间会非常宽,不太可能有用。

愿意冒更大的风险

95%的置信水平意味着你的误差幅度计算只有5%的时间是错误的。这是发表学术研究的黄金标准。然而,大多数用户体验研究人员从事的是应用研究,而不是学术研究。为了实际的目的,你可能愿意冒更大的风险。

(Taking more risk is cheaper and is a good idea if the risks of a somewhat unreliable result won’t be catastrophic. However, bear in mind that UX teams often use quantitative usability testing to inform prioritization and resource allocation, so unreliable data may be quite problematic.)

如果你愿意把信心降到90%,那么a15%的误差幅度需要28个用户A.20%的误差幅度将需要15个用户.同样,您可以考虑以多种原因舍入这些原因(例如,当您清理数据时,必须最终删除您的一些试验)。这是您可能在其他地方遇到的30用户指南的起源 -该建议接受了更多的风险。

涉及二进制指标的研究的参与者人数(成功、转换)

置信水平

所需的错误边缘

需要数量的参与者

低风险,高精度

95%

15%

39

风险低,精度高

95%

20%

21

中等风险,良好的精度

90%

15%

28

中等风险,相当精确

90%

20%

15

此表显示了不同置信水平所需的参与者数量以及二进制度量的期望误差范围。置信水平越低,研究的风险越大。误差幅度越大,精度越低,数字的用处就越小。

如果您的指标是连续的,该怎么办?

如果您的指标是连续的或可以被视为连续的(例如,任务时间、满意度或其他类型的评分,SUS得分),参与者人数的公式将取决于额外因素:目标人口的可变性。(就像二进制指标一样,在所需的误差边缘和使用的置信水平上也取决于二进制指标)。这是您通过运营试点研究,您可以为您的人口分开估计。

当然,估计标准差的试点研究是非常昂贵的,它本身将涉及相当大的参与者。另一方面,在大多数定量可用性研究中,有几个指标涉及,通常至少其中一个是二进制。因此,我们建议使用该二进制度量作为决定用户数量的约束。换句话说,如果您正在收集成功,任务时间和满意度,那么您可以简单地说,我希望成功的成功幅度为90%或95%的置信水平(并分别招募30或40名用户)。这通常会为所涉及的其他指标带来良好的误差幅度。

但是,如果您只收集连续的度量(这是不寻常的),并且您无法估计总体的标准偏差,那么您必须首先确定您的误差幅度的期望值。当然,您期望的值将取决于您正在测量的内容和任务的范围。我们通常建议使用平均值的15%或20%——换句话说,如果你的任务时间大约是1分钟,你希望误差幅度不大于0.15-0.20分钟(9到12秒);如果你的任务时间在10分钟左右,你的误差幅度应该不超过1.5-2分钟。

接下来,你可以使用Jakob Nielsen对网站和内部网相关连续指标可变性的估计.,估计是平均值的52%.换句话说,如果平均任务时间是1分钟,那么估计的标准偏差是0.52 x 1分钟= 0.52分钟。如果平均任务时间是10分钟,那么估计的标准偏差将是0.52 x 10分钟= 5.2分钟。补充假设,需要47用户15%的误差在95%置信水平,33个用户15%的误差在90%置信水平,26日用户20%的误差在95%置信水平和19个用户20%的误差在90%置信水平。(请注意,1分钟的15%误差等于0.15分钟,也就是9秒。)

仅涉及连续指标(满意度、任务时间)的研究参与者人数

置信水平

期望误差幅度(与平均值的百分比)

需要数量的参与者

风险低,精度高

95%

15%

47

风险低,精度高

95%

20%

26

风险中等,精确度高

90%

15%

33

中等风险,相当精确

90%

20%

19

此表显示了涉及持续指标(如任务时间或满意度)的研究所需的参与者人数。不同数量的参与者适用于不同的置信水平和期望的误差幅度。

一般情况下,用户数量可通过以下公式确定:

N等于k方乘以s方除以m方。

该公式中的变量为:

  • K是一个常数(1.96,95%置信水平或90%置信水平的1.645)
  • 年代你的标准差是均值的比例吗
  • 是您所需的误差幅度,也表示为平均值的比例(0.15,对应于15%或0.20对应20%)

如果您估计您的标准偏差为52%(或0.52)的平均值,则可以使用以下公式:

n是k个平方时间0.27除以m平方

结论

尽管在定量可用性测试中有许多不同的样本大小建议,但它们都是一致的——它们只是做出了稍微不同的假设。我们认为40用户指南是最简单的,并且最有可能带来好的结果-即相对较小的误差幅度和较高的置信度。

但是,如果您想花费稍大的风险,您可能会满足于较少数量的用户(大约30次)您的发现不代表您的用户人口的行为,从而将您的置信水平降至90%。此外,如果您还具有更大的错误边际容忍度,则可以删除用户数量20甚至更少,但这通常是很多风险。

可接受的策略(特别是如果您处于紧张的预算,并且大多对任务时间和满意度等持续指标最感兴趣)是从您舒适地舒适的用户开始,所以20-25[RB3]用户。一旦你从这些用户那里收集了你的数据,计算你的误差范围,并确定它们是否足够紧密以满足你的需要。如果它们太宽,那么考虑增加更多的用户。然而,这种方法要求您快速工作:您需要在几天内完成分析,以便能够在第一批之后很快运行额外的参与者。否则,你就有可能影响你研究的有效性。

为您的情况选择正确的示例大小,以确保您将优化您的定量研究:收集足够的数据,但不是太多。

要了解如何正确分析和解释您的定量数据,请查看我们的全天研讨会,如何解释用户体验数字:用户体验统计。

参考

杰夫·索罗,詹姆斯·刘易斯,2016。量化用户体验:用户研究的实用统计数据.爱思唯尔。