在我们的量化可用性课程(测量UX和ROIUX的统计数据),我们通常推荐相当数量的参与者进行定量研究——通常超过30人。我们说再次再次在定性可用性测试中收集的指标通常是误导性,并且不会概括到一般人群。(可能存在例外,但您总是需要通过计算检查置信区间统计学意义).而且,几乎不可避免地,反驳回来了——没有Jakob Nielsen推荐5个用户的可用性研究?如果你因为统计原因需要更多用户,那么这就意味着5个用户所获得的结果是无效的,不是吗?

这个问题太频繁了,我们需要解决这个误解。

量化可用性研究:超过5个参与者

定量可用性研究通常是总结性本质上:他们的目标是衡量系统的可用性(站点、应用程序或其他产品),达到一个或多个数字。这些研究试图了解多好一个接口是用户通过查看各种指标:从一般人群有多少用户可以完成一个或多个任务,需要多长时间,多少错误,以及如何满足他们与他们的经验。它们通常包括为每个参与者收集值,将这些值聚集在汇总统计数据中,如平均值或成功率,计算这些聚集值的置信区间,并报告整个人群真实得分的可能范围。这样的研究结果可能表明,对于整个人群来说,top任务的成功率在75%到90%之间,95%的置信水平,任务时间在2.3到2.6分钟之间。这些范围(实际上是置信区间)应该相当窄,以便传达任何有趣的信息(知道成功率在5%至95%之间并不是很有帮助,不是吗?),而且通常只有当你包含大量参与者(40或更多)时,这些范围才会很窄。因此,建议计算收集所有指标的置信区间当研究仅包含一些用户时,不要依赖摘要统计信息。

定性可用性研究:5用户指南背后的假设

相比之下,定性的用户学习主要是造型的:他们的目标是找出设计中不可行的地方,修正它,然后推出一个新的、更好的版本。新版本通常也会进行测试、改进等等。虽然有可能有总总性目标的定性研究(让我们看看我们当前网站的所有错误!),但很多时候它们只是旨在完善现有的网站设计迭代.定性研究(即使是总结性研究)也不会试图预测有多少用户会完成一项任务,也不会试图计算出有多少人会遇到任何特定的可用性问题。它们是用来识别可用性问题的。

Jakob Nielsen的文章推荐用5个用户进行定性测试。这一建议背后有三个主要假设:

  1. 您正在尝试识别设计中的问题.根据定义,一个问题是用户在使用设计时体验的一些可用问题。
  2. 人们遇到的任何问题都是值得解决的。让一个这个假设的类比:如果一个人落入一个坑洞,你知道你需要修复它。您不需要100人才能落入它来决定它需要修复。
  3. 遇到问题的人的可能性是31%

基于这些假设,Jakob Nielsen和Tom Landauer建立了一个数学模型,表明,通过使用5名参与者进行定性测试,您将识别界面中的85%的问题。而Jakob Nielsen一再争辩(并且公正地),良好的投资是从5人开始,找到你的85%的问题,修复它们,然后再次测试另外5人,等等。不值得寻求在一次测试中找到所有问题因为你会花费太多时间和金钱,然后你肯定会在重新设计中介绍其他问题。

注意,在定量研究和定性研究中收集的“指标”是非常不同的:在定量研究中,你感兴趣的是你的一般人群在任务成功、错误、满意度和任务时间等度量上的表现.在定性研究中,你只是简单地计算可用性问题.而且,虽然存在从定量研究中获得的任何数量的统计不确定性(如何与我的研究中的平均值与一般人群的平均值相比),但是在定性研究中绝对没有不确定性——任何发现的错误都是需要解决的合法问题。

质疑5用户指南背后的假设

我给了你一个5用户指南所基于的假设列表。然而,你可能不同意(一些)他们。我认为对于第一个假设没有什么可争论的,但你可能会对第二个和第三个假设提出一些有效的反对意见。

有人遇到的任何错误需要修复吗?有人可能会说,如果每1000个人中有1000人掉进坑里,你就需要修理它,但如果每1000个人中只有一个人掉进坑里,你就不需要修理了。对于定性的可用性研究,您不能保证(仅基于研究)一个确定的问题可能会被更多的用户遇到,而不是碰巧出现在您的研究中的用户。因此,从这个意义上说,结果不能推广到所有人。

是的,如果你愿意,你可以进行定量研究来预测在一般人群中有多少人可能遇到特定的错误。然后,是的,你可以根据出错的可能性对错误进行优先排序,并以最高优先级修复错误。虽然这种方法肯定是非常合理的,但它也可能是非常浪费的——您将需要与相当多的用户一起测试您的设计,以确定其主要问题,然后修复它们,并引入另一个需要确定和优先级的问题。

相反,定性方法假设设计人员将使用其他一些手段优先考虑不同的问题-可能其中一些太贵了,无法修复,或者其他的功能,只有少数用户可能使用。定性用户测试只是给了你一个问题列表.研究人员工作是在不同问题中优先考虑并继续前进。

在界面中遇到问题的概率是31%吗?31%的数据是基于90年代早期几个项目的平均数据。从那时起,遇到问题的机会可能已经改变了。还有一种可能是,当您进行更多的设计迭代并修复越来越多的错误时,您的产品的可用性本质上更好了,事实上,遇到新问题也更困难了。

好消息是,在界面中遇到错误的几率只是Nielsen和Landauer模型中的一个参数。如果你知道你的界面很好,你可以简单地插入你想要的概率到那个模型中。用户数量由公式表示:

N = log (0.15)/log (1-L)

在哪里l是你在一个界面中遇到错误的估计概率,用小数表示(例如,31%被输入为。31)

例如,如果l是20%,你需要9个用户才能找到界面中85%的问题。如果l是10%,那么你需要18个用户。界面的可用性越高,您需要在测试中包含的用户就越多,以确定85%的可用性问题。

然而,您的真正目标不是找到特定比例的问题,而是最大化您的用户研究程序的业务价值.事实证明峰ROI对模型参数的变化非常不敏感。如果您首次测试可怕的设计,您的费用将很低(它将非常容易识别可用性问题),您的收益将很高(产品将非常有所改善)。相反,如果您正在研究难题,您的费用将更高,您的收益将降低。但是,这一点最大化收益与支出的比率(即ROI)通常仍然是5个测试用户左右,即使你的学习盈利性对于简单的学习来说更高而对于困难的学习来说更低。

总的来说,这是一个好主意从5个用户开始,修复您找到的错误,然后慢慢增加进一步迭代的用户数量如果你认为你取得了很大进展。但是,在实践中,您可以轻松了解您发现5个用户的知识。如果您觉得不多,通过各种方式,包括一些附加用户。相反,你可以使用少于5个用户进行测试在其他情况下,例如当您可以非常快速地进行下一次迭代时。但是如果您有足够的问题,您需要工作,请先修复这些,然后继续前进。

结论

定性用户测试的5用户指南和你的想法之间没有矛盾无法信任从小研究获得的指标,因为您在定性研究中没有收集指标。定量和定性用户研究有不同的目标

  • 定量研究旨在找到指标预测整个种群的行为;如果这些数字是基于较小的样本量,那么它们将是不精确的,因此也是无用的。
  • 定性研究旨在的见解:识别界面中的可用性问题。研究人员必须用判断而不是数字来确定这些问题的优先次序。(而且,强调一点:5人指南只适用于定性研究,不适用于定量研究。)

如果您的界面已经经历了许多轮次测试,您可能需要在定性测试中包含更多人,因为遇到问题的可能性可能小于模型的原始假设。尽管如此,它仍然是良好的做法,从5个用户开始,然后增加数量,如果有太少的重要发现。