我们可以定义可用性在质量度量方面,如学习时间、使用效率、记忆性、用户错误和主观满意度。遗憾的是,很少有项目收集这样的度量标准,因为这样做是昂贵的:它需要4倍的用户作为简单的用户测试。

因为有些用户是必要的用户性能的实质性差异。当你衡量一个人的时候,你总会发现有些人非常快,有些人非常慢。考虑到这一点,您需要在相当多的观察中平均这些度量,以平滑变化。

Web可用性数据的标准偏差

从之前的分析中我们知道网站上的用户性能遵循正常分布。这是幸福的,因为正常的分布在统计上相当容易。通过只知道只有两个号码 -意思标准偏差-你可以画出代表你数据的钟形曲线。

我分析了来自广泛的网站和内联网的70个不同任务的1,520项用户任务时间表现。在这些研究中,标准偏差为平均值的52%价值观。例如,如果花费平均为10分钟才能完成某项任务,那么该度量标准的标准偏差将是5.2分钟。

去除异常值

要计算标准偏差,我首先删除了表示过度慢速用户的异常值。这是合理的吗?在某些方面,不:慢的用户是真实的,你应该在评估设计的质量时考虑它们。因此,即使我建议从统计分析中删除异常值,你不应该忘记它们。对异常值的测试课程进行定性分析,并找出了什么“运气不好”(即糟糕的设计)被联系起来拖累他们的表现。

然而,对于大多数统计分析,应该消除异常值。因为它们是随机发生的,所以在一个研究中可能会有更多的异常值,而这些少数的极端值会严重影响平均值和其他结论。

计算统计数据的唯一原因是将它们与其他统计数据进行比较。我假设的任务平均要花10分钟,这本身就没什么意义。10分钟是好还是坏?你不能把一个数字放在幻灯片上,然后单独欣赏它。

如果您要求用户订阅电子邮件时事通讯,则为10分钟的普通任务时间将非常糟糕。我们知道从对许多时事通讯订阅过程的研究其他网站上的平均任务时间是1分钟,如果少于2分钟,用户才会非常满意。另一方面,10分钟表示对更复杂的任务的非常高的可用性,例如申请抵押贷款。

关键是你要收集可用性指标来与其他可用性指标进行比较,比如将你的网站与竞争对手的网站进行比较,或者将你的新设计与旧设计进行比较。

当您从两个统计数据中消除异常值时,您仍然具有有效的比较。如果保持异常值,这两种情况下,这两种情况下的平均任务时间都会稍高。但是,如果没有异常值,你更有可能得出正确的结论,因为你的可能性不太可能高估了发生更多的异常值的平均值。

估计误差范围

当您从正常分布的平均观察结果,平均值的标准偏差(SD)是单个值的SD除以观察次数的平方根。例如,如果您有10个观察,则平均的SD为1 / SQRT(10)=原始SD的0.316倍。

我们知道,为了用户测试网站和内联网,SD为平均值的52%。换句话说,如果我们测试了10个用户,那么平均的SD将是平均值的16%,因为.316 x .52 = .16。

假设我们正在测试需要五分钟的任务。因此,平均的SD为300秒的16%= 48秒。对于正常分布,其中2/3的病例从平均值落在+/- 1 SD内。因此,我们的平均水平在5分钟的平均时间为2/3的48秒内。

以下图表显示了测试各种数量的用户的错误边际,假设您想要一个90%的置信区间(蓝色曲线)。这意味着90%的时间,你在间隔内击中,5%的时间你达到太低了,5%的时间达到了太高的时间。对于实用的Web项目,您真的不需要比这更准确的间隔。

红色曲线显示,如果我们放松我们的要求,以便为正确的一半。(意思是,我们达到了太低的1/4的时间和太高的1/4的时间。)

当测试不同数量的用户时,显示误差幅度的曲线。

确定要测试的用户数量

在图表中,误差的幅度是可用性度量的平均值的百分比。例如,如果您使用10个用户进行测试,误差范围是平均值的+/ 27%。这意味着,如果任务的平均时间是300秒(5分钟),那么您的误差范围是+/−81秒。置信区间从219秒增加到381秒90%的时间都在这个区间内;5%的时间低于219,5%的时间高于381。

这是一个相当宽敞的置信区间,这就是我通常推荐的原因用20个用户进行测试收集定量可用性指标时。有20个用户,您可能有1个异常值(自从6%的用户是异常值),这样就可以在平均值中包含19个用户的数据。这使得置信区间从243秒增加到357秒,因为测试19个用户的误差范围为+/ - 19%。

你可能会说,这仍然是一个很大的置信区间,但事实上,进一步收紧该区间的成本非常高。为了得到正负10%的误差,你需要71个用户的数据,所以你必须测试76个用户来解释5个可能的异常值。

测试76个用户完全是在浪费钱几乎所有实用发展项目。通过使用20个用户测试每个用户,您可以获得4种不同设计的良好数据,而不是在单一设计中仅吹稍好的指标。

在实践中,一个+/- 19%的置信区间是充足的对于大多数的目标。主要是比较两种设计,看哪一种测量效果最好。和网站之间的平均差异为68%- 远远超过错误的余量。

另外,记住+/ - 19%是最坏的情况;90%的情况下你会做得更好。红色的曲线表示一半的时间你将在+/- 8%的平均值内如果您使用20个用户测试并从19个分析数据。换句话说,一半的时间你得到了很高的准确性,另一半你得到了良好的准确性。这就是非学术项目所需的一切。

量化与定性

基于以上分析,我的建议是使用20个用户进行定量研究测试。这是非常昂贵,因为很难找到测试用户系统招聘实际上代表您的目标受众。

幸运的你不必衡量可用性来改进它。通常,这就足够了在少数用户中进行测试并在定性分析其行为的方向上修改设计。当你看到几个人被同一设计元素难以困扰的时候,你真的不需要知道多少用户被耽搁了。如果它伤害了用户,那就改变或删除它。

你通常可以对5个用户进行定性研究,所以定量研究的费用是定性研究的4倍。此外,它很容易获得量化的研究错误最后有误导性数据。收集号码而不是见解时,一切都必须完全正确,或者您可能也不做这项研究。

因为它们昂贵且难以实现,我通常会反对定量研究。你执行的前几个可用性研究应该是定性的。只有在您的组织后关于集成可用性的成熟进展进入设计生命周期,您是否必须在混合中开始包括几项量项研究,常规执行可用性研究。