菜单 关闭

如何进行启发式评估

通过 雅各布·尼尔森11月1日,一千九百九十四

总结:启发式评估包括让一小部分评估人员检查接口并判断其是否符合公认的可用性原则(“启发式”)。


启发式评价(尼尔森和莫里奇,1990;尼尔森1994)是可用性工程在用户界面设计中寻找可用性问题的方法,以便作为迭代设计过程的一部分来处理这些问题。manbetx官方网站手机版启发式评估包括让一小部分评估人员检查接口并判断其是否符合公认的可用性原则(“启发式”)。

一般来说,启发式评估对于一个人来说是困难的,因为一个人永远无法在一个界面中找到所有可用性问题。幸运的是,许多不同项目的经验表明,不同的人会发现不同的可用性问题。因此,通过多个评价者的参与,可以显著提高方法的有效性。图1显示了启发式评估的一个案例研究中的一个例子,其中19个评估者被用来在允许客户访问其银行账户的语音响应系统中发现16个可用性问题(Nielsen 1992)。图1中的每个黑色方块表示一个评估者发现了一个可用性问题。该图清楚地表明,不同评估者发现的可用性问题集合之间存在大量的不重叠。确实有些可用性问题很容易被发现,几乎每个人都能发现,但也有一些问题是很少有评估者发现的。此外,一个人不能仅仅确定最好的评价者,而仅仅依靠那个人的发现。第一,不一定是同一个人每次都是最好的评价者。第二,一些最难发现的可用性问题(由图1中最左边的列表示)是由评估人员发现的,这些评估人员在其他方面没有发现许多可用性问题。因此,在任何启发式评估中,有必要让多个评估人员参与(关于评估人员的最佳数量的讨论,请参见下文)。我的建议通常是使用三到五名评估员,因为使用较大的数字不会获得那么多额外的信息。

图1
说明在对银行系统进行启发式评估时,哪些评估人员发现了哪些可用性问题的图示。每一行代表19个评估者中的一个,每一列代表16个可用性问题中的一个。每一个方块显示由行表示的评估器是否找到了由列表示的可用性问题:如果是这样的话,方块是黑色的;如果评估器没有找到问题,方块是白色的。行的排序方式是:最成功的评估者位于底部,最不成功的评估者位于顶部。列的排序方式是:最容易发现的可用性问题在右边,最难发现的可用性问题在左边。
可用性问题发现矩阵

启发式评估是通过让每个独立的评估者单独检查接口来执行的。只有在所有的评估都完成之后,评估人员才可以进行沟通,并汇总他们的调查结果。这一程序对于确保每个评估人员进行独立、公正的评估很重要。评估结果可以记录为每个评估人员的书面报告,也可以在评估人员通过界面时让他们向观察员描述他们的意见。书面报告有提供正式评估记录的优势,但需要评估人员进行额外的努力,并且需要由评估经理阅读和汇总。使用观察员会增加每个评估会议的开销,但减少了评估人员的工作量。也,由于观察员只需理解和组织一套个人记录,因此在最后一次评价会议后不久即可获得评价结果,不是别人写的一套报告。此外,观察者可以协助评估者在出现问题时操作界面。比如一个不稳定的原型,如果评估人员的领域专业知识有限,并且需要解释接口的某些方面,请提供帮助。

在用户测试情况下,观察者(通常称为“实验者”)有责任解释用户的行为,以便推断这些行为如何与界面设计中的可用性问题相关。manbetx官方网站手机版这使得进行用户测试成为可能,即使用户对用户界面设计一无所知。manbetx官方网站手机版相反,分析用户界面的责任由评估人员在启发式评估会话中承担,因此,一个可能的观察者只需要记录评估者对接口的评论,但不需要解释评估者的行为。

启发式评估会话和传统用户测试之间的两个进一步区别是,观察者在会话期间愿意回答评估者提出的问题,以及评估者可以在多大程度上获得使用界面的提示。对于传统的用户测试,人们通常想发现用户在使用界面时所犯的错误;因此,实验者不愿意提供比绝对必要的更多的帮助。也,要求用户通过使用系统而不是让实验者回答问题来发现问题的答案。对于特定领域应用程序的启发式评估,拒绝回答评估者关于该领域的问题是不合理的,尤其是当非本地专家担任评估员时。相反地,回答评估者的问题将使他们能够更好地评估用户界面在领域特性方面的可用性。同样地,当评估人员在使用接口时遇到问题时,他们可以得到关于如何进行的提示,以避免浪费宝贵的评估时间与界面的机制作斗争。重要的是要注意,然而,在评估人员清楚地遇到了麻烦并对存在问题的可用性问题发表了评论之前,他们不应该得到帮助。

通常情况下,个别评估者的启发式评估会持续一到两个小时。对于具有大量对话要素的更大或非常复杂的接口,可能需要更长的评估会议,但最好将评估分成几个较小的会议,每个都集中在界面的一部分。

在评估会议期间,评估人员多次通过界面,检查各种对话元素,并将其与公认可用性原则清单(启发式)。这些启发式是似乎描述可用接口的公共属性的一般规则。除了为所有对话要素考虑的一般启发式检查表外,显然,评估人员也可以考虑任何其他的可用性原则或结果,这些原则或结果可能与任何特定的对话元素有关。此外,可以开发特定于类别的启发式方法,将其应用于特定类别的产品,作为一般启发式方法的补充。建立特定类别启发式的补充列表的一种方法是对给定类别中的现有产品进行竞争分析和用户测试,并尝试抽象原则来解释发现的可用性问题(Dykstra 1993)。

原则上,评估人员自己决定如何继续评估接口。一般的建议是,它们至少要经过两次接口,然而。第一个步骤旨在了解交互流和系统的一般范围。然后,第二个过程允许评估人员关注特定的接口元素,同时知道它们如何适应更大的整体。

因为评估者不是使用系统本身(执行真正的任务)可以对仅存在于纸上但尚未实现的用户界面执行启发式评估(Nielsen 1990)。这使得启发式评估适合在可用性工程生命周期的早期使用。

如果该系统是作为一般人群的一个引导和使用界面,或者评估人员是领域专家,可以让评估人员在没有进一步帮助的情况下使用该系统。如果系统依赖于领域,而评估人员对系统领域相当幼稚,有必要帮助评估人员使用界面。一种成功应用的方法是向评估者提供一个典型的用法脚本,列出用户执行实际任务的示例集所需的各种步骤。这样的场景应该建立在对实际用户及其工作的任务分析的基础上,以便尽可能代表系统的最终使用。

使用启发式评估方法的输出是界面中可用性问题的列表,并参考评估者认为设计在每种情况下都违反的可用性原则。manbetx官方网站手机版评价者仅仅说他们不喜欢某件事是不够的;他们应该解释为什么不喜欢启发式算法或者其他可用性结果。评估人员应尽可能具体,并分别列出每个可用性问题。例如,如果某个对话元素有三个问题,所有这三个都应该参考各种可用性原则列出,这些原则解释了为什么界面元素的每个特定方面都是可用性问题。有两个主要原因需要分别注意每个问题:第一,有可能重复对话要素的某些问题方面,即使要用新的设计完全取代它,manbetx官方网站手机版除非你知道它的所有问题。第二,可能无法修复界面元素中的所有可用性问题或用新设计替换它,manbetx官方网站手机版但如果所有的问题都知道的话,仍然有可能解决其中的一些问题。

启发式评估并不能提供一种系统化的方法来修复可用性问题,也不能提供一种评估任何重新设计的可能质量的方法。manbetx官方网站手机版然而,因为启发式评估的目的是根据既定的可用性原则解释每个观察到的可用性问题,根据违反的原则为良好的交互系统提供的指导方针,通常很容易生成修改后的设计。manbetx官方网站手机版也,许多可用性问题一经发现就有相当明显的修复。

例如,如果问题是用户无法将信息从一个窗口复制到另一个窗口,那么解决方案显然是包括这样一个复制特性。同样地,如果问题是使用不一致的大写/小写格式和字体,解决方案显然是为整个界面选择一种单一的排版格式。即使对于这些简单的例子,然而,设计器没manbetx官方网站手机版有帮助设计接口的确切更改的信息(例如,如何使用户能够制作副本,或者在哪种字体格式上进行标准化)。

扩展启发式评估方法以提供一些设计建议的一种可能性是在最后一次评估会话之后进行一次汇报会话。manbetx官方网站手机版听取汇报的参与者应包括评估人员,评估会议期间使用的任何观察员,以及设计团队的代表。manbetx官方网站手机版汇报会主要以头脑风暴的方式进行,重点讨论可能的重新设计,以解决设计的主要可用性问题和一般问题方面。manbetx官方网站手机版汇报也是讨论设计积极方面的好机会,manbetx官方网站手机版因为启发式评估并不能解决这个重要问题。

启发式评估明确地打算作为“折扣可用性工程”方法。独立研究(Jeffries等人1991)确实证实了启发式评估是一种非常有效的可用性工程方法。我的一个案例研究发现,启发式评估项目的效益成本比为48:使用该方法的成本约为10500美元,预期效益约为50万美元(尼尔森,1994年)。作为一种折价可用性工程方法,启发式评估并不能保证提供“完美”的结果,也不能保证在一个接口中找到每一个最后的可用性问题。

确定评估人员的数量

原则上,个别评估人员可以自己对用户界面进行启发式评估,但从多个项目的经验来看,当依赖单个评估者时,结果相当差。平均超过六个项目,单个评估人员在界面中只发现35%的可用性问题。然而,由于不同的评估者往往会发现不同的问题,通过将几个评估者的评估汇总在一起,可以大大提高绩效。图2显示了随着越来越多的评价者的加入而发现的可用性问题的比例。这一数字清楚地表明,使用多个评估器可以获得很好的回报。建议使用大约五名评估人员似乎是合理的,但至少有三个。评估人员的确切数量将取决于成本效益分析。很明显,在可用性非常关键的情况下,或者由于系统的广泛使用或关键任务的使用,预期会有巨大的回报时,应该使用更多的评估人员。

图2
曲线显示了使用不同数量的评价者通过启发式评价发现的界面中可用性问题的比例。曲线代表了六个启发式评估案例研究的平均值。
随着评估人员的增加,可用性问题的数量曲线

Nielsen和Landauer(1993)根据启发式评估中发现的可用性问题数量的以下预测公式提出了这种模型:

发现问题(= n(1 -(1-L))

在哪里?发现问题(指示通过聚合来自的报告发现的不同可用性问题数 独立评估人员,n指示界面中可用性问题的总数,L表示一个评价者发现的所有可用性问题的比例。在6个案例研究中(Nielsen和Landauer 1993年),价值观L范围从19%到51%,平均34%。价值观n范围从16到50,平均33。使用这个公式得到的曲线非常类似于图2所示的曲线,尽管曲线的确切形状会随着参数值的变化而变化nL,这也将随着项目的特点而变化。

为了确定评价者的最佳数量,一个需要启发式评估的成本效益模型。这种模型的第一个要素是使用该方法的成本核算,同时考虑固定成本和可变成本。固定成本是指无论使用多少评估人员都需要支付的成本;这包括计划评估的时间,准备好材料,并写出报告或以其他方式传达结果。可变成本是指每次使用一个额外评估者时产生的额外成本;其中包括该评估员的已加载工资、分析评估员报告的成本以及评估会议期间使用的任何计算机或其他资源的成本。根据几个项目的公布值,启发式评估的固定成本估计在3700美元到4800美元之间,每个评估者的可变成本估计在410美元到900美元之间。

实际的固定成本和可变成本在不同的项目之间会有明显的差异,并取决于每个公司的成本结构和所评估的接口的复杂性。举例来说,考虑一个示例项目,启发式评估的固定成本为4000美元,每个评估者的可变成本为600美元。在这个项目中,使用启发式评估的成本因此,评估人员4000美元600美元

启发式评估的好处主要在于发现可用性问题,尽管一些继续教育的好处可能会被实现到这样的程度:评估者通过比较自己的评估报告和其他评估者的评估报告来提高他们对可用性的理解。对于这个示例项目,假设每个可用性问题价值15000美元,使用Nielsen和Landauer(1993)从几项已发表的研究中得出的值。对于真正的项目,很明显,我们需要根据预期的用户群来估计发现可用性问题的价值。对于内部使用的软件,这个值可以根据用户生产力的预期增长来估计;对于要在公开市场上销售的软件,它可以根据由于更高的用户满意度或更好的评价而导致的预期销售额增长进行估计。请注意,真正的价值只来源于那些在软件发布之前就已经解决的可用性问题。因为不可能解决所有可用性问题,发现的每个问题的价值只是固定问题价值的一部分。

图3
曲线显示了使用本文中讨论的假设对样本项目进行启发式评估时,收益大于成本的次数。在这个例子中,评价者的最佳数量是四个,收益是成本的62倍。
随着评估人员的增加,效益成本比曲线

图3显示了样本项目中不同数量的评估人员的收益与成本的不同比率。曲线表明,本例中评价者的最佳数量为4个,确认一般的观察,启发式评估似乎最适合三到五个评估者。在这个例子中,一个包含四个评估者的启发式评估将花费6400美元,并且会发现价值395000美元的可用性问题。

工具书类

  • 戴克斯特拉d.J1993。启发式评估和可用性测试的比较:特定领域启发式检查表的有效性.博士学位diss.,工业工程系德州农工大学大学站,TX.
  • 杰弗里斯R.MillerJR.WhartonC.UyedaKM1991。现实世界中的用户界面评估:四种技术的比较。ACM Chi'91会议记录(新奥尔良,洛杉矶,4月28日-5月2日)119-124。
  • MolichR.NielsenJ(1990)。改善人机对话,ACM的通信 三十三,3(三月)33~34 8。
  • NielsenJ1990。纸与计算机实现作为启发式评估的模拟场景。PROCIFIP Interact90 Third国际混杂的人机交互(剑桥,英国8月27日-31日)315~320。
  • NielsenJ.LandauerTK1993。发现可用性问题的数学模型。会议记录ACM/IFIP Interchi'93会议(阿姆斯特丹,荷兰,四月24至29日)206—213。
  • NielsenJ.MolichR.(1990)。用户界面的启发式评估,PROCACM Chi'90会议(西雅图,瓦城四月1-5日)249~256。
  • NielsenJ1992。通过启发式评估发现可用性问题。ACM Chi'92会议记录(蒙特雷,CA5月3日至7日)73-380。
  • NielsenJ(1994)。启发式评价。在Nielsen,J.MackR.L.(EDS) 可用性检查方法.约翰威利父子公司纽约,纽约。