菜单 Close

如何进行启发式评估

by Jakob Nielsenon 11月1日,一千九百九十四

Summary:启发式评估包括让一小部分评估人员检查接口并判断其是否符合公认的可用性原则(“启发式”)。


启发式评价(尼尔森和莫里奇,1990;Nielsen 1994) is a可用性工程在用户界面设计中寻找可用性问题的方法,以便作为迭代设计过程的一部分来处理这些问题。manbetx官方网站手机版启发式评估包括让一小部分评估人员检查接口并判断其是否符合公认的可用性原则(“启发式”)。

一般来说,启发式评估对于一个人来说是困难的,因为一个人永远无法在一个界面中找到所有可用性问题。幸运的是,许多不同项目的经验表明,不同的人会发现不同的可用性问题。因此,通过多个评价者的参与,可以显著提高该方法的有效性。Figure 1 shows an example from a case study of heuristic evaluation where 19 evaluators were used to find 16 usability problems in a voice response system allowing customers access to their bank accounts (Nielsen 1992).图1中的每个黑色方块表示一个评估者发现了一个可用性问题。该图清楚地表明,不同评估者发现的可用性问题集合之间存在大量的不重叠。确实有些可用性问题很容易被发现,几乎每个人都能发现,但也有一些问题是很少有评估者发现的。此外,一个人不能仅仅确定最好的评价者,而仅仅依靠那个人的发现。第一,it is not necessarily true that the same person will be the best evaluator every time.第二,一些最难发现的可用性问题(由图1中最左边的列表示)是由评估人员发现的,这些评估人员在其他方面没有发现许多可用性问题。因此,在任何启发式评估中,有必要让多个评估人员参与(关于评估人员的最佳数量的讨论,请参见下文)。My recommendation is normally to use three to five evaluators since one does not gain that much additional information by using larger numbers.

图1
说明在对银行系统进行启发式评估时,哪些评估人员发现了哪些可用性问题的图示。每一行代表19个评估者中的一个,每一列代表16个可用性问题中的一个。Each square shows whether the evaluator represented by the row found the usability problem represented by the column: The square is black if this is the case and white if the evaluator did not find the problem.行的排序方式是:最成功的评估者位于底部,最不成功的评估者位于顶部。The columns have been sorted in such a way that the usability problems that are the easiest to find are to the right and the usability problems that are the most difficult to find are to the left.
可用性问题发现矩阵

启发式评估是通过让每个独立的评估者单独检查接口来执行的。Only after all evaluations have been completed are the evaluators allowed to communicate and have their findings aggregated.这一程序对于确保每个评估人员进行独立、公正的评估很重要。The results of the evaluation can be recorded either as written reports from each evaluator or by having the evaluators verbalize their comments to an observer as they go through the interface.书面报告有提供正式评估记录的优势,but require an additional effort by the evaluators and the need to be read and aggregated by an evaluation manager.使用观察员会增加每个评估会议的开销,但减少了评估人员的工作量。Also,由于观察员只需理解和组织一套个人记录,因此在最后一次评价会议后不久即可获得评价结果,not a set of reports written by others.此外,观察者可以协助评估者在出现问题时操作界面。比如一个不稳定的原型,如果评估人员的领域专业知识有限,并且需要解释接口的某些方面,请提供帮助。

在用户测试情况下,the observer (normally called the "experimenter") has the responsibility of interpreting the user's actions in order to infer how these actions are related to the usability issues in the manbetx官方网站手机版design of the interface.这使得进行用户测试成为可能,即使用户对用户界面设计一无所知。manbetx官方网站手机版相反,分析用户界面的责任由评估人员在启发式评估会话中承担,因此,一个可能的观察者只需要记录评估者对接口的评论,但不需要解释评估者的行为。

启发式评估会话和传统用户测试之间的两个进一步区别是,观察者在会话期间愿意回答评估者提出的问题,以及评估者可以在多大程度上获得使用界面的提示。对于传统的用户测试,人们通常想发现用户在使用界面时所犯的错误;因此,实验者不愿意提供比绝对必要的更多的帮助。Also,要求用户通过使用系统而不是让实验者回答问题来发现问题的答案。For the heuristic evaluation of a domain-specific application,拒绝回答评估者关于该领域的问题是不合理的,尤其是当非本地专家担任评估员时。相反地,answering the evaluators' questions will enable them to better assess the usability of the user interface with respect to the characteristics of the domain.同样地,当评估人员在使用接口时遇到问题时,他们可以得到关于如何进行的提示,以避免浪费宝贵的评估时间与界面的机制作斗争。It is important to note,然而,在评估人员清楚地遇到了麻烦并且对存在问题的可用性问题发表了评论之前,他们不应该得到帮助。

通常情况下,个别评估者的启发式评估会持续一到两个小时。对于具有大量对话要素的更大或非常复杂的接口,可能需要更长的评价会议,但最好将评估分成几个较小的会议,每个都集中在界面的一部分。

During the evaluation session,评估人员多次通过界面,检查各种对话元素,并将其与公认可用性原则清单(启发式)。这些启发式是似乎描述可用接口的公共属性的一般规则。In addition to the checklist of general heuristics to be considered for all dialogue elements,显然,评估人员也可以考虑任何其他的可用性原则或结果,这些原则或结果可能与任何特定的对话元素有关。此外,可以开发特定于类别的启发式方法,将其应用于特定类别的产品,作为一般启发式方法的补充。建立特定类别启发式的补充列表的一种方法是对给定类别中的现有产品进行竞争分析和用户测试,并尝试抽象原则来解释发现的可用性问题(Dykstra 1993)。

原则上,评估人员自己决定如何继续评估接口。一般的建议是,它们至少要经过两次接口,然而。第一个步骤旨在了解交互流和系统的一般范围。然后,第二个过程允许评估人员关注特定的接口元素,同时知道它们如何适应更大的整体。

因为评估者不是使用系统本身(执行真正的任务)可以对仅存在于纸上但尚未实现的用户界面执行启发式评估(Nielsen 1990)。这使得启发式评估适合在可用性工程生命周期的早期使用。

如果该系统是作为一般人群的一个引导和使用界面,或者评估人员是领域专家,可以让评估人员在没有进一步帮助的情况下使用该系统。If the system is domain-dependent and the evaluators are fairly naive with respect to the domain of the system,有必要帮助评估人员使用界面。One approach that has been applied successfully is to supply the evaluators with a typical usagescenario,列出用户执行实际任务的示例集所需的各种步骤。这样的场景应该建立在对实际用户及其工作的任务分析的基础上,以便尽可能代表系统的最终使用。

使用启发式评估方法的输出是界面中可用性问题的列表,并参考评估者认为设计在每种情况下都违反的可用性原则。manbetx官方网站手机版评价者仅仅说他们不喜欢某件事是不够的;他们应该解释为什么不喜欢启发式算法或者其他可用性结果。评估人员应尽可能具体,并分别列出每个可用性问题。例如,如果某个对话元素有三个问题,所有这三个都应该参考各种可用性原则列出,这些原则解释了为什么界面元素的每个特定方面都是可用性问题。There are two main reasons to note each problem separately: First,有可能重复对话要素的某些问题方面,即使要用新的设计完全取代它,manbetx官方网站手机版除非你知道它的所有问题。第二,可能无法修复界面元素中的所有可用性问题或用新设计替换它,manbetx官方网站手机版但是,如果所有的问题都知道的话,仍然有可能解决其中的一些问题。

启发式评估并不能提供一种系统化的方法来修复可用性问题,也不能提供一种评估任何重新设计的可能质量的方法。manbetx官方网站手机版然而,because heuristic evaluation aims at explaining each observed usability problem with reference to established usability principles,根据违反的原则为良好的交互系统提供的指导方针,通常很容易生成修改后的设计。manbetx官方网站手机版Also,许多可用性问题一经发现就有相当明显的修复。

例如,如果问题是用户无法将信息从一个窗口复制到另一个窗口,那么解决方案显然是包括这样一个复制特性。同样地,如果问题是使用不一致的大写/小写格式和字体,解决方案显然是为整个界面选择一种单一的排版格式。Even for these simple examples,然而,设计器没manbetx官方网站手机版有帮助设计接口的确切更改的信息(例如,how to enable the user to make the copies or on which of the two font formats to standardize).

One possibility for extending the heuristic evaluation method to provide some manbetx官方网站手机版design advice is to conduct a debriefing session after the last evaluation session.听取汇报的参与者应包括评估人员,评估会议期间使用的任何观察员,and representatives of the manbetx官方网站手机版design team.汇报会主要以头脑风暴的方式进行,重点讨论可能的重新设计,以解决设计的主要可用性问题和一般问题方面。manbetx官方网站手机版A debriefing is also a good opportunity for discussing the positive aspects of the manbetx官方网站手机版design,since heuristic evaluation does not otherwise address this important issue.

启发式评估明确地打算作为"discount usability engineering"方法。独立研究(Jeffries等人1991)确实证实了启发式评估是一种非常有效的可用性工程方法。我的一个案例研究发现,启发式评估项目的效益成本比为48:使用该方法的成本约为10500美元,预期效益约为50万美元(尼尔森,1994年)。作为一种折价可用性工程方法,heuristic evaluation is not guaranteed to provide "perfect" results or to find every last usability problem in an interface.

确定评估人员的数量

原则上,individual evaluators can perform a heuristic evaluation of a user interface on their own,但多个项目的经验表明,当依赖于单个评估者时,结果相当差。平均超过六个项目,单个评估人员在界面中只发现35%的可用性问题。然而,由于不同的评估者往往会发现不同的问题,通过将几个评估者的评估汇总在一起,可以大大提高绩效。Figure 2 shows the proportion of usability problems found as more and more evaluators are added.这一数字清楚地表明,使用多个评估器可以获得很好的回报。It would seem reasonable to recommend the use of about five evaluators,但至少有三个。评估人员的确切数量将取决于成本效益分析。很明显,在可用性非常关键的情况下,或者由于系统的广泛使用或关键任务的使用,预期会有巨大的回报时,应该使用更多的评估人员。

图2
曲线显示了使用不同数量的评价者通过启发式评价发现的界面中可用性问题的比例。曲线代表了六个启发式评估案例研究的平均值。
随着评估人员的增加,可用性问题的数量曲线

Nielsen和Landauer(1993)根据启发式评估中发现的可用性问题数量的以下预测公式提出了这种模型:

发现问题(= n(1 -(1-L)) )

在哪里?发现问题()指示通过聚合来自的报告发现的不同可用性问题数 独立评估人员,N指示界面中可用性问题的总数,L表示一个评价者发现的所有可用性问题的比例。在6个案例研究中(Nielsen和Landauer 1993年),价值观L范围从19%到51%,平均34%。The values ofN范围从16到50,平均33。使用这个公式得到的曲线非常类似于图2所示的曲线,尽管曲线的确切形状会随着参数值的变化而变化NL,这也将随着项目的特点而变化。

为了确定评价者的最佳数量,一个需要启发式评估的成本效益模型。该模型的第一个要素是使用该方法的成本核算,同时考虑固定成本和可变成本。固定成本是指无论使用多少评估人员都需要支付的成本;这包括计划评估的时间,准备好材料,and write up the report or otherwise communicate the results.可变成本是指每次使用一个额外评估者时产生的额外成本;其中包括该评估员的已加载工资、分析评估员报告的成本以及评估会议期间使用的任何计算机或其他资源的成本。根据几个项目的公布值,启发式评估的固定成本估计在3700美元到4800美元之间,每个评估者的可变成本估计在410美元到900美元之间。

实际的固定成本和可变成本在不同的项目之间会有明显的差异,并取决于每个公司的成本结构和所评估接口的复杂性。For illustration,考虑一个示例项目,启发式评估的固定成本为4000美元,每个评估者的可变成本为600美元。在这个项目中,the cost of using heuristic evaluation with因此,评估人员4000美元600美元

启发式评估的好处主要在于发现可用性问题,尽管一些继续教育的好处可能会被实现到这样的程度:评估者通过比较自己的评估报告和其他评估者的评估报告来提高他们对可用性的理解。对于这个示例项目,assume that it is worth $15,000 to find each usability problem,使用Nielsen和Landauer(1993)从几项已发表的研究中得出的值。对于真正的项目,很明显,我们需要根据预期的用户群来估计发现可用性问题的价值。对于内部使用的软件,这个值可以根据用户生产力的预期增长来估计;对于要在公开市场上销售的软件,它可以根据由于更高的用户满意度或更好的评价而导致的预期销售额增长进行估计。请注意,真正的价值只来源于那些在软件发布之前就已经解决的可用性问题。因为不可能解决所有可用性问题,发现的每个问题的价值只是固定问题价值的一部分。

图3
曲线显示了使用本文中讨论的假设对样本项目进行启发式评估时,收益大于成本的次数。在这个例子中,评价者的最佳数量是四个,with benefits that are 62 times greater than the costs.
随着评估人员的增加,效益成本比曲线

图3显示了样本项目中不同数量的评估人员的收益与成本的不同比率。The curve shows that the optimal number of evaluators in this example is four,confirming the general observation that heuristic evaluation seems to work best with three to five evaluators.在这个例子中,a heuristic evaluation with four evaluators would cost $6,400 and would find usability problems worth $395,000.

参考文献

  • Dykstra,d.J1993。启发式评估和可用性测试的比较:特定领域启发式检查表的有效性.博士学位diss.,工业工程系德州农工大学College Station,TX.
  • 杰弗里斯R.MillerJR.WhartonC.UyedaKM.1991。现实世界中的用户界面评估:四种技术的比较。ACM Chi'91会议记录(新奥尔良,洛杉矶,4月28日-5月2日)119-124。
  • MolichR.NielsenJ(1990)。改善人机对话,ACM的通信 33,3 (March),338-348.
  • Nielsen,J1990。纸与计算机实现作为启发式评估的模拟场景。PROCIFIP Interact90 Third国际混杂的人机交互(剑桥,英国August 27-31),315~320。
  • Nielsen,J.LandauerTK1993。A mathematical model of the finding of usability problems.Proceedings ACM/IFIP INTERCHI'93 Conference(阿姆斯特丹,荷兰,四月24至29日)206-213.
  • Nielsen,J.and Molich,R.(1990)。Heuristic evaluation of user interfaces,PROCACM Chi'90会议(西雅图,瓦城四月1-5日)249~256。
  • Nielsen,J1992。通过启发式评估发现可用性问题。ACM Chi'92会议记录(蒙特雷,CA5月3日至7日)73-380。
  • Nielsen,J(1994)。Heuristic evaluation.在Nielsen,J.and Mack,R.L.(Eds.), 可用性检查方法.John Wiley & Sons,纽约,纽约。