菜单 关闭

利用折扣可用性工程突破威胁壁垒

通过 雅各布·尼尔森1月1日,一千九百九十四

计算机科学中最古老的笑话之一是:

问: 换灯泡需要多少个程序员?
答: 没有;这是硬件问题!

当问到更换灯泡需要多少可用性专家时,答案很可能是四:二是进行实地研究和任务分析,以确定人们是否真的需要光,一个观察实际拧入灯泡的用户,一个控制摄像机拍摄事件。在实现这些问题的假定解决方案之前,应该先研究用户需求,这当然是正确的。即便如此,任何一个接触到可用性的人都会因为预算超支而陷入困境,这让许多软件项目无法达到他们的用户应得的可用性水平。

1.恐吓障碍

众所周知,人们很少使用推荐的可用性工程方法[Nielsen 1993;Whiteside等人1988年]在现实生活中的软件开发项目。这甚至包括早期关注用户的基本可用性工程技术,经验测量,以及很少有公司使用的迭代设计manbetx官方网站手机版。Gould和Lewis[1985]发现,只有16%的开发人员在被问及为最终用户开发和评估新的计算机系统时,提到了这三个原则。26%的开发人员没有提到这些极其基本的原则中的一个。最近的一项研究发现,只有21%的丹麦软件开发人员知道“大声思考”方法,只有6%的人实际使用了这种方法。1989。更先进的可用性方法根本没有被使用。

一个重要的原因可用性工程并没有在实践中使用是使用这些技术的成本。或者更确切地说,原因是使用这些技术的成本,正如本章将展示的那样,许多可用性技术可以非常便宜地使用。这并不奇怪,然而,从业者认为可用性方法是昂贵的,for example,《ACM通讯》杂志上一篇广受好评的文章估计,“在软件开发中添加人为因素所需的成本”为128330美元[曼泰和特瑞,1988年]。这个数字是大多数小公司可用性总预算的几倍,实际上,一位界面传道者发现有必要警告这些小公司不要相信CACM的估计(Tognazzini1990)。否则,结果很容易是,项目经理会放弃对可用性工程的任何尝试,因为相信项目的预算不能承担成本。表1显示了根据下面讨论的折扣可用性工程方法调整可用性预算的结果。表1中的数字适用于中型软件项目(约32000行代码)。对于小型项目,甚至可以使用更便宜的方法,虽然真正大型的项目可能会考虑额外的可用性资金和全面的传统方法,though even large projects can benefit considerably from using discount usability engineering.

表1
在中型软件项目中,使用折扣可用性工程方法而不是有时推荐的更彻底的可用性方法来节省成本。
原可用性成本估算【Mantei和Teorey,1988年】 128330美元
场景开发为纸模型而不是录像带 - 2160美元
使用免费超文本包完成原型制作 - 16000美元
所有用户测试均使用3个科目而不是5个科目完成。 - 11520美元
通过记笔记而不是录像来分析大声思考的研究 - 5520美元
不需要专门的视频实验室 - 17600美元
Only 2 focus groups instead of 3 for market research - $2,000
只有1个焦点组而不是3个接受分析 - 4000美元
调查问卷只用于反馈阶段,在原型测试之后 - 7200美元
启发式评估的可用性专家 + 3000美元
“折扣可用性工程”项目成本 65330美元

英国的研究[Bellotti 1988]指出,许多开发人员不使用可用性工程,因为HCI(人机交互)方法被视为过于耗时和昂贵,而且这些技术的复杂性往往令人生畏。“折扣可用性工程”方法旨在解决这两个问题。Bellotti给出的进一步原因是,有时没有意识到对HCI的需要,也没有意识到适当的技术。这两个其他问题必须由教育部门解决[Perlman 1988,1990;尼尔森和莫利希1989年]和宣传[尼尔森1990a],但即使是为了这个目的,简单的可用性方法应该会有所帮助。也,时间本身就在增加对HCI的感知需求方面,因为软件市场似乎正从早年的“功能战争”中转移出去。现在,most software products have more features than users will ever need or learn,Telles[1990]指出,在商业出版社中,“界面已经成为获得良好评论的重要因素”。

作为“胁迫复杂性”的一个例子,请考虑Karwowski等人的论文。[1989]关于扩展GoMS模型[Card等人1983年]模糊逻辑。注意,我并没有抱怨这样做是不好的研究。相反地,我发现开发方法来扩展模型(如goms)以更好地处理现实环境(如不确定性和用户错误)非常令人兴奋。不幸的是,当软件人员没有对HCI领域的深入了解时,模糊逻辑GOM和类似的工作很容易导致恐吓。这些读者可能会认为,这些方法代表了进行可用性工程的“方法”,即使可用性专家会知道,该研究代表了扩展该领域的探索性探索,并且应该只起到以下作用:说,在一个项目中使用的第五种方法。我们首先应该使用许多简单的方法。1993。

I certainly can be guilty of intimidating behavior too.例如,和Marco Bergman一起,我最近完成了一个关于迭代设计的研究项目,我们总共使用99个主题来测试用户界面的各种版本,总估计成本为627manbetx官方网站手机版86美元。如果人们认为迭代设计和用户测试是昂贵且过于复杂的过程,那么阅读关于这一点和类似研究的论文的人可能会被原谅。manbetx官方网站手机版事实上,当然,使用更少的科目和更便宜的方法是可能的,我们在论文中很明确地说了出来。一个基本问题是,除了一些例外,已发表的可用性工作描述通常描述了在获得出版物质量结果方面花费大量额外努力的情况,即使大多数开发需求可以以更简单的方式得到满足。

举个例子,考虑统计显著性问题。最近,我和世界上最著名的实验室之一的计算机科学主管开会讨论可用性工程,当讨论各种测试所需的受试者数量时,he immediately referred to the need for test results to be statistically significant to be worth collecting.当然,对于很多研究,你需要有高度的信心,你声称的调查结果不仅仅是偶然的。对于可用接口的开发,然而,通常可以通过不太严格的测试来满足。

统计显著性基本上是指一个人没有做出错误结论的概率(例如,一项声称某个结果在p<0.05水平上是显著的,这表明有5%的概率是错误的)。考虑在两种可选接口设计之间进行选择的问题[Landauer 1988]。manbetx官方网站手机版如果没有可用信息,你也可以选择投币,您将有50%的概率选择最佳界面。如果进行了少量的用户测试,您可能会发现,在20%的重要性级别上,接口A比接口B更好。尽管20%被认为“不重要”,但您的测试实际上提高了您从50/50到4-1选择最佳接口的机会,这意味着在选择时不考虑数据是愚蠢的。Furthermore,尽管仍然有20%的概率认为接口A并不比接口B好,它不太可能比接口B差得多。20%中的大多数都是因为两个接口相等或者B比A稍好,这意味着选择接口A几乎不会是一个非常糟糕的决定。换言之,即使是没有统计意义的测试也很值得做,因为它们将大大提高决策的质量。

2折扣可用性工程方法

可用性专家通常会建议使用最好的方法。Indeed,这是他们在大多数大学接受过的培训。不幸的是,似乎“最好的是善的敌人”【伏尔泰1764年万博官网manbetx下载】,坚持只使用最好的方法可能导致根本没有使用任何方法。因此,我将专注于在执行一些可用性工程工作方面实现“好的”,即使实现这一结果所需的方法绝对不是“最佳”方法,也不会给出完美的结果。

对于知识型读者来说,很容易将这里提出的方法与各种著名的反例放在一起,这些反例显示了在某些情况下会忽略的重要可用性方面。这些反例中的一些无疑是正确的,我也同意,通过应用更仔细的方法可以取得更好的结果。But remember that such more careful methods are also more expensive -- often in terms of money,并且总是在所需的专业知识方面(导致上文讨论的恐吓因素)。因此,更简单的方法在实际的设计环境中有更好的机会被实际使用,因此它们应该被视为服务用户社区的一种方式。manbetx官方网站手机版

“折扣可用性工程”[Nielsen 1989B,1990年,1993] method is based on the use of the following three techniques:

  • 情节
  • 大声简化思维
  • 启发式评价

此外,当然,应该遵循早期关注用户的基本原则。它可以通过各种方式实现,包括对客户地点的简单访问。

2.1种情景

场景是一种特殊的原型设计,如图1所示。原型化背后的整个想法是通过消除整个系统的某些部分来降低实现的复杂性。水平原型降低了功能级别并导致用户界面表层,while vertical prototypes reduce the number of features and implement the full functionality of those chosen (i.e.我们得到了系统的一部分。

图1
A的概念 脚本与垂直和水平原型相比,快速原型制作更简单。
场景是水平和垂直都受到限制的原型

场景通过减少功能级别和功能数量将原型化推向极端。By reducing the part of interface being considered to the minimum,一个场景的设计和实现成本很低,manbetx官方网站手机版但是,只要测试用户遵循先前计划的路径,它就只能模拟用户界面。

因为情况很小,我们可以经常改变它,如果我们用便宜的,小心谨慎的学习,我们还可以测试每个版本。因此,场景是一种从用户那里获得快速和频繁反馈的方式。

方案可以实现为纸质模型[Nielsen 1990b]或在简单的原型环境中[Nielsen 1989a]比更高级的编程环境更容易学习[Nielsen等人1991。与需要使用高级软件工具的更复杂的原型相比,这是一个额外的节省。

2.2大声简化思维

传统上,大声思考的研究是由心理学家或用户界面专家作为实验人员进行的,他们对受试者进行录像并进行详细的方案分析。对于普通的开发人员来说,这种方法显然是令人望而生畏的。然而,it is possible to run user tests without sophisticated labs,只需引入一些真正的用户,给他们一些典型的测试任务,并要求他们在执行任务时大声思考。那些使用了“大声思考”方法的开发人员对此感到高兴[J_rgensen 1989,和尚等。1993,我的研究[Nielsen 1992b]表明,计算机科学家确实能够以最少的培训有效地应用“大声思考”方法来评估用户界面,and that even fairly methodologically primitive experiments will succeed in finding many usability problems.

我早就声称,从最初的几个测试用户那里学习最多,基于几个案例研究。在早期的论文中,我通常建议每个测试使用三到五个测试用户,作为简化用户测试的一种方法,同时获得与使用大量主题进行更复杂测试几乎相同的好处。最近,Tom Landauer和我开发了可用性问题数量的数学模型[Nielsen和Landauer 1993]。当插入不同类型用户测试的典型预算数字时,我们得出了如图2所示的曲线,用于中等规模开发项目的用户测试收益与测试成本之间的比率。曲线基本上表明,用户测试的好处远远大于成本,不管使用了多少科目。在三到五个受试者之间使用时达到最大的效益成本比。确认我以前的经验。

图2
Cost-benefit trade-off curve for a "typical" project,改变测试用户的数量,使用Nielsen和Landauer[1993]描述的模型和平均参数。曲线显示了效益与成本的比率,也就是说,收益比成本大多少倍。例如,50的效益成本比可能相当于10000美元的成本和500000美元的效益。
Cost-Benefit Curve

除了减少受试者的数量,简单思维和传统思维的另一个主要区别是,数据分析可以根据实验者所做的笔记而不是通过录像带进行。记录,看,而且分析录像带的成本很高,而且需要花费大量的时间,这可以更好地用于运行更多的主题和测试更多的重新设计的用户界面迭代。manbetx官方网站手机版录像只能在需要绝对确定性的情况下进行(如研究研究)。在折扣可用性工程中,我们不追求完美,我们只想找到大部分可用性问题,一项对11名软件工程师的调查[Perlman1988]发现,他们认为原型的简单测试几乎是视频协议的两倍有用。

2.3启发式评价

当前的用户界面标准和可用性指南集合通常有一千条规则要遵循,因此被开发人员视为威胁。对于折扣法,我提倡将复杂性降低两个数量级,而不是依赖于一组小的启发式方法,例如十个基本可用性原则(在另一页上列出)。

这些原则可以在一次讲座中介绍,并且可以用来解释在用户界面设计中所观察到的大量问题。manbetx官方网站手机版不幸的是,要充分地应用这些原则,确实需要一些经验[Nielsen 1992c],因此,有必要花一些钱去聘请外部可用性顾问来帮助进行启发式评估。另一方面,即使是非专家也可以通过启发式评估发现许多可用性问题,而许多剩余的问题将通过简化的大声思考测试揭示出来。也可以建议让几个不同的人进行启发式评估因为不同的人会发现不同的可用性问题[Nielsen和Molich 1990]。这也是为什么即使是打折的可用性工程师也会考虑为外部可用性顾问留出一部分预算的另一个原因。

3验证折扣可用性工程

In one case,我使用折扣可用性工程方法重新设计了一组对账单[Nielsen1989b]。manbetx官方网站手机版在我满意之前,我测试了八个不同的版本(原始设计加上七个重新设计)。manbetx官方网站手机版即便如此,整个项目只需要大约90个小时,包括设计十二种不同陈manbetx官方网站手机版述的七个版本(并非所有形式在每次迭代中都发生了变化,然而)并在简单的大声思考实验中测试它们。大多数版本只使用一个用户进行测试。为了验证重新设计,manbetx官方网站手机版a further experiment was done using traditional statistical measurement methods.应该强调的是,这种验证是一种研究活动,而不是折扣可用性工程方法本身的一部分:可用性工程工作随着改进的账户报表的开发而结束,但是作为可用性工程方法的检查,决定对其中一个新设计与原始设计进行可用性度量。manbetx官方网站手机版

3.1实验1:采用可用性测量的双盲试验

验证是通过双盲试验完成的:38名实验人员在两个受试者之间的设计中,每个受试者运行4名受试者(总共152名受试者)。manbetx官方网站手机版无论是实验者还是受试者,都不知道哪一份是原始的账单,哪一份是新的。表3中报告的结果表明,新声明的测量值在统计学上有了明显的显著改善,这与声明中信息的可理解性有关,通过对声明内容的四个问题的正确答案的平均数来衡量。这个值实际上是可用性参数,在迭代设计过程中作为一个目标被监控。manbetx官方网站手机版在最终测试中还测量了两个在迭代设计过程中未被考虑到的可用性参数(使用效率和主观满意度)。manbetx官方网站手机版这两个版本的声明得到了几乎相同的分数。

表3
Result of Experiment 1: a double blind test (N=152) comparing the original and the revised version of a bank account statement.测量值为:有多少受试者能够正确回答关于陈述内容的四个问题(以及这四个问题的综合平均值)。受试者复习陈述和回答问题所需的平均时间,受试者的平均主观评价(量表:1[差]至5[好])。
最右边的一列表示根据A T-测试。
原创设计manbetx官方网站手机版 修正设计manbetx官方网站手机版 差异的意义
“存款规模” 79% 95% < 01
“佣金” 34% 53% < 05
“利率” 20% 58% < 01
“信用额度” 93% 99% < 05
平均校正 56% 76% < 01
任务时间(秒) 三百一十五 三百零三 N.S.(= 58)
主观满意度[1-5量表] 二点八 N.S.(= 14)

这项研究支持使用折扣的可用性工程技术,并表明它们确实可以在可用性方面带来可衡量的改进。然而,研究结果还表明,在制定可用性工程工作的目标时应谨慎。由于可用性工程师的注意力集中在官方目标上,那些没有设定改进目标的可用性参数可能会被抛在后面。在这项研究中,在测量的可用性参数中,没有观察到实际退化形式的负面影响,但人们并不总是指望如此幸运。

3.2实验2:没有可用性专业知识的人的建议

两组评估人员被展示了两个版本的会计报表(没有被告知哪一个是修订版),并询问他们会建议管理层使用哪一个。所有的评估者都是计算机科学专业的学生,他们报名参加了一个用户界面设计课程,但在课程中还没有学到任何东西。manbetx官方网站手机版这意味着他们不知道可用性启发法他们可能用它来评估这两个版本。

A组由实验1(如上所述)的实验人员组成,他们对每个版本的帐户报表进行了两次简短的实验,而B组的评估人员必须根据自己对这两个版本的个人评估提出建议。结果如表4所示,并在建议中显示出显著差异:A组的评估人员倾向于修订版4至1,而B组的评估人员在两个版本之间平均分配。后一个结果可能反映了这样一个事实:根据表3中报告的测量结果,两个版本在主观上几乎同样令人满意。

表4
实验2的结果:要求两组评估人员推荐一份会计报表的两个版本中的一个。A组,每个人都首先对四个受试者进行了实验测试,而B组的评价者除了他们自己的主观评价外,没有其他的推荐依据。
两组之间的差异在统计学上是不同的。 <05级。
A组 B组
n=38 n=21
推荐原件 16% 48%
建议修改 68% 48%
没有建议 16% 5%

如果我们接受表3中的统计测量结果,将修订版定义为“最佳”,我们会发现,A组比B组在做出正确建议方面有显著优势。尽管A组中的每个人只知道两个受试者对每个设计的实验结果(在提出建议之后才计算总统计数据,manbetx官方网站手机版所以每个评估者只知道由那个人运行的四个主题的结果)。

所以我们可以得出结论,即使是很小的,廉价的实证研究可以帮助非人为因素的人在他们的用户界面的评估显着。如果我们将没有提出建议的评估人员计算为有50/50的机会选择正确的界面,这个实验表明,在一个小测试中,每个版本只运行两个测试对象,可以将推荐两个版本中最好的版本的概率从50%提高到76%。

4启发式评价的成本效益分析:一个案例研究

启发式评估的成本效益分析包括两个主要要素:首先根据执行评估所花费的时间来估算成本,and second estimating the benefits in terms of increased usability (less the development costs for the remanbetx官方网站手机版design).由于这些估计涉及一些不确定性,它们将用整数转换成美元金额。当然,任何给定的公司都会有稍微不同的转换系数,取决于具体的财务状况。

以下案例研究涉及内部电话公司使用的系统的原型用户界面,本章将称为集成系统。集成系统相当复杂,了解其细节需要对电话公司概念有广泛的了解,程序,和数据库。Since a detailed explanation is not necessary to understand the generally applicable lessons from the study,集成系统将只在这里概述。

简要地,the Integrating System provides a graphical user interface to access information from several systems running on various remote computers in a uniform manner despite the differences between the backend systems.当数据不一致需要技术人员手动干预时,由于计算机系统无法确定哪些信息是正确的,集成系统可用于解决某些问题。解决这些问题的传统方法包括让技术人员通过一些传统的字母数字终端会话访问这些数据库来比较这些数据库中的信息。数据库位于不同的计算机上,具有不同的数据格式和用户界面设计,manbetx官方网站手机版因此,这种传统的方法有点笨拙,需要技术人员学习大量不一致的用户界面。

执行这项任务需要大量关于电话系统构造方式和不同数据库结构的领域特定知识。Technicians need to know where to look for what data and how the different kinds of data are related.也,对于没有详细领域知识的人来说,单个数据项本身是非常模糊的。

作为与11个评价者对该接口进行启发式评价的结果(在[Nielsen 1994b]中进一步详细描述)。发现44个可用性问题。其中40个问题被称为“核心”可用性问题,并在经过深入评估的界面部分发现,而剩下的四个问题是在接口的某些部分发现的,我们没有计划将其作为启发式评估的一部分来研究。

4.1时间支出

像在可用性工程中一样,成本估算是最容易正确的。表5说明了启发式评估项目所花费的总时间(以工时计)。没有试图区分不同类别的专业人员。实际上,表5中列出的所有工时都是由可用性专家花费的。唯一的例外是开发专家花费少量的时间来准备原型以供评估和参加汇报会议。

表5
本文描述的启发式评估研究所花费的总工时估计。“原型准备时间”的估计不包括初始任务分析所需的时间,用户界面设计,manbetx官方网站手机版或者原型的实现,因为这些活动已经独立于启发式评估进行。
评估使用启发式评估的适当方法,4人@2小时
让外部评估专家了解领域和场景
寻找和安排评估人员,每个评估员1.8小时+0.2小时
准备简报
为评估人员准备方案
简报,1 system expert,1名评估专家,11名评估人员@1.5小时 十九点五
为评估准备原型(软件及其硬件平台)
实际评估,11名评估人员@1小时 十一
观察评估会议,2名观察员@11小时 二十二
汇报工作,3个评价者,3个开发者,1名评估专家@1小时
根据评估会议的笔记编写可用性问题列表
编写问题描述以用于严重性评定问卷
Severity rating,11名评估人员@0.5小时 5.5
Analyzing severity ratings
合计 一百零五

请注意,为准备方案所给的时间仅包括以评估人员在评估期间可用的形式编写方案的工作。首先,还需要作出大量额外努力来具体说明这种情况,但这项工作是在评估之前进行的一般任务分析和设计活动的一部分。manbetx官方网站手机版基于场景的设计是一种著名的用户manbetx官方网站手机版界面设计方法[Carroll和Rosson 1990,克拉克1991,因此,人们通常能够利用在可用性生命周期的前几个阶段开发的交互场景。即便如此,我们可能很幸运,为当前系统开发的方案可以用于评估,但需要付出如此小的额外努力。

The evaluation sessions were videotaped,大约八个小时的时间都花在了诸如获取录像带之类的日常工作上,学习在用于评估会议的特定可用性实验室中操作视频设备,在研究的每两天设置和关闭视频设备,倒带,etc.这种录像并不是启发式评估的一部分,而且,这些磁带并不是为了得到可用性问题的列表而被审查的。观察员的记录足以说明这一点。在本研究分析中,在一定程度上使用了录像带,额外的8小时用于审查一些评估会议的细节,但由于这种使用不是启发式评估方法实际应用的一部分,在录像带上花费的时间没有包括在表5中。

由表5可知,用于评估的总人-小时数可由公式确定。

公式1:
时间(= 47.8±5.2

在哪里?是评估者的数目。此公式不适用于,由于一些致力于房间安排和严重性评级分析的工作在一定程度上取决于评估人员的数量,并且会随着数量的增加而变化。S.

(方程式1)中的成本估计值可能比未来启发式评估所需的值大。通过将两名观察员组成的小组减少为一名观察员,可以大幅降低固定和可变成本。This observer should be the person who is familiar with the application such that the observer can answer questions from the evaluators during the evaluation.也,即使观察者应该有一定程度的可用性知识来理解评估者的评论,观察者不需要是专门研究可用性的高技能专家。启发式评估和传统的用户测试之间的一个主要区别是,启发式评估会话的观察者基本上不必解释用户操作,因为评估者承担了明确识别可用性问题的任务。相反,传统用户测试中的实验者需要更高水平的可用性专业知识,才能将主题的行为和困难转化为与界面相关的可用性问题。

这种单一的变化将导致以下结果:修正公式

公式2:
时间(= 37.3±4.2

将(方程式1)或(方程式2)中的时间估算值转换为金钱估算值,只需将小时数乘以专业人员的每小时工作量估算值即可。注意到专业人员的工资和福利成本不够,因为测试所用的计算机设备和实验室空间会产生额外的费用。要使用整数,专业人员每小时的估计加载成本为100美元,相当于启发式评估实际花费的105小时的总成本为10500美元。

4.2效益估算

唯一能够准确衡量启发式评估的好处的方法是完全实现两个版本的用户界面;一个没有任何变化,一个有评估结果所暗示的变化。然后,大量实际用户应使用这两个版本来执行实际任务足够长的时间,以便在这两种情况下都达到专家性能的稳定状态水平[Gray等人1992。这一过程将为学习时间和专家绩效的差异提供准确的衡量标准。不幸的是,被评估的接口版本只存在于原型形式中,不能用原型形式进行任何实际工作,既然大量可用性问题已经被记录在案,那么期望投入大量的开发资源来将这个原型转换为具有相同用户界面的最终产品是不现实的。

或者,为了评估每个子任务的频率和持续时间,可以建立一个详细的用户工作日所涉及的不同步骤的经济工作研究模型。然后,可以进一步使用用户交互时间的正式模型来估计使用一组可选的用户界面设计执行每个步骤的持续时间[Gray等人manbetx官方网站手机版1992。这种方法可以提供相当详细的估计,但不一定准确,因为模型中的操作持续时间未知。这也将是非常耗时的执行。

因此,有必要依赖效益的估计,而不是硬测量数据。为了得到这样的估计,11个评估者被要求从解决启发式评估确定的44个可用性问题中评估可用性的改进。可用性改进根据两个可用性参数进行评估:

  • 减少学习时间:用户使用系统所需的学习时间会减少多少?作为可用性参数的学习时间表示每个新用户学习系统的生产时间的一次性损失,所以任何储蓄只能实现一次。
  • 专家性能加速:用户达到专家性能稳定状态后,当使用一个解决了所有可用性问题的系统时,他们能够比使用一个仍然存在所有问题的系统更快地完成工作吗?作为可用性参数的专家性能代表了使用改进接口的持续优势,因此,任何节省都将在系统的整个生命周期中实现。

感兴趣的其他可用性参数包括用户错误的频率和用户的主观满意度。但这些参数没有估计。由于我们发现的几个可用性问题与容易出错的情况有关,用户错误的数量可能会减少。

11名评估人员中有10名提供了学习时间估计,所有11名提供了专家加速估计。Histograms of the distribution of these estimates are shown in Figure 3.Nielsen和Phillips[1993]发现可用性专家对用户性能变化的估计是高度可变的,如图所示,但至少三个独立估计的平均值与控制实验测量的值相当接近。

图3
柱状图显示评估者对学习时间(顶部)节省和专家性能加速(底部)的估计分布,用于修复启发式评估中发现的所有可用性问题。一名评估人员没有提供学习时间估计。
学习时间和专家绩效估计改进的柱状图

鉴于效益估计纯粹是基于专家的主观判断,而不是基于经验证据,在将评估者的估计转化为预计的货币储蓄时,保守似乎是明智的。平均值为0.8天(学习时间减少),18%为专家加速(考虑所有评估人员时)。0.5天16%,respectively,排除2天40%的可能过于乐观的异常值。为了保守起见,we will choose 0.5 days as our learning time reduction estimate and 10% as our expert speedup estimate.

10%的专家加速显然只适用于使用界面所花费的时间。对用户的研究表明,他们将花费约1/3的时间完成其他任务,三分之一的时间在不操作用户界面的情况下执行任务,以及他们实际操作界面时间的1/3。因此,10%的专家加速相当于总工作时间的3.3%。

在以下假设下,可以将这些估计值转换为总体节约:我们假设将有2000人使用该系统。考虑到目前约有3000人从事这项工作,这有点保守。在学习使用该系统时,每个人可节省2000人0.5天,相当于一次性节省了1000个用户日。Furthermore,达到专家级性能后,2000名用户的工作速度提高了3.3%,相当于系统每年节省了67个用户年。再保守一次,我们只考虑第一年的储蓄,尽管我们在这里讨论的计算机系统的规模通常超过一年。67个用户年大约相当于节省了13000个用户日。因此,第一年保存的用户日总数约为14000天。

用货币来衡量储蓄总额,我们假设一个用户日的成本是100美元,保守一点,我们假设只有一半的可用性问题可以被修复,因此,只有一半的潜在储蓄是实际实现的。Furthermore,we need to take into account the fact that the savings in user time are not realized until the system is introduced and thus have a smaller net present value than their absolute value.再次使用整数,我们会将节省的学习时间价值降低20%,而专家在第一年的加速价值则会降低30%。学习时间可以以较小的百分比折扣,因为这种节省是在系统引入后的第一天实现的。使用这些保守的假设,我们发现一年可节省540000美元。

当然,节约不是仅仅通过希望解决一半的可用性问题来实现的,因此,我们必须通过估计重新设计接口所需的额外软件工程(engineering)工作的成本来降低成本估算,而不仅仅是从现有原型实现接口。manbetx官方网站手机版假设额外工作所需的软件工程时间为400小时,再一次假设一个专业人员的负荷成本是每小时100美元,我们发现储蓄估计需要减少40000美元。这项费用是在这里和现在发生的,因此不能打折。因此,我们对改善用户界面净现值的最终估计是50万美元。

仍然保守,我们没有考虑到软件工程成本节省的价值,因为发布后不必修改系统。假设原始用户界面要完全实现和发布,用户很可能会要求在第二个版本中进行实质性的更改,众所周知,对发布的系统进行软件工程更改要比在软件生命周期的原型阶段进行更改昂贵得多。

改进接口的50万美元效益应与启发式评估项目的成本相比较,estimated at $10,500.因此,我们发现效益/成本比为48。This number involves significant uncertainties,但它足够大,我们毫不犹豫地得出结论,启发式评估得到了回报。

作为对成本效益分析的最后评论,我们应该注意,“效益”不能转化为实际现金流。相反,它们代表了避免惩罚的方法,即如果原型接口在没有进一步更改的情况下被实现和发布,用户将不得不花费额外的时间。在软件开发的资金中寻找适当的方法来代表这样的节省是一个有趣且重要的管理问题。

4.3 Cost-Benefit Analysis of User Testing

After the heuristic evaluation exercise,在同一界面上执行了其他用户测试,运行四个测试用户。使用启发式评估工具的人数比测试用户多的一个主要原因是,这个特定应用程序的用户是高度专业化的技术人员,他们很难进入实验室。然而,让大量可用性专家参加启发式评估会议是相当容易的。用户测试发现了四个新的可用性问题,其中17个问题已经通过启发式评估得到确认。

我们可以讨论在用户测试中没有观察到的23个核心问题是否实际上是“问题”,因为它们不会被视为困扰真正的用户。如其他地方所述[Nielsen 1992b],这些问题确实是非常真实的,但它们的影响可能只是持续时间太短,无法在标准用户测试中观察到。除非对大量用户的数据进行统计分析,否则无法观察到会使用户减速0.1秒左右的问题。但是,它们可能是非常真实和昂贵的问题。也,有些问题可能发生得太少,以至于很少有人在这里测试用户。

用户测试活动的主要成本是让两个专业人员花费7个小时来运行测试以及向测试用户简要介绍和汇报。传统上定义测试任务的耗时活动不需要时间,因为相同的场景与先前的可用性工作开发的场景相同。此外,半个小时的时间用来寻找和安排测试的用户,两个小时的时间用来实现一个小的培训界面,在这个界面上,用户可以学习使用鼠标和标准的图形交互技术,如下拉窗口。这些活动总计为16.5人时的专业人员,或者1650美元。

Furthermore,当考虑到他们的旅行时间时,这四个用户和他们的经理基本上花了一整天的时间进行测试。再次假设一个用户日的成本是100美元,此外,假设一个经理日的成本是200美元,用户参与的总成本是600美元。加上专业人员和用户的成本,用户测试的总成本估计为2250美元。

The $2,250 spent on user testing could potentially have been spent on additional heuristic evaluation efforts instead.According to Equation 1,这个总数相当于使用4.3个额外的评估者。Nielsen和Landauer[1993]指出,可用性问题的发现评价者可以通过预测公式进行建模。

公式3:
发现问题() = N(1 - (1-L

对于本研究的核心可用性问题,该方程中参数的最佳拟合值为n=40和L= 0.26。增加启发式评价者的数量,,因此,从11到15.3可能会导致发现大约1.1个额外的可用性问题。这一估计表明,可用的额外资源确实在运行用户测试上花费得更好,发现四个问题,而不是进一步扩展启发式评估。

我们没有系统的方法来估计发现用户测试发现的四个额外问题的好处。然而,one easy way to arrive at a rough estimate is to assume that the average severity of the four new problems is the same as the average severity of the 17 problems that had already been found by heuristic evaluation.作为启发式评估研究的一部分,严重程度是用评分量表测量的,每一个可用性问题的严重性评分从0分到4分,分数越高表示问题越严重。最初44个可用性问题的严重性评分之和为98.41。在用户测试和启发式评估中发现的17个问题的严重性评分之和为41.56。因此,与原始问题相比,我们可以估计额外四个问题的相对严重性,即4/17 x_41.56/98.41=0.099。

因此,了解用户测试发现的其他问题将使改进界面的总潜力增加9.9%。Furthermore,我们可以假定新问题可以解决的比例,修复它们的影响,and the cost of fixing them are all the same as the estimates for the problems found by heuristic evaluation.在这些假设下,发现另外四个可用性问题的好处价值为500000 x 0.099=49500美元。

使用这些估计值,启发式评估后添加用户测试的效益/成本比为22。当然,如果我们将用户测试的好处归功于发现在用户测试中观察到但已经通过启发式评估发现的问题,那么用户测试的好处将会更大。我们应该注意到,虽然,如果没有进行启发式评估并确认使用场景的价值,那么计划用户测试的成本会更高。也,如果没有事先的启发式评估,就不能保证所有观察到的问题实际上都会被发现。现在,我们知道该找什么,but we might not have noticed as many problems if the user test had been our first usability evaluation activity for this interface.

如果将所有17个重复问题以及4个新问题记入用户测试的贷方,考虑到这17个问题的严重程度高于平均水平,用户测试的好处将价值260500美元。当然,只有在没有事先进行启发式评估的情况下,这个数量才是用户测试的好处。因此,将用户测试的这种假设性分析与实际为启发式评估做准备所花费的一些成本一起收费似乎是合理的。明确地,参考表5,我们将增加评估使用该方法的适当方法的成本,让外部评估专家了解领域和场景,准备场景,准备软件,还有一半的时间花在写问题描述上(因为发现的问题大约有一半)。这些活动总共24小时,或额外费用2400美元,在没有预先启发式评估的情况下运行用户测试的总估计成本为4650美元。This translates into a benefit/cost ratio of 56.

为了提供一个公平的比较,应该注意的是,只有四个评估者进行启发式评估的效益/成本比为53。这个数字大于完整评估的效益/成本比,因为第一个评估者比最后一个评估者识别出更多以前未发现的可用性问题,如(式3)所示。Furthermore,启发式评估提供了严重性估计,可用于在进一步的开发过程中优先解决可用性问题,而这些数据的可用性可能会增加通过交付的可用性度量的方法的实际价值。如果从启发式评估的时间中扣除汇报时间和严重性评分,11名评估人员的效益/成本比为59,4名评估人员的效益/成本比为71。

因此,在这些估计的不确定性范围内,似乎用户测试和启发式评估具有可比的成本效益比,每种方法的一部分都可能有额外的价值。

5组织可用性工程的演变

折扣可用性工程的两个基本口号是“任何数据都是数据”和“任何事都比没有好”当谈到可用性时。因此,我经常提倡一种可用性方法,它的重点是开始使用最少的可用性方法。即便如此,有许多项目会受益于使用超过最低折扣可用性方法。我在本章的标题中使用了“游击队HCI”一词,因为我相信简化的可用性方法可以成为公司逐步建立对系统可用性方法依赖的一种方法,从最低限度开始,逐步发展到更精细的生命周期方法。

基于多年来对多家公司和项目的观察,在软件开发中,我已经在提高可用性工程的使用率方面达到了以下一系列步骤。

  1. 可用性并不重要。主要的重点是从铁上拧出最后一点性能。This is the attitude leading to the world-famous error message,“嘟嘟”。
  2. 可用性很重要,但是良好的接口当然可以由常规的开发人员设计manbetx官方网站手机版作为一般系统设计的一部分。manbetx官方网站手机版这种态度的象征是2月26日丹麦国王弗雷德里克六世发表的著名声明,1835年:“只有我们知道什么才是真正的国家和人民的福祉和利益。”在这个阶段,在用户测试或获取具有可用性专业知识的人员方面,没有任何尝试。
  3. 渴望拥有interface blessed by the magic wand可用性工程师。开发人员认识到他们可能并不了解可用性的一切,所以他们请了一位可用性专家来检查他们的设计并对此进行评论。manbetx官方网站手机版可用性专家的参与往往为时已晚,无法在项目中发挥多大作用,而可用性专家常常不得不在没有真正用户访问的情况下,就界面提供建议。
  4. GUI panic strikes,导致突然想要了解用户界面问题。目前,many companies are in this stage as they are moving from character-based user interfaces to graphical user interfaces and realize the need to bring in usability specialists to advise on graphical user interfaces from the start.Some usability specialists resent this attitude and maintain that it is more important to provide an appropriate interface for the task than to blindly go with a graphical interface without prior task analysis.即便如此,图形用户界面恐慌是可用性专家在早期阶段参与界面设计的一个机会,而不是传统的最后一分钟对无法改变的设计的祝福。manbetx官方网站手机版(更新于1999年:这些天,这个阶段的特点是网络恐慌袭击.It's the same phenomenon and should be treated the same way.)
  5. 折扣可用性工程零星地使用。通常情况下,一些项目使用一些折扣的可用性方法(如用户测试或启发式评估)。尽管这些方法在开发生命周期中经常被使用得太晚,无法发挥最大的作用。确实使用可用性方法的项目通常与其他项目不同,因为管理者在早期项目中体验过可用性方法的好处。因此,可用性就像一种病毒,随着越来越多的人体验到它的好处,逐渐感染更多的项目。
  6. 折扣可用性工程系统地使用。在某个时间点,大多数项目都涉及一些简单的可用性方法,一些项目甚至在系统开发的早期阶段使用可用性方法。在这个阶段,场景和廉价的原型技术似乎是游击队HCI非常有效的武器。
  7. 成立可用性小组和/或可用性实验室。许多公司在经历了折扣可用性工程的好处后,决定扩展到豪华可用性方法。万博官网manbetx下载目前,建筑可用性实验室[Nielsen 1994a]非常受欢迎,专门的可用性专家组也很受欢迎。
  8. 可用性渗透到生命周期中。最后一个阶段很少实现,因为即使是拥有可用性组和可用性实验室的公司,通常也没有足够的可用性资源来在开发生命周期的所有阶段使用人们希望使用的所有方法。然而,有一些,通常很重要,将可用性计划定义为早期项目计划的一部分,并且在整个开发生命周期中使用可用性方法的项目。

该模型与Ehrlich和Rohn[1994]提出的一系列组织验收阶段相当相似,但是独立开发的。以上列表中的1-2阶段对应于ehrlich和Rohn的怀疑阶段,阶段3-4与他们的好奇心阶段相对应,第5-6阶段与验收阶段相对应,第7-8阶段与合作阶段相对应。

许多可用性工程的老师描述了几乎是宗教效应,这似乎是学生们第一次尝试运行用户测试,并亲眼看到正常人使用所谓的“简单”软件所能遇到的困难。不幸的是,组织更难转变,因此,他们大多必须从内部克服使用游击手段,如折扣可用性工程,逐渐显示出越来越多的人,可用性方法工作和改进产品。假设一个开发组织可以从上述模型的第一阶段或第二阶段单一地移动到第七阶段或第八阶段,这太乐观了,彻底改变。事实上,几乎所有可用性方法的使用成本都非常低,相比之下,它们以更好和更容易使用的产品的形式提供的好处,but often we have to start with the cheapest possible methods to overcome the intimidation barrier gradually.

致谢

作者想感谢Raldolph Bias,Tom Landauer以及Janice Rohn对手稿早期版本的有益评论。

工具书类

  • 苹果电脑(1987)。人机界面指南:苹果桌面界面。Addison Wesley阅读,妈妈。
  • 苹果电脑(1992)。Macintosh人机界面指南。Addison Wesley阅读,妈妈。
  • 贝洛蒂v.诉(1988)。当前设计实践对使用HCI技术的影响。manbetx官方网站手机版在琼斯,D.M.络筒机,R.(EDS)人与计算机IV,剑桥大学出版社,剑桥英国13-34。
  • BoehmB.W(1981)。软件工程经济学。普伦蒂斯霍尔英格伍德悬崖,新泽西州。
  • 卡,S.K.MoranTP.纽厄尔a.(1983)。人机交互心理学,Lawrence Erlbaum Associates公司,希尔斯代尔新泽西州。
  • 卡罗尔JM.RossonMB.(1990)。Human-computer interaction scenarios as a manbetx官方网站手机版design representation.PROCHICS-23:夏威夷系统科学国际会议,IEEE计算机学会出版社,55~561。
  • 克拉克L.(1991)。用户界面设计者对场景的使用。manbetx官方网站手机版尿布,D哈蒙德n.名词(EDS)人与计算机剑桥大学出版社,剑桥英国103-115。
  • 埃利希K.RohnJ(1994)。可用性工程的成本论证:供应商的观点。In Bias,R.G.MayhewD.J.(EDS)成本合理的可用性。学术出版社,波士顿,妈妈。
  • 古尔德JDLewisC.H.(1985)。manbetx官方网站手机版可用性设计:关键原则和设计师的想法。Communications of the ACM 28,3(三月)300~311。
  • GrayWD厕所,B.e.阿特伍德Me.(1992)。格雷斯计划的精确性,或者,goms验证概述。PROCACM CHI'92 (Monterey,CA1992年5月3日至7日)307~312。
  • J·格伦森,A.H.(1989).在系统开发中使用“发声思考”方法。In Salvendy,G.史米斯M.J(EDS)manbetx官方网站手机版Designing and Using Human-Computer Interfaces and Knowledge Based Systems.爱思唯尔科学出版社,Amsterdam,73-750。
  • KarwowskiW.Kosibae.Benabdallah,S.SalvendyG.(1989).人机交互中的模糊数据和通信:无论好坏。In Salvendy,G.史米斯M.J(EDS)manbetx官方网站手机版Designing and Using Human-Computer Interfaces and Knowledge Based Systems.爱思唯尔科学出版社,Amsterdam,402-409。
  • LandauerTK(1988)。人机交互的研究方法。在Helander,M(E.)人机交互手册。北荷兰Amsterdam,荷兰。53-568。
  • 曼蒂MM.TeoreyT.J(1988)。将人为因素纳入软件生命周期的成本/效益分析;ACM 31的通信,4(四月)423-439。
  • 挤奶的,美国,VarnildA.J·R·詹森,A.H.(1989).hvordan sikres kvaliteten af brugergr¾nsefladen i systemudviklingen(“确保系统开发中用户界面的质量”,丹麦语)。Norddata’89斯堪的纳维亚联合计算机会议记录(哥本哈根,丹麦,六月19-22日)74-48。
  • Molich,R.NielsenJ(1990)。改善人机对话,ACM 33的通信,3(三月)33~34 8。
  • 和尚,A.莱特P.HaberJ.DavenportL.(1993)。改善人机界面:一种实用的技术。普伦蒂斯霍尔国际,海默尔·亨普斯特德,英国
  • NielsenJ(1989年A)。使用面向对象的超文本编程系统制作用户界面原型,PROCNorddata’89斯堪的纳维亚联合计算机会议(哥本哈根,丹麦,六月19-22日)48~490。
  • NielsenJ(1989年B)。可用性工程折扣。In Salvendy,G.史米斯M.J(EDS)manbetx官方网站手机版设计和使用人机界面和基于知识的系统,爱思唯尔科学出版社,阿姆斯特丹。39~401。
  • NielsenJ(1990年A)。“折扣”可用性工程的巨大回报,IEEE软件7,3(五月),107~108。
  • NielsenJ(1990年B)。论文与计算机实现作为启发式评估的模拟场景,PROCInteraction'90 3rd IFIP会议人机交互(剑桥,英国8月27日至31日)315~320。
  • NielsenJ(1992年A)。可用性工程生命周期。IEEE Computer 25,3(三月)12~22。
  • NielsenJ(1992年B)。评估计算机科学家使用的大声思考技术。在哈特森,H.R.Hixd.(EDS)人机交互研究进展。3,阿布雷克斯Norwood新泽西州。75-88。
  • NielsenJ(1992年C)。通过启发式评估发现可用性问题。PROCACM CHI'92 (Monterey,CA3-7月5日)73-380。
  • NielsenJ(1993)。可用性工程.学术出版社,波士顿,妈妈。
  • NielsenJ(1994年A)。可用性实验室.行为与信息技术13,1。
  • NielsenJ(1994年B)。启发式评价。在Nielsen,J.MackR.L.(EDS)可用性检查方法.约翰威利父子公司纽约,纽约。
  • NielsenJ.LandauerTK(1993)。发现可用性问题的数学模型。PROCACM Interchi'93会议(阿姆斯特丹,荷兰,四月24—29日)206—213。
  • NielsenJ.莱维.巴斯比鲁J(1994)。衡量可用性-偏好与性能。ACM的通信 三十七,4(四月)65-75。
  • NielsenJ.MolichR.(1989).基于可用性工程的用户界面设计教学,manbetx官方网站手机版ACM Sigchi公告21,1(七月)45-48
  • NielsenJ.MolichR.(1990)。用户界面的启发式评估,PROCACM Chi'90(西雅图,瓦城四月1-5日)249~256。
  • NielsenJ.菲利普斯,v.诉L.(1993)。评估两个接口的相对可用性:启发式,正式的,并比较了经验方法。PROCACM Interchi'93会议(阿姆斯特丹,荷兰,四月24—29日)214-221。
  • NielsenJ.Frehr一、NymandH.O(1991)。hypercard作为面向对象编程系统的可学习性,行为和信息技术10,2(3月至4月)111-120。
  • 帕尔曼G.(1988)。Teaching user interface development to software engineers,PROC人类因素学会第32届年会,39~39。
  • 帕尔曼G.(1990)。教学用户界面开发,IEEE软件7,6(十一月)85-86.
  • 泰勒斯M(1990)。更新旧接口,PROCACM Chi'90(西雅图,瓦城四月1-5日)243-247。
  • ThovtrupH.,NielsenJ(1991)。评估用户界面标准的可用性,PROCACM Chi'91(新奥尔良,洛杉矶,28 April-2 May),35-351。
  • TognazziniB.(1990)。便宜的用户测试,苹果直销2,6(三月)21-27。转载为第14章 接口上的TOG,Addison Wesley阅读,妈妈,1992。
  • 伏尔泰f.Ma.(1764)。辞藻哲学。
  • 怀特塞德J.班尼特J.霍尔茨布莱特,K(1988)。可用性工程:我们的经验和发展。在Helander,M(E.)人机交互手册,北荷兰Amsterdam,791-817。