菜单 关闭

在不破坏银行的情况下量化和比较易用性

通过 克里斯蒂安·罗勒4月16日,二千零一十七

总结:纯方法量化了产品的使用难度,并提供了如何修复产品的定性见解,两者都不需要花费大量的时间和金钱。


业务背景

面对现实:企业需要度量标准才能运作。当涉及到公司的用户体验时,测量的欲望同样强烈,尽管这样做的风险.因此,使用分析学A/B测试,调查,和可用性度量这些年来都有了显著的增长。这种做法可能会持续下去,如果不进一步增长,这使得我们有必要仔细检查我们使用的度量标准,并考虑为实现真正测量用户体验的目标所缺少的东西。

从广义上讲,传统指标可以分为行为(人们做什么)或态度(人们说什么)测量。从使用中收集行为指标,当用户在软件或网站上执行操作时,通常用于分析和A/B测试。它们包括计数(用户,页面视图,访问,下载)费率(反弹,转换,安装,任务成功,和时间(页面上的时间,任务时间订婚)一般的态度措施来自调查(净发起人得分,系统可用性等级,顾客满意)或用户评级。虽然这些都很有用,有很大的局限性:

  1. 仅仅数字通常不能提供理解所需的洞察力。为什么?观察到效果或如何解决问题。
  2. 分析和A/B测试中使用的指标通常是间接的用户体验质量指标:反映软件性能,不是人类的经验。
  3. 用户体验的经典度量,例如那些来自可用性基准研究的,很贵而且很费时,因此,它们的使用频率不足以提供定期的评估和跟踪。

纯的(专家实用性评价)是一种相对较新的可用性评估方法,它试图以相当快的速度回避这些问题,便宜的,可靠的,有效。pure产生的度量可以频繁地、相对地使用,使为产品的每个版本或跨一组竞争对手发布度量标准变得切实可行,只需几天的努力。与其他措施一起使用时,纯分数填补了传统度量标准的局限性留下的一个重要空白。

纯方法:另一种度量

态度和行为度量并不是生成有用数字来表示用户体验质量的唯一方法。另一种类型的度量也可以达到类似的目的,但是更实际的方法是:一种基于专家评审的方法,对一个经验进行详细的评估。这是纯方法的基础。

定义:pure是一种可用性评估方法,在这种方法中,可用性专家根据一组标准为设计分配一个或多个定量评级,然后将所有这些评级合并为最终得分,并易于理解视觉表示。manbetx官方网站手机版

要理解纯洁,试想一下电影体验中的一个类比。电影的评判标准是受欢迎程度以及影评人和观众对它们的看法。特别地,量化批评家的诉求,电影评论网站“烂番茄”的特色是Tomatometer表示对电影进行正面评论的认可电影评论家的百分比。该网站还包括观众得分,显示喜欢该电影的用户的百分比。

电影《美丽与野兽》的得分
《烂番茄》为每部电影分配了两个指标:Tomatometer 反映了批评者的看法,以及观众得分 ,表示收视率。

纯如测微计可用性。它提供了一个由熟悉用户体验原则和万博官网manbetx下载试探法.同样地,给电影评分时,影评人认为所有电影中的元素都很常见,比如情节,表演,娱乐价值,美学,技术方面,以及社会相关性。

一个重要的区别是,然而,是吗?不像电影评论家根据自己的喜好和世界观来评价电影,在纯粹的方法中,专家评分员试图提供一个分数,表示某一特定领域的经验有多好,定义良好的目标用户类型。这种方法提高了纯粹小组对相同经验的评价的一致性和可靠性,并允许将纯粹分数合法用于比较目的。

纯分数:摩擦测量

pure只关注用户体验的一个组成部分:易用性。用户体验的其他方面,如审美情趣,有效性(满足用户需求)或者导致的情绪没有得到解决。但是有一个易用性的度量是至关重要的,因为,如果目标用户无法轻松使用给定的产品或服务,他们不能释放它的潜在利益。以下是产品或服务支持的两个任务的纯分数示例:

两个任务的步骤级别和颜色不同,以及不同的总分
两个任务的纯分数

每个任务都有一系列彩色条,它代表该特定任务中的一个步骤。这些步骤中的每一步都是分级和着色的,基于该步骤对目标用户的判断是多么容易或多么困难。每个步骤的评级基于一个简单的1-3等级,由以下评分标准定义:

步骤可以是容易完成由目标用户,由于低认知负荷或者因为这是一个已知的模式,例如接受服务条款协议。

该步骤需要认知负荷显著程度(或体力劳动)目标用户,但通常可以通过一些努力来完成。

步骤是对目标用户来说很难,由于严重的认知负荷或困惑;此时,一些目标用户可能会失败或放弃任务。

这个给定任务的纯分数只是分数之和。在该任务中所有步骤的评分中。这个颜色任务的大小由最差评级在任务中得分。例如,一步一个红色3导致整个任务呈现红色。

纯分数中显示的数字和颜色代表摩擦,与易用性相反。数字越高,颜色越“热”,摩擦越大-类似于可用性严重性评级.比较不同产品版本或竞争对手的同一任务的纯记分卡,可以很容易地看到任务不同设计的摩擦变化。尽管数字越小通常意味着摩擦越小,manbetx官方网站手机版还应考虑步骤的质量,如其颜色所示。pure的一大好处是它考虑了用户的整体努力,而不仅仅是点击或步进。这有助于反驳过于简单的观点,即点击次数越少,成功的程度越高,而是把注意力重新集中在减少用户努力,而不仅仅是点击。(请注意,通常应避免比较不同任务的纯分数,因为他们的性质和目标往往是非常不同的。)

因为纯测量一系列任务中的摩擦,定义要审核的任务很重要。务实地,不是所有的任务都可以衡量,如此纯净,我们只为“基本任务”打分——那些对目标用户和业务至关重要的任务。以下是具有7项基本任务的产品的纯分数示例:

产品的纯分数是可以用该产品完成的每个基本任务的分数之和。

产品的纯分数(本例中为38)是所有基本任务的纯分数之和。就像任务一样,产品的整体颜色由产品中基本任务的最差颜色决定。这意味着任何基本任务中的一个红色步骤(等级3)都会导致整个任务产品颜色为红色。本公约的基本原理是,任何消费品都不应出现目标用户可能无法完成基本任务的步骤。红色有一种倾向,使声明清楚,并集中注意产品中潜在的故障点。

如果这听起来很难理解或解释,举个简单的类比:纯的就像高尔夫-数字越低越好,绿色很好。

纯方法对商业实践的影响

当业务利益相关者易于理解时,产品或服务重要方面的数字表示,就像易用性一样,他们倾向于积极改进,并可能为此设定目标。此响应与任何度量-无论是纯分数还是其他传统度量,例如每周使用的用户总数或分钟数。利益相关者也希望提高这些数字。但是,与其他指标不同,纯分数是操作的-它们显示了导致较差指标的原因以及用户体验需要改进的地方,为改进设计提供清晰的路线图。manbetx官方网站手机版在定期商务会议上表现得纯粹,在讨论产品或业务指标时,有助于确保旨在改善用户体验的项目得到优先处理和执行。

一旦学会了纯粹的方法,比较容易进行纯粹的评价,比较竞争产品的纯粹得分,因为竞争对手通常具有相同的基本任务集和相同的目标受众。当业务利益相关者看到他们的产品如何与竞争对手竞争,以及他们需要改进什么才能获胜时,他们会更加积极地解决由pure确定的问题。商业文化的竞争性质成为努力构建卓越用户体验的重要盟友。

pure的另一个好处是,您可以在尚未完全构建的用户体验上使用它。虽然在功能齐全的产品上进行更准确,纯可以应用于中等逼真度原型或者点击线框——或者比较同一个设计问题的可能解决方案,或者在提交编码之前,看看一个提议的流程如何在易用性方面起作用。manbetx官方网站手机版

如何进行纯粹的评估

使用纯方法对给定的产品或服务进行评分需要采取某些步骤,其中许多对任何跨功能产品都有帮助,manbetx官方网站手机版设计,以及开发团队。需要执行8个步骤和2个可选步骤:

  1. 明确标识目标用户类型。
  2. 为目标用户选择此产品的基本任务。
  3. 指出每个基本任务的快乐路径(或期望路径)。
  4. 确定每个任务的步骤边界,并将其标记在纯分数表中。
  5. 从三位专家评估师那里收集纯粹的分数,他们一起走过基本任务的快乐之路,默默地评估每一步。
  6. 计算评价者独立得分的评价者间信度,以确保专家之间的合理一致。
  7. 让专家小组讨论个人得分的评级和理由,然后就每一步的得分达成一致。
  8. 对每个基本任务和整个产品的纯分数求和;给每一步涂颜色,任务,以及适当的产品。
  9. (可选)对于每个步骤,提供一张截图(或照片)和专家为该步骤评分的理由的定性总结。
  10. (可选)如果比较多个产品或产品版本,准备比较纯记分卡,同时显示相同的纯任务分数。

以下是每个步骤的详细信息。

步骤1:目标用户类型

为了让纯粹的专家能够始终如一地评估易用性,他们必须记住特定的用户类型。假定用户的素质,如技术水平或对当前产品的熟悉程度,将严重影响专家的评估。例如,忘记密码的用户可能会被要求输入发送到智能手机的一次性密码。熟悉这种模式的人会发现这相对容易,但从未接触过它的用户可能会遇到困难。目标用户类型可以由产品经理或首席设计师提供,manbetx官方网站手机版也可以由专家组决定。必须记录有关目标用户上下文的决定和任何假设,尤其是如果未来的比较纯分数是预期的。目标用户类型基于人物角色工作良好,因为他们通常更容易理解并且已经为团队所熟悉。然而,一个定义良好的用户描述也可以在实践中工作,只要专家小组能够理解这些行为的行为和基本原理。明确的目标用户类型将有助于纯粹的评级者在评级上保持一致,而且,让跨职能团队就谁对他们的产品或服务最重要以及为什么最重要达成一致,还有一个额外的好处。

可以根据多个目标用户类型识别和评分。这不一定是纯的两倍或三倍,但是它会显著增加它。在实践中,目标用户类型应限制为不超过2-3个,或者这种方法失去了它的“务实”性质。

第二步:基本任务

基本任务定义为:

  • 对企业成功至关重要(例如,付款/结帐)或
  • 允许目标用户满足其核心需求(假设产品或服务提供满足其中一些需求的价值主张)。

对于大多数消费品和移动应用程序,基本任务通常少于10项,它们形成了一个纯分数产生的基础。然而,网站或复杂的应用程序可能有10个以上的基本任务。我的建议是将任务数量保持在10个左右,不超过20个,至少在你第一次使用这个方法的时候。总是有可能增加更多的基本任务,如果你第一次尝试纯粹是有价值的(尽管你不应该试图比较产品纯粹的分数,而不解释新的任务被添加到以后的分析中)。

第三步:幸福之路

一个给定的任务通常可以通过多种方式来完成,每个方法的步骤数不同。pure要求团队识别“快乐路径”,这是目标用户完成此任务最理想的方式。这条路径是我们让用户轻松完成任务的最佳途径,因此,将纯粹的得分更多地集中在这个特定的流程上是有意义的。

为同一任务评估多条路径是合理的,但是,就像拥有多个目标用户类型一样,这样做会增加进行纯评估所需的时间和精力。也,其他方法,像启发式评估或标准可用性研究,将足以发现和解决其他路径中的问题。我只会在多条路径上使用pure,如果它看起来对测量和比较它们很关键的话。

最后,一些团队选择使用pure来评估“流行路径”,通过查看clickstream分析来确定特定目标最有可能的流程。这是一个合理的决定,对于一些团队来说,这可能会取代一条快乐的道路。

步骤4:步骤边界

一旦幸福的道路确定了,对它们进行检查并确定每个步骤的开始和结束位置是至关重要的。根据产品或服务提供的交互类型,这个过程可能比你想象的要困难。开始的地方是“默认步骤”定义:

  • 开始阶段当系统向用户显示一组选项时(例如,将呈现用户界面)。
  • 步骤结束当用户采取某个操作并期望系统对该操作作出重大响应时。
  • 一个步骤可能包含微相互作用,例如操作表单字段;这些被认为是步骤的一部分。

此定义适用于基于屏幕的界面上的大多数任务,但在某些情况下可能需要一些改进。没关系,只要您记录了为什么偏离步骤的默认定义,所以你可以在后面的纯分析中重复这个决定。也,有时会有关于“预期的重大系统响应”是什么的争论。例如,当用户与某些元素交互时,网页可能隐藏和显示内容,这可能是出乎意料的。或者,当一个长页面包含多个部分时,将每个部分称为一个步骤是很有诱惑力的。然而,请记住,更改页面分区可能会影响将来的纯分数,所以要明确选择这些步骤边界的含义。首席研究员应做出决定并将其记录下来,以确保未来的纯评分一致性。

第5步:由三位专家评审

纯方法使用三个可用性专家(理想的UX研究人员)提供初始纯分数。万博官网manbetx下载重要的是,负责额定流量的设计师或其他产品专业人员不manbetx官方网站手机版属于专家组,因为,在实践中,对自己的设计很难客观。manbetx官方网站手机版

面板组装(在同一个房间,或者远程),所有成员都观察首席研究员在公共屏幕上完成每个任务,并在每个步骤开始和结束时声明。每个小组成员安静地评价和审查每一步,记录评级的基本原理。注释可以包括观察到的可用性问题,如在启发式评估.

启发式评估的一个大区别是,纯粹的,专家组看到了相同的经验,这就确保了他们的评分是一样的——否则他们的分数会大不相同。这一点突出了启发式评估和纯评估在目标上的重要区别。在启发式评估中,其目标是尽可能多地发现可用性问题,并全面了解产品或服务的可用性。相反,pure的目标是提供一个可靠的衡量标准,来衡量最重要的用户类型只完成基本任务的容易程度,通过目前提供的最佳设计。manbetx官方网站手机版分析从这里开始,因为这是最重要的方面。一旦改进,纯方法可以在其他地方使用,尽管可能不需要为所有路径提供数值评分,任务,和用户类型,一旦购买解决了易用性一般是实现的。

专家应该能够输入他们的纯分数而不暴露于其他专家的分数。这很容易通过使用在线电子表格来实现,每个评分员都有标签。任务名称将传播到每个选项卡,所有分数都可以自动呈现到主选项卡上,以便在以后的步骤中查看。

第6步:评级机构间可靠性计算

看看专家们在各自的纯分数上有多一致,是无声提供的,您应该计算“内部评级机构可靠性”(IRR)。内部收益率是衡量评级者同意程度的指标,考虑到他们对目标用户类型和1-3标准的理解。虽然这种计算似乎过于学术化,它确实确保了专家之间达成合理程度的一致,对方法论的健全性很重要。回顾这个数字将有助于专家理解他们是否做出了与纯产品评级相同的假设。

计算内部收益率有多种方法。我建议使用Krippendorff的alpha。要计算它,您可以使用免费的在线计算器,如雷卡尔(选择“序号”数据类型,因为1-3分是序数)。

内部收益率范围为-1至1,但通常在0.5和1.0之间。如果专家不能达到至少0.667的内部收益率,他们应该讨论为什么他们变化如此之大,并简单地将这种纯粹的评估视为培训课程。在专家小组充分理解该准则和用户类型以保持一致之前,通常需要进行2-3轮纯测试,因此,为了学习的目的,计划几轮试错。

第七步:确定的纯分数

在专家们记录了他们的个人评级之后,他们应该完成每个任务的步骤,并一起讨论。这一讨论非常有价值,主要有两个原因:(1)专家评估师将向同事学习,而且,随着时间的推移,将成为更好、更一致的评级机构;(2)专家组将能够决定每一步的单项得分。此“决定分数”将是此步骤的报告纯分数,它将受益于整个专家评估小组的集体智慧。

确定的分数最容易确定何时所有评分者给出相同的个人分数。如果三分之二的人同意得分,通常是决定分数,但并非总是如此。有时,确保讨论可能会导致团队选择不太受欢迎的分数作为决定的分数。这种情况最常发生在两个评级者错过了关于经验的特定假设或关键见解时,但是被另一个评估者解释了。

很少,所有三个评分者将有三个不同的分数。这几乎总是由于对方法或一组假设的不同理解,讨论将毫无疑问地阐明这一点。和纯的其他方面一样,决定的假设应记录在案,以备日后审查和纯粹评分。

纯粹的方法不使用三位专家评审员的平均评分,因为一些很好的理由——一些与1-3评分量表的顺序性有关,但是,最重要的是,一个平均数就会失去决定分数的力量,代表了三位专家评审员的集体智慧,而不是他们的平均水平,无争议的评估。

第8步:把它总结成绿色,黄色的,红色

下一步是简单而令人满意的:将确定的纯步骤分数汇总到任务纯分数中,然后将任务的纯分数求和为产品的纯分数。因为这些数字不是标准化的,它们可以和任务和复杂性一样大。几乎总是有改进的空间,一旦这些数字相加并显示出来。

同样重要的是纯分数的视觉表现。使用杆的高度和颜色来表示摩擦力,已经证明在传递给定产品中的故障点时非常有效。当您认为pure只关注最重要的用户类型时,red尤其麻烦,以及他们在最重要任务上的潜在经验,以及公司在完成这些任务方面的最大努力。

如果许多步骤被评为黄色2,这意味着目标用户必须花费一定程度的努力才能通过它们。这可能是正常的,甚至是不可避免的,根据任务的性质,但是,对于团队来说,真正考虑它可以做些什么来提高易用性是很重要的。即使是被评为绿色1的步骤也有改进的地方。最好确保专家团队的笔记经过整理,并在pure方法的下一部分中使用。

第9步(可选):并非全部是定量的

当评分者从目标用户的角度来完成每项任务的每一步时,他们应该为自己的分数记录他们的基本原理和笔记,并指出可以改进用户体验的领域。这些观察准确地描述了提高纯分数的方法,表面上,产品的可用性。专家组应收集每一步的截图或照片,并将这些观察结果记录到纯报告的附录中,以帮助设计和开发团队了解为什么以及如何进行改进。manbetx官方网站手机版理想的,纯粹的分数是由一组在定性可用性研究中看到产品性能的可用性专家得出的。不要求在其他研究中见证特定产品,但是,至少,纯粹的评审员应该对用户体验和可用性有深刻的理解,精通设计manbetx官方网站手机版原则和一般试探法.

对同一产品进行用户研究(如标准可用性测试)的专家评审员将能够将这些研究的见解应用于对产品的纯评估。一起使用,定性可用性研究和对相同或类似任务的单独纯分析可以相互补充,并提供有关设计中主要可用性障碍的深入信息。manbetx官方网站手机版这种方法的结合可以节约成本和时间,特别是与传统的定量方法相比,例如可用性基准。

步骤10(可选):比较纯分数

纯方法最令人满意的方面之一是在产品版本或竞争产品之间比较相同任务的得分,尤其是当对自己产品的改进得到证明时。下面是将要进行的第一个纯记分卡之一的示例,在一个真正上市的产品上,5个月后,易用性大幅提高。由于保密性的原因,任务名称被通用化了,但是您可以看到,通过重新设计迭代,通过简化一些任务流(切割步骤)以及提高单个步骤的易用性,实现了巨大的改进。manbetx官方网站手机版

对同一产品的三次纯评估的得分表明该产品的新版本有显著的用户体验改进。万博官网manbetx下载

纯粹有效和可靠吗?

虽然此处定义和描述的指标不如基于用户数据的经验指标精确,它们的方向准确,并证明其具有合理的效度和信度得分。将纯结果与在同一产品上运行可用性基准研究获得的指标进行比较时,我们发现,与seq和sus(常用易用性调查指标)的相关性有统计学意义,分别为0.5(p<0.05)和0.4(p<0.01)。分别。这些数字表明pure至少具有合理的有效性,与标准定量指标相比,在统计显著水平(P<0.05)。纯级的校际可靠性计算在0.5到0.9之间。通常非常高(高于0.8),在专家评估师接受了方法培训后,纯方法首先记录在案例研究我和我的合著者詹姆斯·温特在2016年出版了这本书,Jeff Sauro弗雷德里克·博伊尔,还有Sara Cole。

在最近资本一号的纯评估中,三位专家在9项基本任务中获得了1.0(100%一致)的评分间可靠性评分。在这篇文章中,据了解,Pure已经在3家公司使用了超过15种不同的产品。我希望这个数字会增长,随着实践得到更好的理解,并被新的采用者改进。

结论

学着做纯粹的方法需要一些努力,但不是每个人都有资格做,经验表明,它是一个非常有价值的工具,与用户研究方法的景观.纯粹的分数利用了人们对定量指标的兴趣,并提供了具体的数字,使组织倾向于解决易用性障碍。最后,每个人的利益:用户,员工,以及商业利益相关者。有时,它所需要的只是以易于理解的格式显示正确的度量标准,有足够的频率来影响显著的积极变化。