菜单 关闭

超越NPS:在完成任务和可用性测试后,使用SUS,NASA-TLX和单一缓解问题测量感知可用性

通过 Page Laubheimer2018年2月11日

摘要:Post-test questionnaires like the SUS measure perceived usability of an entire system; post-task scales suggest of problematic parts of a manbetx官方网站手机版.


在可用性测试期间,UX研究人员经常要求参与者使用产品或网站提供他们的体验的主观评估(通常以评级的形式)诸如SUS,NPS或任务难度问题之类的工具是最受欢迎的选择然而,对于许多新的UX从业者,这些工具的精确的目的(和管理和分析它们的正确方法)通常是神秘的What do they truly assess, and what’s the proper methodology for using them? When should they be administered — in-between tasks or at the end of the session, and why does that matter?  Why would you use one of the standard questionnaires rather than create your own?

所有这些问卷都代表了自我报告定量数据; they are rarely meaningful by themselves, with no performance data (such as success rates or task times) to complement them所有这些问卷的格式通常是a评级 规模:给予参与者一个问题,并要求选择答案,通常是5或7分制(我们不建议使用超过7个选项的比例)。实际的收集数据的方法非常简单:问题可以通过测试管理的在纸上主持人,或者使用一个数字调查工具(这是典型的方法用于远程不加节制的测试)然而,知道何时以及为何使用哪种问卷对于许多新兴的测试辅导员来说更难以捉摸。

任务后与测试后问卷调查

在可用性测试期间使用了两类问卷:

  1. 任务后问卷调查完成任务后立即完成获取任务的参与者的印象当每个任务后面跟着一个这样的问卷时,通常会有从每个用户收集的许多主观答案,因为通常会有许多个人任务在可用性研究会议中。
  2. 测试后问卷are administered at the end of a session (or after the participant has finished all the tasks pertaining to a site)他们反映您的用户如何看待您的网站或应用整体的可用性(即他们持久的整体印象是什么)用户对整体体验的印象受制于高峰效应(也就是说,经验中最激烈和最后的部分,无论是积极的还是消极的,最能影响参与者的回忆和评价)。

Post-task and post-test questionnaires aren’t incompatible; in fact, in most quantitative studies, it’s useful to collect both(But be careful about tiring out your participants!) While these metrics do correlate fairly strongly, it’s not a perfect relationship; one type of quantitative data gives us a rather limited picture of the overall usability of the system, and the more metrics, the clearer the picture we can develop.

Both these types of instruments are indicators for the current state of the subjective user experience; you can use them to compare your current manbetx官方网站手机版 against future iterations (or known industry benchmarks)这些 metrics do告诉你原因用户与你斗争manbetx官方网站手机版,它们也没有提供关于如何改进它的直接见解它们只是一种跟踪用户对使用产品体验的感受的方式。

值得注意的是,这些问卷是定量工具,因此需要样本量更大(通常至少20-30个用户)确信他们的结果是一般化的收集定量数据与小样本大小(如我们通常建议5用户在形成性,定性可用性测试期间)几乎肯定不会产生统计上显着的发现但是,如果将主观评定量表与后续问题结合起来,为什么你给[站点X]得分[Y]?即使您只测试少数用户,您也可以获得有关人们对manbetx官方网站手机版的看法的有用定性见解(只是不要对平均分数做大不了。)

在大多数情况下,我们建议使用标准问卷比本土,因为前者受到很多研究的支持演示合法性(他们实际上衡量他们打算衡量的东西),可靠性(用户将始终以相同的方式回答问题),以及灵敏度(他们可以发现有意义的差异)。

系统可用性量表(SUS):可用性的测试后评估

用户体验研究中最着名的调查问卷是系统可用性量表(SUS)从20世纪80年代的命令行界面开始,SUS就已存在,并且已经在实验上反复证明是有效和可靠的它是由Digital Equipment Corporation的John Brooke发明的SUS测试后仪器,给参与者一个完整的可用性测试会话结束后(或者在测试多个站点,像竞争性评估,在参与者处理了与网站相关的所有任务之后)。

SUS调查问卷显示所有10个李克特量表问题
系统可用性是一个规模测试后问卷包含10个不同的问题,解决系统的可用性和可学习性如果您想将您的分数与从其他manbetx官方网站手机版收集的分数进行比较,请勿更改SUS问题的顺序或措辞。

SUS是一系列10个李克特量表问题,得分为0-100但是,0-100的分数是不相等一个百分比的分数,比如考试——杰夫Sauro进行了广泛的SUS分数的基准测试在许多不同的系统中,并且在500项研究中发现平均SUS评分为68分为了使您的网站在所有网站的前10%中的可用性,您需要得分为80或更高,而得分为73将使您只在前30%。

One of the biggest advantages to using the SUS is that it’s such an old scale that there is a large amount of industry-wide data available to help benchmark your score and understand it in context of your peers and competitors — something that less widely used survey instruments can’t provide请注意SUS强烈相关有一个更简单的指标,单一问题净推荐人得分They do provide different data, but for many organizations, the NPS may be more useful overall, as it’s a simpler metric to collect (one question versus SUS’s 10), and is a well-established general bellwether for the company (even if it’s not as sensitive to UX-focused concerns).

单一问题(SEQ):任务后满意度

In contrast to the SUS, post-任务问卷在测试期间的每项任务结束时进行他们是有用的有两大原因:

  1. 它们允许您比较界面(或工作流)的哪些部分被认为是最有问题的,因为您之后收集了这些数据一切任务。
  2. 由于任务本身就得出结论,它是新鲜的参与者的想法,因此她更能提供一个清晰的表明她的态度体验,着色她的记忆没有后续任务。

任务后问卷调查需要很短(1-3个问题),以尽可能少地干预测试环节中使用网站的流程。

There are several widely used questionnaires in use; in most cases a单问题工具是适合定量可用性测试的,因为参与者在完成任务后回答它并且破坏性很小,所花费的时间和精力很少自与用户共度时光是宝贵的,最好使用有效的调查工具评级问题只给你稍微更多的见解比你来自一个简单的问题,所以最好是投资你的时间预算在其他活动,如额外的测试任务,比问subjective-rating问题。

“单一的缓解问题”(SEQ)是这个想法的一个有用而简单的版本,经过实验验证并证明是可靠,有效和敏感的SEQ要求用户评估他们刚刚完成的活动的难度很容易非常困难在7分评级量表上。

单一轻松问题评定量表
Single Ease Question(SEQ)一个单问题的任务后问卷根据上次尝试的任务测量用户对可用性的感知由于参与者心中的任务仍然很新鲜,因此他们的答案可以对该特定任务的体验进行有用的评估。

细粒度的任务后问卷调查可能表明他们可以产生更多的可操作的结果manbetx官方网站手机比粗版团队发现用户的总体印象通过检测后的乐器However, there is less data available for comparing your SEQ results with those from other companies (and the tasks being compared would need to be comparable anyway), so you’re mainly restricted to finding out what tasks are relatively easier or harder within your own system.

NASA-TLX:任务后工作量

NASA-TLX(任务负载指数)是另一种类型的后任务问卷,对于研究医疗保健,航空航天,军事和其他高后果环境中的复杂产品和任务非常有用它在用户体验工作中的使用频率较低,但它是许多人因和人体工程学研究中使用的标准问卷。NASA-TLX于20世纪80年代出现,这是NASA努力开发一种仪器,用于测量航空航天机组成员复杂,高技术任务所需的感知工作量的结果。

NASA-TLX包含6个问题,用户必须以未标记的21分制回答,范围从非常低的很高。每个问题都涉及感知工作量的一个方面:心理需求,身体需求,时间压力,任务感知成功,整体努力程度和挫折程度在初步评估之后,用户权衡他们刚刚完成的六个类别中的每一个,以指出哪个类别对他们正在做什么最重要 It’s a complex instrument to score, but thankfully NASA has released the TLX as a免费的iOS应用程序

NASA TLX仪器,显示6个未编号的评定量表
NASA-TLX仪器要求参与者对他们在这6个等级上执行的每项任务进行评级,每个等级以21分为增量它提供了丰富的数据,说明任务在多个不同领域对用户的需求,但需要时间和专业知识,以便在研究期间收集Image from the official NASA-TLX 纸和铅笔工作表

虽然NASA-TLX经常被用作关于复杂的关键任务系统的人因研究中的关键指标,但它也可以用于其他类型的用户体验研究,但有一些注意事项:

  1. 这是一个相对复杂的调查问卷,需要在每个关键任务之后得到解答,因此会在整个测试过程中增加大量时间(以及潜在的参与者疲劳)。
  2. 它可以破坏学习流程,并使参与者的体验比在测试场景中顺利进行时更不自然。
  3. 通常需要辅导员多次解释该仪器(特别是与之间的区别功夫精神的需求, 例如)。
  4. 在研究人为错误非常不受欢迎的情况(医疗保健,运输,复杂的金融领域等)时,它最有用。

Because of the complexity of this instrument, it’s not typically a good match for UX studies of consumer products or simple workflows对于高度复杂的过程, performed by trained workers, where users cannot choose which应用程序他们使用和错误有很高的后果,NASA-TLX是首选问卷与SUS一样,NASA-TLX发布了许多研究和行业基准,以帮助您了解背景中的分数,并能够将它们与竞争对手进行有意义的比较。

这些指标的局限性

本文中讨论的各种满意度指标受到以下限制:

  1. 它们是自我报告的数据,可以是靠不住
  2. 它们衡量主观用户感知,而不是客观表现虽然有一些满意度与客观绩效之间的相关性metrics (like task completion rates, time on task, or errors), satisfaction metrics usually tell a clearer story when combined with performance metrics.
  3. 这些指标可以告诉您用户的满意度是多少,但不要指出体验的任何弱点或优势(或者您可以通过改进来改进它)此外,每个参与者可能具有截然不同的感觉,例如7中的5个意味着什么。
  4. 与所有量化指标一样,低样本量(如我们通常为每轮定性可用性测试推荐的5个用户)不太可能提供统计上显着或有意义的结果。来自5个用户的数字数据不应该通知manbetx官方网站手机版决定,并且用这么小的样本收集的报告数字是非常误导的。

总结

解决用户满意度和可用性感知的自我报告数据通常与其他类型的绩效指标一起收集在定量研究中Three popular instruments are: the post-test System Usability Scale (SUS), which provides helpful information about a user’s takeaways and overall experience; the post-task Single Ease Question (SEQ), which offers information about the usability of different task flows; and the post-task NASA-TLX, which is appropriate for measuring workload in complex, mission-critical tasks由于所有这些都是定量测量,因此需要相当大的样本量来提供有效的测量。

对于实际的用户体验研究,我们建议简单的满意度调查问卷,尽可能少的问题要问的问题取决于您的研究目标:

  1. 多数情况形成性,定性研究:
    • 你对这个网站有多满意?加上后续的问题你为什么得分[X]?这会给你见解用户体验的任何方面对用户的满意度最重要,这是从主观用户反馈中学习的主要内容。
    • 如果你特别感兴趣的单个组件的可用性UI,使用单一的缓解问题在每个任务和要求用户解释他们的分数(然而,通常是更准确的判断的可用性manbetx官方网站手机版元素通过直接观察,而不是主观分数。)
  2. 总结性的定量研究为了基准站点的可用性(通过比较它与其他manbetx官方网站手机版迭代,或与竞争对手):
    • 在大多数情况下,使用后的SUS测试和SEQ每个任务后,满意度指标来补充其他性能指标如成功率和时间的任务。
    • 如果您有复杂的任务关键型工作流的特殊情况,请将SEQ更换为NASA-TLX。
  3. 如果你想评估商业您的用户体验的影响,请问NPS问题,你有多大可能向朋友推荐这个网站?

在我们的全天研讨会上了解更多信息衡量用户体验