任何UX-Research研究旨在回答关于我们的设计或关于我们用户的一般性问题。我们的用户人口的百分比将能够订阅我们的时事通讯?人们在我们的网站上遇到什么主要的可用性问题?设计比我们的目标受众更具可用性吗?但是,随时我们建立了一个ux研究的研究,是否量化或定性,有危险的危险是,它不会反映我们想要捕获的现实,因为该研究设计不佳。

有两种大类的学习设计错误:

  1. 内部有效性偏见参与者对某种反应或行为的错误
  2. 外部有效性捕获对我们目标受众没有特征的行为或情况的错误

我们将单独讨论这些中的每一个。但在我们这样做之前,让我们注意到有效期与可靠性。一项研究的可靠性只意味着如果重复该研究,您将获得相同的结果。换句话说,发现不是随机的。有大量的统计方法可以计算学习可靠性程度,以及提高可靠性的主要方式是测试更多参与者。但无效的可靠性并不好:具有高可靠性和低有效性的研究是一个你真正衡量错误的东西的研究。

用户体验研究的内部效度

想到一个比较两个网站A和网站B的研究。您正在尝试决定哪两个更好,您始终将参与者展示第一个,请他们完成一些任务,然后移动设计B并向他们展示相同的任务。这项研究设计是否有可能产生准确的结果,反映现实?换句话说,这项研究将确定更好的设计吗?

不一定。这项研究设置有利于设计B,因为当他们达到它时,参与者将已经习惯于测试情况和任务域-如果他们正在测试汽车租赁网站,当他们到达站点B时,他们已经知道什么是LDW(损失-损害-波动),并且他们可能对租赁过程的步骤有一定的期望。他们也会知道你期望他们做什么,以及他们应该如何完成任务。因此,本研究缺乏内在效度。(解决这个问题的通常方法是交替选择哪个站点先走,让一半的用户先尝试站点B。)

定义:一项研究有内部有效性如果它不赞成或鼓励任何特定的参与者的响应或行为。

内部有效性是定性和定量研究的问题。伴随着质的定性研究,促进者可能无意中偏见或引出某种反应来自参与者。例如,即使是一个简单的问题,如“你发现结账难吗?”可能使研究结果无效,因为参与者是灌输要想到困难,所以他们可以识别出多于正常(就像Richard Nixon的“我不是骗子”声明)。

通过定量研究,缺乏内部有效性可能会产生偏斜的结果,但不反映现实。例如,您可以在一个基准测试研究,发现您的时间在任务上的时间更好地在网站上的重新设计版本而不是原始版本,并且您可以推断您与重新设计做得很好,事实上,差异是由于不同的研究协议 - 原始测试使用了思考 - 大声协议,但重新设计的测试没有。(并且大声思考确实需要一些额外的时间,所以它可能导致更长的任务时间。)

在本例中,协议是混淆变量- 一个可以影响您学习结果的隐藏变量,但在您设计的研究时,您没有考虑到。

外部有效性

外部有效性是关于您的学习的自然主义者。

如果您正在为普通人群设计老年人和招聘学习参与者,那将有效吗?它会告诉你关于你真正的观众的内容吗?可能不是,因为年轻的参与者可能表现得比旧的参与者不同。或者,如果您在桌面上测试移动设计,您的发现会推广在野外使用设计吗?也许是的,也许不是 - 肯定是不可能的(除非你做另一个学习)。在这两种情况下,研究缺少外部有效性。

定义:一项研究有外部有效性如果参与者和研究设置是代表使用设计的真实情况的代表。

外部效度的概念也适用于定性和定量研究,原因很明显。

学习设计的建议

以下是一些建议,以帮助您设置内部和外部有效的研究。

内部有效性

随机化对于确保内部有效性至关重要。

  1. 使用任务随机排序。

任务订单可以偏见任务响应。在一项研究开始时,人们通常是学习环境的新增功能,以及他们正在测试的系统。它们需要更长时间才能在会话中执行第一个任务,并且可能比正常的错误更好。另一方面,会话结束时显示的任务可能会看到参与者疲劳的效果。

这就是为什么我们强烈建议在任何测试中,无论是定性还是定量,您都尽可能多地随机化任务的顺序。(但是,有时,在此建议之后可能并不完全可行 - 例如,如果任务是登录存款检查,可能是不可能的存款检查跟随登录)。

此外,为了减轻每个会议开始时的学习阶段,我们建议您准备1-2预热任务(心理学家称他们为他们实践试验)对于您的研究无关,并且意味着让参与者熟悉和舒适地与学习环境和学习程序。我喜欢选择轻松的任务,让参与者的信心并让他们感到放松。但是,如果您确实使用了预热任务,请确保您在分析中不包含它们。

  1. 如果您的研究对比了两种或两种以上的情况(例如,您希望将您的网站与竞争对手的网站进行比较),那么每个参与者都将面临所有的情况(例如。,在主题设计中),您应该抵消或随机化每个参与者接触到这些条件的顺序(例如,他们看到您的网站和竞争对手的顺序)。

此建议与前一个建议相关-随机化任务顺序。但是,如果你正在测试,比如说,2个电子商务网站,有时要求参与者在网站1上购物,然后在网站2的愿望列表中添加一个项目,然后返回网站1订阅时事通讯,然后在网站2上购物,这可能是不现实或不可行的-如果你愿意,这将是一个有害且可能令人困惑的设置,例如,收集测试后问卷,如nps.对于会话结束时的两个设计。

在这种情况下,我们建议您将设计1的所有任务组合在一起,以及一起设计的所有任务。但是,您应该随机化参与者看到两种设计的顺序 - 一些参与者看到设计1和其他人首先看到设计2。并且,在每个设计本身内,任务的顺序应该随机化。

  1. 控制研究设置从一个会话到下一个会话,寻找混淆变量 -隐藏的因素可能影响您的结果。

例如,假设一个研究人员对比较两个站点感兴趣,并使用主题间设计。她决定与上午的参与者一起学习站点A,与下午的参与者一起学习站点B。如果她最终发现参与者在A点的表现更好,可能是因为A点更好,也可能是因为人们早上不太累。

同样,如果一位同事帮助您促进研究和划分网站 - 您将与网站A的会话带走,她接受网站B,辅导员是一个隐藏的变量。这可能是一个促进者的风格比其他人更偏见,或者一个促进者是一个自然是一个更令人愉快的人,参与者觉得更加健谈和放松她。

因此,如果您知道将有任何因素需要从一个会议到下一个会议时需要不同,请确保它们因您研究中的所有条件而异。

当您为您的组织组成基准计划时,仔细规划内部有效性至关重要。您必须仔细记录您的学习条件(任务措辞,学习协议,无论是习惯的,等等),以便他们可以在进一步的研究中复制,以便随着时间的推移确定设计改进。否则,系统和先前安装的当前版本之间的差异可能只是由于研究设置而不是可用性改进。

外部有效性

  1. 招募代表您的目标受众的参与者- 在人口统计数据和用户目标方面。

一般来说,研究人员创造了非常小心筛选者与他们的人口的确切人口统计数据相匹配,但这可能不足以确保外部有效性。可能是您的参与者处于合适的人口统计学,但与您的用户有不同的目标(或者他们根本不够动力)。始终努力找到可能与您的用户具有相同目标的参与者。

  1. 以您的能力,自然形势复制其中参与者将使用他们测试的UI。

您的参与者是否应该在车库中使用您的汽车维修移动应用程序?那就别让他们在会议室里测试了。环境-光线,脏手,手机的位置,可用的时间,可用的工具-都有可能发挥作用,如何使用这个应用程序。

但是,有时,研究可能是不可能的外部有效。

外部有效性总是可能吗?

在某种意义上,任何研究都会缺乏外部有效性 - 我们很少使用与陌生人的界面观看在我们的肩膀上,坐在桌子或实验室。(在某种程度上,人们甚至可能争辩说远程研究比在人的自然环境中更加有效,因为至少参与者可能在他们的自然环境中。)我们还知道参与者倾向于略有不同 - 更符合且更持久的 - 在可用性测试情况之外。

此外,有时,在自然环境中测试设计可能太成本了。例如,我们是伟大的倡导者纸质原型设计,但这些类型的测试将始终缺乏外部有效性。那么,我们该怎么办?

在这些情况下,一些测试比无测试更好。通过纸质原型设计,您的结果可能在外部有效,您必须在自然条件下重新测试。但纸质原型的目标是识别任何大障碍,以便您不会花钱实施完全关闭的东西。因此,运行纸质原型研究,确定大问题,修复它们,然后向前迈进高保真原型您可以在分类条件下测试,参与者将用于完成任务的设备。

缺乏外部有效性的另一个常见情况是移动测试- 大多数参与者不会使用移动设计不间断,坐在桌子上,并连接到WiFi。但是,它可以是可以接受的,以便在该设置中测试,以确定即使在大连接的最佳情况下也会遇到的问题,也不会中断。这些可能是许多移动站点需要解决的第一个问题 - 如果该网站即使在理想条件下存在问题,则设计需要修复。一旦您拨出这些问题,您仍然需要在更现实的条件下重新测试。

同样,一些定量研究专业人员建议只有在某些定量研究中仅包括专家参与者,以减少可变性(缺乏可变性转化为研究结果的较低误差幅度,并且可以允许研究人员减少参与者的数量)。专家用户将为您提供最好的情况,只要您不认为结果将概括为您的所有用户,您应该没问题。

一般来说,如果你发现自己被迫牺牲一些外部有效性,你总是在语境中解释你的发现是至关重要的,并意识到他们如果要在现实条件下复制这项研究,他们可能不会稳定。

结论

计划不周的研究将导致无效的结果。你可能会浪费时间和金钱去进行一项研究,而这项研究并没有告诉你任何关于你的产品或你的受众的信息。注意你的研究的内部和外部有效性-努力招募代表你的目标受众的参与者,并确保研究设置复制你的用户在现实生活中使用系统的方式,并且不鼓励任何一种行为或反应。