菜单 关闭

用户能否控制和理解由机器学习驱动的用户界面?

通过 拉鲁卡布迪乌12月16日,二千零一十八

总结:在一项关于人与基于机器学习算法的系统交互的研究中,用户的心智模式很弱,很难让用户界面做他们想做的事情。


我们生活在一个信息泛滥的世界里。我们越来越难追踪它,也越来越难为他人手动管理它;幸运的是,现代数据科学可以对大量的信息进行分类,并揭示出与我们相关的项目。

机器学习算法依赖于用户在数据中观察到的知识和模式,对我们可能喜欢或感兴趣的东西做出推论和建议。随着机器学习技术越来越容易被开发人员使用,有人敦促公司利用这些算法来改进他们的产品和用户体验。

此类人工智能(AI)技术用于用户体验的典型用途包括:万博官网manbetx下载

  • 建议(例如,要观看的电影或要购买的产品的列表)
  • 选择广告或内容(例如,新闻标题)显示
  • 交易和特别优惠,个性化的吸引当前用户
  • 个性化快捷方式,一键访问用户下一步可能要做的任何事情

不幸的是,这些算法对最终用户通常是不透明的。人们不确定这些算法考虑了他们的哪些行为,它们的输出并不总是容易理解的。建议和建议可能就在现场,或者显然是随机的和无意义的。经常,这些算法根据不可见的标准对输出进行排序,或者将其分组为不相互排斥的特殊类别。虽然从算法的角度来看这些决定是有意义的,对于非专业用户来说,它们往往过于模糊,与传统的内容结构方式背道而驰。

在本文中,我们研究用户在Facebook上与机器学习算法交互时遇到的一些挑战,Instagram,谷歌新闻Netflix还有Uber Driver。我们的讨论是以一周为基础的日记研究其中,14个现有的这些系统用户用视频记录了他们与他们的交互。

黑匣子模型

要成功地与任何系统交互,用户必须创建心智模型系统的。大多数人不是计算机科学家,也不知道软件是如何实现的,但他们可以根据对软件工件的先验知识,形成一个体面的心理模型,接口,甚至整个世界。在很多情况下,他们将系统视为一个黑匣子,并确定如何通过播放可能的输入来更改系统的输出。

机器学习算法就是这样一种用户黑盒系统。他们知道算法使用一些动作作为输入,并且可以看到输出是什么。为了成功地与算法交互,用户必须形成一个工作原理的心理模型,并找出如何改变输出以满足他们的需要。创建这个模型有两大障碍:

  1. 输入不明确:不清楚要考虑哪些用户的操作来生成输出。
  2. 对输出缺乏控制:即使人们知道他们的哪些行为被算法视为输入,目前尚不清楚这些输入是否能有效地产生所需的输出。
黑盒是一种具有多个输入和输出的机器学习算法。输入包括抽头,比如,手表,保存。用户想知道“我的操作中哪一项很重要”和“我如何更改输出”?
黑匣子模型

我们分别讨论这些原因。

输入不明确

输入缺乏清晰性,使得创建一个准确的黑匣子心理模型的问题相当困难。输入状态不清楚的原因有几个:

  • 算法不透明-它并没有明确地告诉人们他们的行为中哪一个重要。
  • 用户不知道可能输入的范围,例如,因为它们不局限于系统或平台内的操作,但来自其他行为数据(例如,访问第三方网站)。
  • 输入和输出之间存在延迟:某些操作可能不会立即影响用户在同一会话中看到的输出。

在我们研究的机器学习系统中,Netflix在帮助用户理解推荐系统考虑了哪些行为方面做得最好。Netflix的主页(以及主要的分类登录页面)通常是一组长长的列表;这些列表中的许多都有标签来解释它们是如何创建的。-因为你看过克里斯汀·麦康奈尔的奇幻作品,因为你把7月22日加入了你的名单,等等。

两个Netflix列表:“因为你观看了Christine McConnell的奇幻作品”和“因为你在列表中添加了7月22日”
Netflix解释了推荐系统使用的一些输入。

人们非常欣赏这些建议,不仅因为他们能感觉到控制,而且因为他们给了他们关于正在显示的内容的有价值的信息。

然而,即使是Netflix也没有完全成功地创建一个很好的理解用户的操作是如何被考虑到创建建议的-同样,因为这些操作没有立即反映在算法的输出中。例如,一位参与者对她顶部 挑选似乎没有受到她上一次使用Netflix时观看的单口喜剧节目的影响。她说:顶镐改变了-我想是基于我所看到的,但这和我看的没关系,没有太多的喜剧。”一个Facebook用户花时间在她的新闻提要上隐藏一个广告,结果却看到同样的广告在页面上重复出现。另一个人想知道为什么顶镐与她的Netflix监视列表重叠太多了:“顶部 挑选-我不知道他们是怎么得到的,我确信有某种算法或其他东西,但我希望它能更好一点,因为很多东西都是我多年前看过的,或者我名单上的东西,或者我完全不感兴趣的东西,所以我想,嗯,我想知道他们为什么推荐这些东西。”

Facebook和Instagram用户很难理解他们的哪些行为对他们的新闻提要上显示的内容真正重要。他们认为他们在新闻提要中的帖子喜欢该算法将按钮及其相关项考虑在内,以确定向按钮显示的内容。但是一些关于可能输入的理论显然是牵强的(有时技术神话)并反映出算法缺乏透明度。例如,一位用户注意到:“这很有趣,也很令人毛骨悚然——昨天我说的是渴望照片,我通常不吃,现在我看到这则广告是关于菲布丽托的;我想知道他们是否只是记录下你的谈话,“一看到夏威夷航空公司的广告,一位参与者说,半开玩笑半认真,“也许他们知道我需要休假。”还有一个:“自从我怀孕以后,我收到关于怀孕的广告,婴儿用品,以及人寿保险。输入缺乏透明度会让用户产生怀疑——他们假设算法几乎考虑了他们的每一个行为(无论是在线的还是现实世界的),最终他们相信系统比实际情况更“恐怖”和更具侵入性。对隐私的日益关注以及对谷歌和Facebook等公司所控制的大量数据的关注,促进了这种认知。

谷歌新闻用户普遍对应用程序为他们所做的成功个性化感到满意,但他们也不确定它是基于什么类型的数据。一位参与者说:“这个[谷歌新闻应用程序]似乎迎合了我和我的兴趣[……]——事实上有三篇与汽车有关的文章,manbetx官网手机登陆这是我感兴趣的话题。如果知道为你页面已生成。[…]有我的地方故事,所以很明显它知道我的位置,这很方便。”

虽然Uber本身并没有提出建议,据称,它利用机器学习来预测需求,并以价格飙升的形式为驾驶员创造激励,促销,以及游戏化(例如,Uber司机可以利用“任务”,当他们在指定的时间段内驾驶一定数量的游乐设施时,这些任务会给他们额外的收益。manbetx官方网站手机版Uber算法本身并不基于驱动程序操作;相反,它的输入可能主要是外部数据,如历史交通模式。然而,即使在这种情况下,对这一投入的清楚理解对司机是否被某些促销活动所说服有一定的影响。例如,一位司机接到通知说,他需要开15分钟的车去接一位在2.3英里外的乘客,而且可以加价。他说:“这是一个令人恼火的新功能。我想过去你只有5分钟的车程[去接乘客],但这一条表明15分钟的距离和溢价是可能的。我以前有过,但没有发生。我猜这只是一种引诱司机长途旅行而不买票的方法。…]我不喜欢这种可能的额外费用。“不明白为什么会提供额外费用,以及它基于什么,这让司机怀疑优步的意图。

输出缺乏控制

在我们研究的所有系统中,输出不仅取决于用户的操作,还取决于外部事件,如其他人的帖子,新闻报道,新电影发行,或交通。如此广泛的数据使得更难理解如何控制算法,以及如何将用户自己的操作的效果与第三方操作的效果隔离开来。

当根据一些自动预测确定了一组相关项目时,通常这些项目的显示顺序以及它们是否显示都由相关性度量:首先显示相关性高的项目,其次是不太相关的项目。如果相关性低于某个阈值,项目可能根本不显示。(Netflix以匹配分数的形式显式显示了此相关度量。这个指标本身对用户没有直接的意义——我们研究中的人完全忽略了这个分数)。

虽然有人可能认为,一个良好的相关性指标不应将重要项目放在清单的较低位置,事实上,这些系统只收集有关用户的零碎信息,他们是一个复杂的个体,他们的需求不仅取决于过去的习惯,还取决于环境甚至情绪。(例如,一位参与者说:“我希望有一种方法可以隐藏Facebook上所有的悲伤帖子。”一些海报可能会引起高度关注,但很少,因此,系统可能无法积累足够的相关数据。)因此,即使是良好的相关度量也很可能无法正确地预测相关性——至少偶尔如此。

由于相关性指标不完善,出现了一些问题:

  • 一些感兴趣的项目被遗漏了。(在信息检索术语中,这相当于低召回率.

    对于用户来说,遗漏一个高相关性的项目可能会代价高昂。在Facebook和Instagram等网站上,如果你的一个最亲密的朋友错过了一个帖子,可能会导致烦人和恶化你的体验。事实上,这些网站上的新闻提要只包含新帖子的一个子集,这对我们的参与者来说是一个很大的麻烦。一位参与者说:“我需要与算法抗争,以获得我希望看到的账户。”人们试图根据他们(通常是错误的或支离破碎的)系统工作原理的心理模型来控制算法。一些人(通过喜欢按钮)他们感兴趣的页面上的所有文章,希望能说服算法不要再错过那些帖子。意义喜欢因此,它超越了它最初的文字和社会内涵(像是用来表示对内容或海报的欣赏的东西),开始被解释为对算法有某种控制权的一种方式。

    即使是那些认为自己可以操纵算法的人,也常常怀疑算法的有效性。他们不停地直接访问那些他们感兴趣的人或组织的新闻提要,以确保他们不会错过内容。

    遗漏一个高度相关的项目并不总是那么昂贵。例如,在Netflix或Spotify上,用户可能对成千上万的项目感兴趣;漏掉一个不太可能引起人们的抱怨。

  • 项目顺序不可预测或不容易理解。

    丢失对用户重要的项不仅是因为算法没有将其包含在结果列表中,但也因为它没有把它放在足够高的清单上。最终,这种关注与注意力经济有关:如果人们对新闻或社交媒体的注意力有限,那么,对它们来说很重要的项目可能会被忽略,因为它们在输出列表中的位置太低。

    我们看到的一些推荐系统,这些建议的排序对用户没有任何意义:人们不明白为什么他们的Facebook订阅上的某个帖子比另一个帖子先出现,他们也不知道为什么一部电影比另一部在Netflix传送带上放映的要早。

    Facebook上常见的投诉,Instagram,谷歌新闻称,报道的顺序不是按时间顺序排列的。正因为如此,很难预测你是从一个人身上看到了一切,还是错过了一些帖子。同样地,有消息,参加者担心,对他们来说不太重要的有趣故事(如一篇与汽车相关的文章)可能排在一长串的第一位,并且可能会让他们错过最近的一般兴趣新闻项目。

    对于Netflix,构成建议的特设类别(例如,因为你看了…,顶部精选)掩盖了人们已经形成的自然范畴。例如,有了视频内容,共同关心的是时间(例如,用户可能知道他们只有1小时的时间观看)或节目类型。然而,在Netflix创建的类别中,电视节目与全长电影混合在一起,在没有区分标记,人们没有简单的方法来过滤它们。

  • 向用户提供了一些低兴趣的建议.(在信息检索术语中,这相当于低精度

    不好的建议对用户来说代价高昂——他们必须检查他们,识别他们不相干,和跳过过去他们。然而,在不同类型的系统中,坏建议的成本并不总是相同的。使用Netflix的传送带布局列表,一个不好的建议可能相对容易被忽略——一部无趣的电影不会占用太多的页面空间,人们可以很容易地移动它。

    Netflix主页
    Netflix:一个坏的建议在列表布局中占用相对较少的空间;人们很容易忽视它。

    在Spotify或Stichfix(服装运输服务)等系统上,用户不能忽视一个坏的建议——他们不能简单地坐着听他们不喜欢的歌,或者穿一条不是他们风格的裤子。Facebook介于两者之间:一个不相关的帖子或广告占用了页面空间,需要人们滚动浏览。

    Facebook上的巴塔哥尼亚广告
    Facebook上一个不相关的广告可能占据整个视窗,需要更多的努力去忽略,而不是在Netflix上一个糟糕的电影建议。

    忽略坏建议的成本将决定人们直接提供项目反馈的可能性。例如,在Spotify上,他们不仅会参与系统并对坏项进行评级,以调整算法,但为了避免自己坐在那里听不喜欢的歌。在Facebook上,我们确实注意到用户偶尔会与隐藏广告按钮,但因为它隐藏在菜单下,有些人认为这样做不值得。而不是贬低糟糕的建议,人们专注于像-很好的建议。

    与广告关联的Facebook更多按钮
    Facebook:很少有用户利用隐藏 隐藏在更多 按钮。

    被推荐内容占用的不动产(或处理时间)越多,反馈按钮应该越突出。如果推荐的内容很容易被忽略,提供反馈的方法可以是次要的。

个性化不应增加用户的工作量

我们在上面看到,在用户体验中,最成功的推荐算法是那些能够向用户传递他们使用的输入的合理的心理模型的算法。特别地,我们的研究参与者喜欢Netflix因为你(观看/添加到列表等)建议列表。

然而,这种方法的一个问题是,同一个项目最终可能会被推荐多次。例如,包含在因为你看了…列表也可以出现在我的名单或在顶镐.当人们遇到这些重复的物品时,必须付出额外的努力因为,至少,他们必须认识到他们以前见过他们,然后搬过去。一位用户评论道:“为什么要有不同的列表并保持重复?我讨厌这些重复的清单。我看了一遍,看到了和以前一样的东西,这让我很恼火,因为我觉得这是浪费时间…

Netflix:同一部电影(“西蒙妮小姐发生了什么事?”)出现在下面给你的建议 在下面爵士乐和轻松聆听 列表。

但重复的工作不仅限于重复的项目。Netflix承认超越了内容个性化,并创建了个性化的(甚至是特定于会话的)主页布局个性化封面艺术视频。

这两种个性化都可以增加交互成本

  • 特定于会话的缩略图,描述,标题

    个性化地将一段内容呈现给特定用户的方式在吸引注意力方面有很长的路要走。我们的研究参与者呈现了过多的内容,他们很快浏览了一遍,看了一眼缩略图,读了一到两个字的文本。一位Facebook用户说:“我通常都不看别人写的东西;我只是浏览了一下,”一位Netflix用户评论说,“我在寻找不同和有趣的东西,封面艺术引起了我的注意。”

    在Netflix上,两个不同的用户不仅可以看到同一电影的不同缩略图(例如,“帝国游戏”),但是同一个用户可能在两个不同的会话中看到同一部电影的不同缩略图。

    Netflix:同一个用户在不同的会话中看到了电影chappaquiddick的不同缩略图。

    理论上,这种做法可能会增加人们喜欢和观看电影的机会,因为电影的不同方面将在不同的课程中得到强调,其中一个可能会引起用户的注意。不幸的是,这种不一致性也使得电影不那么令人难忘,浪费了用户的时间:人们最终可能会访问电影的详细页面并多次检查描述,结果发现他们仍然不感兴趣,或者他们已经把那部电影加入了他们的收视名单。

  • 会话特定布局

    Netflix还根据用户对主页布局进行个性化设置,会话,和设备。因此,继续观看在一个会话中,一个用户可能会非常接近页面顶部,或者在下一个会话中位于页面下方。这种做法是自适应接口和限制的一个例子学习页面布局。因此,喜欢开始浏览并检查新添加内容的用户可能需要主动查找最近加入列出并不会受益于在之前的会话中找到该列表。因为Netflix是一个浏览量很大的界面,更改不同建议列表的顺序对我们的用户池没有重大影响;然而,一般来说,这种做法已被证明会显著降低用户体验。

建议

我们研究了相当有限的系统,这些系统严重依赖机器学习算法向用户呈现内容。以下是一些经验教训:

  • 努力建立精确的算法心理模型.透明地了解哪些人的行为可以促进算法的输出。
  • 给人轻松控制输出机器学习算法。允许他们以熟悉或自然的方式对输出进行排序或重新组织。坏推荐的成本越高,向系统提供反馈越容易。
  • 不要重复内容如果它适合多个类别。
  • 对单个用户进行个性化设置然后坚持这种个性化的设计;manbetx官方网站手机版在会话级别进行个性化设置和将用户下的用户界面从一次访问更改为下一次访问时要小心。
  • 拾取视觉属性有可能吸引用户,因为当人们必须消费大量的内容时,它们是非常重要的。
  • 前载描述以及支持大量数据扫描的标题。

遵循这6个用户体验指南将增加人工智能万博官网manbetx下载超越高级技术的可能性,从而积极支持用户并提高他们对体验质量的满意度。