菜单 关闭

用户可以控制和理解由机器学习驱动的UI吗?吗?

通过 拉鲁卡布迪乌12月16日,2018

简介:在研究人与基于机器学习算法的系统交互时,用户心理模型薄弱,并且很难让UI做他们想做的事情。


我们生活在一个信息泛滥的世界。我们越来越难去跟踪它,或者手动为别人策划它;幸运的是,现代数据科学可以对海量的信息进行分类,并将那些与我们相关的信息表述出来。

机器学习算法依靠用户知识和数据中观察到的模式来推断和建议我们可能喜欢或感兴趣的内容。随着机器学习技术越来越容易为开发人员所利用,公司正在努力利用这些算法来提高他们的产品和用户体验。

典型使用的人工智能(AI)技术为用户体验的目的包括:万博官网manbetx下载

  • 建议(例如,要看的电影或要购买的产品的列表
  • 选择什么广告或内容(例如,(新闻标题)展示
  • 交易和特价,,个性化的吸引当前用户
  • 个性化快捷方式,只需要单击即可访问用户接下来可能想做的任何事情

不幸的是,这些算法通常不会对最终用户透明。人们不确定这些算法考虑了他们的哪些行为,它们的输出并不总是容易理解的。建议和建议可能是当场正确的,或者显然是随机的和荒谬的。经常,这些算法根据不可见的标准对输出进行排序,或者将它们分组到互不排斥的特定类别中。而这些决定意义从算法的角度来看,他们往往太模糊了用户和违背传统的结构化方式的内容。

在本文中,我们分析了用户在Facebook上与机器学习算法交互时遇到的一些挑战,Instagram,谷歌新闻Netflix,还有尤伯司机。我们的讨论是基于一周的。日记研究其中,这些系统的14个现有用户记录了他们与他们的交互。

黑箱模型

为了成功地与任何系统进行交互,用户必须创建心智模型系统的。大多数人不是计算机科学家,也不知道软件是如何实现的,但他们可以形成良好的心智模式对软件构件基于先验知识,接口,甚至整个世界。在许多情况下,他们把系统看作一个黑盒子,并决定如何通过玩弄可能的输入来改变系统的输出。

机器学习算法就是这样一种针对用户的黑箱系统。他们知道算法使用一些他们的动作作为输入,并且可以看到输出是什么。为了成功地与算法交互,用户必须形成一个关于其工作原理的心理模型,并找出如何改变输出以满足他们的需要。创建这种模型有两个大的障碍:

  1. 输入不明确不清楚哪个用户的操作被考虑以产生输出。
  2. 对输出缺乏控制即使人们知道他们的哪些行为被算法认为是输入,目前尚不清楚这些投入是否有效地产生期望的产出。
黑盒是具有若干潜在输入和输出的机器学习算法。输入包括水龙头、像,手表,保存。用户惊奇我的哪些行为重要和“我怎么改变输出”吗?吗?
黑盒模型

我们分别讨论这些原因。

输入不明确

输入中缺乏清晰度使得创建黑盒的精确心理模型的问题变得相当困难。有几个原因可以不清楚输入状态:

  • 算法不透明。-它没有明确地告诉人们他们的哪些行为很重要。
  • 用户不知道可能输入的范围,例如,因为它们不限于系统或平台内的操作,但是来自其他行为数据(例如,访问第三方网站)。
  • 输入和输出之间存在延迟某个动作可能不会立即影响用户在同一会话中看到的输出。

在我们研究的机器学习系统中,Netflix在帮助用户理解推荐系统考虑了他们的哪些行为方面做得最好。Netflix的主页(以及主要类别的登陆页面)通常是一组很长的列表;这些列表中的许多都有解释它们是如何创建的标签因为你看了《克里斯汀·麦康奈尔的奇妙创造》,因为你7月22日添加到你的列表,,等等。

两个Netflix列表:“因为你看了《克里斯汀·麦康奈尔的奇妙创造》和“因为你增加了7月22日名单”“
Netflix解释了它的推荐系统使用的一些输入。

人们非常欣赏这些建议,不仅因为他们可以感觉到控制,而且因为他们给了他们关于正在显示的内容的有价值的信息。

然而,甚至Netflix也未能完全成功地创建对如何考虑用户的操作以创建推荐的良好理解,这也是因为这些操作没有立即反映在算法的输出中。例如,一位与会者感到很困惑,她顶部 挑选似乎单口喜剧的影响表明,她看着最后一次使用Netflix。她说:“顶镐改变-根据我看到的,但这与我所看到的无关,没有多少喜剧。”Facebook的用户花时间将广告隐藏在她的新闻稿上,结果却看到同样的广告在页面上重复出现。另一个人想知道为什么顶镐与她的Netflix监视列表重叠了很多:“顶部 挑选-我不知道他们是怎么得到的,我确信有一些算法或者别的什么,但是我希望它好一点,因为很多东西都是我几年前看的,或者我清单上的东西或者我完全不感兴趣的东西,所以我喜欢,嗯,我想知道他们为什么要推荐这些东西。”“

Facebook和Instagram的用户很难理解他们的哪些行为对于在他们的新闻稿上显示的内容真正重要。他们假设他们的新闻稿中的帖子(通过就像为了决定向它们显示什么内容,算法考虑了按钮及其亲属。但有些关于可能输入的理论显然牵强附会(有时)技术神话并反映出算法缺乏透明性。例如,一个用户指出:这很有趣而且令人毛骨悚然——昨天我说的是渴望,我通常不吃,现在,我看到这个(广告)磷玉米煎饼;我想知道他们是否只是记录你的谈话。”一看到夏威夷航空公司的广告,一位与会者说,半开玩笑半认真,“也许他们知道我需要休假。”还有一个:自从我怀孕以后,我收到关于怀孕的广告,婴儿用品,还有人寿保险。”因此,由于输入缺乏透明度,用户会产生怀疑,他们认为几乎所有他们的行为(无论是在线还是现实世界)都被算法考虑在内,最后他们认为系统更多令人毛骨悚然的比实际情况更具侵入性。人们对隐私的日益关注,以及对谷歌(Google)和Facebook(Facebook)等公司所掌握的大量数据的认知,促进了这种认知。

Google新闻用户一般满意成功的个性化应用程序并对他们来说,但是他们也不确定它是基于什么类型的数据。一位与会者说:这个[Google新闻应用]似乎迎合了我和我的兴趣[…]-事实上有三篇关于汽车的文章,manbetx官网手机登陆这就是我感兴趣的话题。知道如何处理这些数据会很有趣为你生成页面。[…]这是我当地的故事,所以它显然知道我的位置,那很方便。”“

虽然超级不提出建议本身,据说,它使用机器学习来预测需求,并以价格飙升的形式为司机提供激励,促销,和游戏化(例如,超级司机可以利用“任务”,给他们开车时额外获得一定数量的骑在一个指定的时间段)。manbetx官方网站手机版Uber算法本身并不基于驱动程序动作;相反,它的输入很可能主要是外部数据,例如历史交通模式。然而,即使在这种情况下,对输入的清晰理解对司机是否被一些促销活动说服有一定的发言权。例如,一名司机被告知,他需要开车15分钟来接一位在2.3英里外的乘客,并且有可能获得额外费用。他说:“这是一个令人恼火的新特性。我想过去你乘坐[接乘客]只需5分钟,但是这个是15分钟的路程,而且收费也是可能的。我之前并没有发生。我猜这只是诱使司机长途旅行而不买票的一种方式。[…]我不喜欢这种可能的保险费。”不理解为什么要提供保险费以及保险费所依据的是什么,使得司机怀疑尤伯的意图。

产出控制不足

在我们研究的所有系统中,输出不仅取决于用户的行为,还取决于外部事件,如其他人的帖子,新闻报道,新电影的版本中,或交通。这各种各样的数据使它更加难以理解的算法可以控制和隔离的影响用户的行为与第三方的行为。

当一组相关的项目被确定基于一些自动预测,通常,这些项的显示顺序以及它们是否显示都由相关性度量相关度高的项目首先显示,紧随其后的是不太相关的项目。如果相关性低于某个阈值,该项目可能根本没有显示。(Netflix以匹配分数的形式显式地显示这个相关性度量。这个度量本身对用户没有直接的兴趣——在我们的研究中,人们完全忽略了这个分数)。

虽然人们可能会争辩说,一个好的相关性度量不应该把重要项目放在列表的低位,事实是这些系统只收集关于用户的零碎信息,谁是复杂的个人,其需要不仅取决于过去的习惯,而且取决于上下文甚至情绪。(例如,一位与会者说我希望有一种方法隐藏所有悲伤的帖子在Facebook上。”和一些海报可能感兴趣的高,但是非常罕见,因此,系统可能无法积累关于其相关性的足够数据。)因此,即使好的相关性度量也极有可能无法正确地预测相关性——至少偶尔如此。

由于不完美的相关性度量,出现了一些问题:

  • 一些感兴趣的项目被遗漏了。(在信息检索术语中,这相当于低召回

    对于用户来说,省略高相关性项可能代价高昂。在Facebook和Instagram这样的网站上,失踪的一篇文章,你的一个最亲密的朋友会引起烦恼和恶化的经验。这一事实新闻在这些网站上包含只有一个子集的新职位是一个主要的麻烦对于我们的参与者。一位与会者说:我需要与算法进行斗争,以便得到我想要显示的帐户。”人们试图根据他们关于系统如何工作的(通常不正确或支离破碎的)心理模型来操纵算法。有些人(通过就像按钮)连同他们感兴趣的那些页面的所有帖子,希望说服算法不要再错过这些帖子。意义就像因此超越原来的文字和社会内涵(喜欢用来表示欣赏的内容或海报),开始成为视为一种断言控制算法。

    即使那些认为他们可以操纵算法往往是可疑的有效性。他们不断地直接访问那些他们感兴趣的人或组织的新闻稿,以确保他们没有错过内容。

    省略高相关性项目并不总是那么昂贵。例如,在Netflix或Spotify,有成千上万的用户感兴趣项目潜在的高;省略一个不太可能引起人们的抱怨。

  • 项目的顺序是不可预测的或容易理解的。

    失踪的一个项目,重要的是用户可以发生不仅因为该算法不包括在结果列表中,但也因为它没有把它列入足够高的名单。最终,这种担忧与注意力经济有关:如果人们的注意力有限,他们就可以投放到新闻或社会媒体上,然后东西对于他们来说是重要的错过了,或许只是因为他们被过低输出列表。

    对于我们看到的一些推荐系统,建议的顺序为用户没有意义:人们不理解为什么某一张贴在他们的Facebook饲料为出现在另一个,他们也不知道为什么一部电影在Netflix的旋转木马中比另一部先上映。

    在Facebook上一个常见的抱怨,Instagram,而谷歌新闻则认为故事的顺序不是按时间顺序排列的。正因为如此,不容易预测你是否已经看到了从一个人或你可能错过了一些职位。同样地,新闻、与会者担心,对他们来说不那么重要的有趣故事(比如一篇与汽车相关的文章)可能排在长长的列表的第一位,并可能使他们错过最近普遍感兴趣的新闻项目。

    对于Netflix,提出建议的特别类别(例如,,因为你看……顶部镐)模糊的自然类别,人们已经形成的领域。例如,具有视频内容,一个常见的问题是时间(例如,用户可能知道他们只有1个小时观看)或节目类型。然而,在Netflix创建的类别中,电视节目与全长电影混合,没有按可识别的顺序播放鉴别标记,人们没有简单的方法过滤掉它们。

  • 向用户提出了一些低兴趣的建议。(在信息检索术语中,这相当于低精度的

    糟糕的建议对于用户的注意力来说是昂贵的,他们必须这么做。检查他们,,识别他们是无关紧要的,和跳过过去他们。然而,对于不同类型的系统,错误建议的成本并不总是相同的。使用Netflix的旋转木马列表布局,一个不好的建议可能相对容易被忽略-一部无趣的电影不会占用页面上太多的空间,人们可以很容易地在页面上移动

    Netflix主页
    Netflix:一个糟糕的推荐在列表布局中占用的空间相对较小;人们很容易忽略它。

    在Spotify或StichFix(服装运输服务)等系统上,用户不能忽视一个不好的建议,他们不能只是坐在那里听一首他们不喜欢的歌,或者穿一条不符合他们风格的裤子。Facebook介于两者之间:无关的帖子或广告占据了页面的空间,要求人们滚动过去。

    Facebook上的巴塔哥尼亚广告
    Facebook上无关的广告可能会占据整个视场,需要比Netflix上糟糕的电影建议更多的努力来忽略它。

    忽略不好的建议的代价将决定人们直接提供关于项目的反馈的可能性。例如,在Spotify上,他们将参与该系统,对坏项目进行评级,不仅是为了调整算法,但也可以避免自己坐着听不喜欢的歌。我们确实注意到用户偶尔使用隐藏广告按钮,但是因为它隐藏在菜单下面,有些人认为这样做不值得。不要低估糟糕的建议,人们聚焦于像-提出好的建议。

    Facebook更多与广告相关的按钮
    Facebook:很少有用户利用隐藏 隐藏在更多 按钮。

    推荐内容占用的房地产(或处理时间)越多,反馈按钮应该越突出。如果推荐内容很容易被忽略,用于提供反馈的方法可以是次要的。

个性化不应该增加用户的努力

我们在上面看到了,在用户体验中,最成功的推荐算法是那些能够向用户传达他们使用的输入的合理心理模型的推荐算法。特别地,我们的研究参与者喜欢Netflix的因为你(观看/添加到列表/等等)建议清单。

然而,这种方法的问题是,同样的物品可能会被多次推荐。例如,包含在因为你看...列表也可以出现在我的名单或在顶镐人们必须花费额外的努力当他们遇到这些重复的项目因为,至少,他们必须认识到他们有见过和移动。一个用户评论道:“为什么有各种各样的清单和复印件?我讨厌这些重复的清单。我翻过它,看到以前我看过的东西,它让我很烦,因为我觉得那是浪费时间…”“

Netflix:同一部电影西蒙小姐怎么了?“(都出现在下面)为你提供的建议 在下面爵士乐和轻松的音乐 列表。

但是重复的工作并不仅限于重复的项目。Netflix承认超越了内容个性化,创建了个性化(甚至特定于会话)主页的布局个性化封面艺术的视频。

这两种类型的个性化可以增加交互成本

  • 特定于会话的缩略图,描述,和标题

    个性化地将一段内容呈现给特定用户可以在获取注意力方面走很长的路。我们的研究参与者被呈现了太多的内容,他们快速地扫描了一遍,看了一下缩略图和文本阅读1 - 2句。一位Facebook用户说“我通常甚至不读人们写的东西;我只是浏览,“而Netflix的用户评论说,“我寻找的是不同和有趣的东西,和封面调用我的注意。”“

    Netflix,不仅两个不同的用户会看到同一部电影的不同缩略图(例如,“帝国游戏)但是同一用户可能在两个不同的会话中看到同一电影的不同缩略图。

    Netflix:同一个用户在不同的会话中看到了电影Chappaquiddick的不同缩略图。

    理论上,这种做法可能增加人们喜欢电影和看电影的机会,因为电影的不同方面将在不同的会议中被强调,其中之一可以捕获用户的注意。不幸的是,这种不一致性也使得电影不那么令人难忘,并且浪费了用户时间:人们可能最终会访问电影细节页面并多次检查描述,只是发现他们仍然不感兴趣,或者他们已经把那部电影加入他们的观看名单。

  • 特定于会话的布局

    Netflix也将根据用户主页的布局,个人化会话,和设备。因此,,继续观察在一个会话中可能出现非常接近页面顶部的情况,或者,在下一个会话中,可能位于页面的下面。此实践是自适应接口和限制的示例。学习页面布局。因此,喜欢通过检查新增内容开始浏览的用户可能需要主动查找最近加入列表,不会受益于有坐落在以前的会话。因为Netflix是一个浏览量很大的界面,更改不同建议列表的顺序对我们的用户池没有显著影响;然而,一般来说,这种实践已被证明可以显著降低用户体验。

建议

我们研究了数量相当有限的系统,这些系统严重依赖机器学习算法向用户呈现内容。以下是一些经验教训:

  • 努力建立一个精确的算法心理模型。对哪些人的行为能够对算法的输出做出贡献保持透明。
  • 给人易于控制输出机器学习算法的研究。允许它们以它们熟悉的或自然的方式对输出进行排序或重组。坏建议的成本越高,给系统反馈应该越容易。
  • 不要重复内容如果它适合多个类别。
  • 对单个用户进行个性化然后坚持个性化设计;manbetx官方网站手机版在会话级别进行个性化以及将用户下的UI从一个访问更改为下一个访问时要谨慎。
  • 选择视觉属性可能吸引用户的,因为它们在人们必须消费大量内容时非常重要。
  • 前载描述以及支持扫描大量数据的标题。

遵循这6条UX指南将增加AI超越花哨万博官网manbetx下载技术的可能性,从而积极地支持用户并提高他们对体验质量的满意度