研究:人工智能模型无法重现人类对违反规则的判断

为了提高公平性或减少积压,机器学习模型有时被设计为模仿人类决策,例如决定社交媒体帖子是否违反有毒内容政策。

但麻省理工学院和其他地方的研究人员发现,这些模型通常不会复制人类关于违反规则的决定。如果模型没有使用正确的数据进行训练,它们很可能会做出与人类不同的、通常更严厉的判断。

在这种情况下,“正确的”数据是那些被明确询问项目是否违反特定规则的人标记的数据。训练涉及向机器学习模型展示数百万个这种“规范数据”的例子,以便它可以学习一项任务。

但用于训练机器学习模型的数据通常带有描述性标签——这意味着人类需要识别事实特征,例如照片中是否存在油炸食品。如果使用“描述性数据”来训练判断违规行为的模型,例如一顿饭是否违反了禁止油炸食品的学校政策,那么这些模型往往会过度预测违规行为。

这种准确性的下降可能会对现实世界产生严重影响。例如,如果使用描述性模型来决定一个人是否可能再次犯罪,研究人员的研究结果表明,它可能会做出比人类更严格的判断,这可能会导致更高的保释金或更长的刑期。

“我认为大多数人工智能/机器学习研究人员都认为人类对数据和标签的判断是有偏见的,但这个结果说的更糟。这些模型甚至无法重现已经存在偏见的人类判断,因为它们正在接受训练的数据存在缺陷:如果人类知道图像和文本的特征将用于判断,他们会对这些特征进行不同的标记。这对人类过程中的机器学习系统产生了巨大的影响,”计算机科学与人工智能实验室 (CSAIL) 的助理教授兼健康 ML 小组负责人 Marzyeh Ghassemi 说。

Ghassemi 是一篇详述这些发现的新论文的高级作者,该论文今天发表在《科学进展》杂志上。和她一起写这篇论文的还有主要作者 Aparna Balagopalan,他是一名电气工程和计算机科学研究生;多伦多大学研究生David Madras;David H. Yang,前研究生,现任 ML Estimation 联合创始人;Dylan Hadfield-Menell,麻省理工学院助理教授;和 Gillian K. Hadfield,Schwartz Reisman 技术与社会主席兼多伦多大学法学教授。

标签差异

这项研究源于一个不同的项目,该项目探索了机器学习模型如何证明其预测的合理性。在为该研究收集数据时,研究人员注意到,如果人们被要求提供关于相同数据的描述性或规范性标签,他们有时会给出不同的答案。

为了收集描述性标签,研究人员要求贴标签者识别事实特征——该文本是否包含淫秽语言?为了收集规范标签,研究人员给标签者一个规则并询问数据是否违反了该规则——该文本是否违反了平台的明确语言政策?

对这一发现感到惊讶,研究人员发起了一项用户研究以进行更深入的挖掘。他们收集了四个数据集来模拟不同的政策,例如可能违反公寓禁止攻击性品种规则的狗图像数据集。然后他们要求参与者小组提供描述性或规范性标签。

在每种情况下,描述性标注者都被要求指出图像或文本中是否存在三个事实特征,例如狗是否表现出攻击性。然后他们的回答被用来制定判断。(如果用户说照片中有一只好斗的狗,那么该政策就被违反了。)贴标者不知道宠物政策。另一方面,规范标签者被赋予禁止攻击性狗的政策,然后询问每个图像是否违反了它,以及为什么。

研究人员发现,人类明显更有可能在描述性环境中将某个物体标记为违规行为。他们使用标签的平均绝对差异计算出的差异范围从用于判断着装违规行为的图像数据集的 8% 到狗图像的 20% 不等。

“虽然我们没有明确测试为什么会发生这种情况,但一个假设是人们对违反规则的看法可能与他们对描述性数据的看法不同。通常,规范性决定更为宽松,”Balagopalan 说。

然而,收集的数据通常带有描述性标签,用于为特定的机器学习任务训练模型。这些数据通常会在以后重新用于训练执行规范判断(例如违反规则)的不同模型。

训练的烦恼

为了研究重新利用描述性数据的潜在影响,研究人员使用四种数据设置中的一种训练了两种模型来判断违反规则的行为。他们使用描述性数据训练一个模型,使用规范性数据训练另一个模型,然后比较它们的性能。

他们发现,如果使用描述性数据来训练模型,那么它的表现将不及训练有素的使用规范性数据进行相同判断的模型。具体来说,描述性模型更有可能通过错误地预测违反规则来对输入进行错误分类。当对人类标签不同意的对象进行分类时,描述性模型的准确性甚至更低。

“这表明数据确实很重要。如果您正在训练模型以检测是否违反了规则,那么将训练上下文与部署上下文相匹配非常重要,”Balagopalan 说。

用户可能很难确定数据是如何收集的;Ghassemi 说,这些信息可以隐藏在研究论文的附录中,也可以不由私人公司透露。

提高数据集透明度是缓解此问题的一种方法。如果研究人员知道数据是如何收集的,那么他们就知道应该如何使用这些数据。另一种可能的策略是微调基于少量规范数据的描述性训练模型。这种被称为迁移学习的想法是研究人员希望在未来的工作中探索的东西。

他们还想与医生或律师等贴标签专家进行类似的研究,看看它是否会导致相同的标签差异。

“解决这个问题的方法是明确承认,如果我们想重现人类的判断,我们必须只使用在该环境下收集的数据。否则,我们将最终得到具有极其苛刻节制的系统,比人类所做的要严酷得多。人类会看到细微差别或做出另一种区分,而这些模型则不会,”Ghassemi 说。

这项研究部分由 Schwartz Reisman 技术与社会研究所、Microsoft Research、Vector Institute 和 Canada Research Council Chain 资助。

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容