Berkeley研究:机器学习决策的偏见及对弱势群体的潜在影响
2018年05月18日 由 浅浅 发表
299016
0
经过训练以减少预测误差的机器学习系统通常会根据敏感特征(如种族和性别)呈现歧视行为。一个原因可能是由于数据中的历史偏见。在包括贷款,招聘,刑事司法和广告在内的各种应用领域,机器学习因其损害历史上代表性不足或弱势群体的可能性而受到批评。
在这篇文章中,我们来讨论将机器学习的决策与长期社会福利目标结合起来的工作。通常,机器学习模型会产生一个总结个人信息的分数,以便为他们做出决定。例如,信用评分以通知银行信誉度的方式总结个人的信用记录和金融活动。让我们继续使用贷款设置作为例子。
如下图所示,任何一组人都有特定的信用分数分布。
1.信用评分和还款分配
通过定义一个阈值,分数可以做决定。例如,超过阈值分数的个人可以贷款,而拒绝低于阈值分数的个人的贷款请求。这种决策规则被称为阈值策略。
分数可以被解释为对贷款违约的概率进行编码。例如,信用评分为650的人中有90%可能会被要求偿还授予他们的贷款。这使得银行可以通过向信用评分为650的个人提供相同的贷款来预测他们期望获得的利润。以同样的方式,银行可以通过向所有信用额度高于650的个人贷款来预测他们期望的利润。
2.贷款阈值和成果
向左或向右拖动黑色阈值栏以更改贷款的阈值。此图及下文图中的参数皆可变,请到原网站bair.berkeley.edu/blog/2018/05/17/delayed-impact/进行操作并观察。
银行总是试图最大化其总利润。利润取决于银行从偿还贷款中获得的金额与银行从违约贷款中损失的金额之比。在上面的交互式图表中,这个增益与损失的比率是1到-4。由于损失相对于收益成本更高,银行会更保守地发放贷款,并提高贷款阈值。我们将在这个阈值以上的人口比例称为选择率。
结果曲线
贷款决定不仅影响机构,而且影响个人。违约事件(借款人未能偿还贷款)不仅会削弱银行的利润,也降低了借款人的信用评分。成功的贷款结果会为银行带来利润,同时也会增加借款人的信用评分。在我们的运行示例中,借款人信贷评分变化的比例为1(已偿还)为-2(默认值)。
对于阈值政策,定义为人口分数预期变化的结果可以作为选择率的函数进行参数化,我们称这个函数为结果曲线。由于一组的选择率不同,该组的结果也不尽相同。这些人口水平的结果既取决于还款的可能性(由分数编码),也取决于个人贷款决策的成本和收益。
上图显示了代表性人群的结果曲线。当一组中有足够人员获得贷款并成功偿还时,该组的平均信用评分可能会增加。在这种情况下,不受约束的利润最大化导致人口平均分数变化。由于我们偏离利润最大化而向更多人发放贷款,所以平均分数变化增加到最大化的某个点。我们可以称之为利他最佳(altruistic optimum)。我们还可以将选择率提高到平均得分变化低于无限制的利润最大化,但仍然为正的点,如黄色虚线区域所示。我们说在黄色虚线区域的选择率会造成危害。但是,如果有太多的人无法偿还贷款,那么该组的平均信用评分将下降,这与红色区域的情况一样。
4.贷款阈值和结果曲线
向左或向右拖动黑色阈值栏以更改贷款的阈值。
多个组
给定的阈值政策如何影响不同群体中的个人?信用评分分布不同的两组人将会有不同的结果。
假设第二组的信用分数分布与第一组不同,并且人数也较少。我们可以认为这个群体是一个历史上处于弱势地位的少数群体。让我们把这个小组标作蓝色小组,我们想要确保银行的贷款政策不会过度损害他们的利益。
我们认为银行可以为每个组选择不同的阈值。尽管依赖于群体的阈值可能面临法律挑战,但它们避免了固定阈值决策可能引起的差异结果。
5.不同群体的贷款决策
向左或向右拖动黑色阈值栏以更改贷款的阈值。
什么样的阈值选择导致了蓝色组内分数分布的改进,这样的问题很有意义。正如我们之前提到的,一个无约束的银行政策将最大化利润,选择达到盈亏平衡点的阈值,超过这个限度就可以发放贷款。事实上,两组的利润最大化阈值(信用评分580)是相同的。
公平标准
具有不同分布的分组会得到不同形状的结果曲线(参见图6的上半部分,由实际信用评分数据和简单结果模型得出的结果曲线)。作为不受限制的利润最大化的替代方案,可以考虑公平性约束,这些公平性约束可以使团体之间的决策相对于某个目标函数相等。目前已经提出了各种公平标准来保护弱势群体。通过结果模型,我们现在可以具体回答公平限制是否在实际上鼓励更积极的结果。
一个经常提出的公平标准——人口平等(demographic parity),要求银行以同样的速度向两个组提供贷款。根据这一要求,银行将尽可能地继续实现利润最大化。另一个标准,即机会均等,使两组之间的真实利率相等,要求银行在偿还贷款的个人中以平等的利率贷款。
尽管这些公平标准是考虑均衡静态决策的一种自然方式,但他们经常忽略这些政策对人口结果的未来影响。图6通过对比最大利润,人口平等和机会均等带来的政策来说明这一点。尝试选择每个贷款策略来查看他们导致的银行利润和信用评分变化。与最大利润相比,人口均等和平等机会都会降低银行的利润。但是,他们是否改善了蓝色人口超过最大利润的结果?尽管相对于利他最优而言,最大利润策略偏向于蓝色区域的人群,但相对于利他最优化而言,机会均等相对过度,而人口均等则超过了对蓝色人群造成相对危害的程度。
6.用约束模拟贷款决策
向左或向右拖动黑色阈值栏以更改贷款的阈值。点击预设的贷款策略,查看公平性约束条件。
如果采用公平标准的目标是增加或平衡所有人群的长期福祉,我们刚才已经表明,有些情况下公平标准实际上违背了这一目标。换句话说,公平性限制也会减少已经处于不利地位的人群的福利。构建一个准确的模型来预测决策对人口结果的影响可能有助于缓解应用公平约束的潜在危害。
考虑“公平”机器学习的结果
我们主张在讨论“公平”的机器学习时寻求长期成果。如果没有谨慎的延迟结果模型,人们无法预见强制执行公平标准作为分类系统的约束条件产生的影响。然而,如果一个准确的结果模型可用,那么有比现有的公平标准更直接的方法来优化正性结果。具体而言,结果曲线为我们提供了一种以最直接改善结果的方式偏离最大利润策略的方式。
结果模型是将领域知识纳入分类过程的具体方法。这与许多学者指出机器学习中上下文敏感本质的公平性相一致。结果曲线提供了一个可解释的视觉设备来突出对特定应用程序的折衷。
我们的工作只是初步探索结果模型如何减轻机器学习算法的不良社会影响。为了确保机器学习的长期公平性,还有很多工作要做,因为算法会影响更多人的生活。