Gamalon:机器学习不会使“理解”过时
2019年05月09日 由 浮生 发表
504600
0
没有理解的预测不能促进科学发展
要有效遏制一个文明的发展,并在如此长的时间内解除它的武装,只有一种方法:扼杀它的科学。
我想当然地认为,我们希望科学进步的原因有很多,比如提高医学水平或我们有创造万物的能力。
摘自温伯格的文章:
深度学习的算法之所以有效,是因为它们比任何人都能更好地捕捉到宇宙的复杂性、流动性,甚至美,在这个宇宙中,一切都会同时影响到其他一切。我们开始承认,世界的真正复杂性远远超过了我们为解释它而设计的法律和模型。我们需要放弃对总是了解我们的世界以及事情是如何发生的。
但是坚持理解我们的世界是科学的进步。
在此上下文中,“理解”是指一个模型。定义为一组关于特定问题域内事物如何工作的假设,以逻辑形式表示。这些假设包括系统的核心组件,它们如何相互影响,以及改变一个变量对另一个变量的影响。
你可能听过统计学家乔治博克斯的说法,“所有的模型都是错误的,有些是有用的。”例如,我们知道我们目前的系统生物学模型是不完整的,在许多方面是错误的,但它提供了有用的救命药和基因疗法。科学的进步是一个新模型取代旧模型的过程,因为新模型可以用旧模型无法解释的方式来解释经验数据(请参阅托马斯·库恩的《科学革命的结构和理论》深入探讨这一论点)。
温伯格从本质上说支持模型、基于模型的二分法的模型盲方面。基于模型的方法在模型约束下对经验数据进行预测,而模型盲法则忽略了这些约束,专注于建立具有最佳精度的预测算法。这些方法在预测精度上通常优于基于模型的方法。
但更准确的预测并不是科学如何发展。哥白尼的太阳系日心模型并没有预测天空中物体的运动,也没有预测它之前的地心托勒密模型。但这是一个“不那么错误”的模式,为凯普勒更好的模式铺平了道路,从那里开始了谷歌地图。
正如温伯格所说,先进的预测机器学习工具能够很好地预测,但缺乏理解,例如深度神经网络,通过在高维空间中发现复杂的相关性而发挥作用。每个人都从Stats101中了解到,相关性本身(无论多么细微)并不意味着因果关系,其中因果关系是关于系统中的组件如何相互影响的假设。
预测准确度并不是我们关心的唯一性能指标
预言并不是一切。我最近在推特上说:
90%听起来不错!也许,我可以再往前走一步,在枪管旋转的时候,在我把它猛击到接收器之前,训练一个深网,来捕捉枪管发出的声音,也许能获得95%的准确度。
我的观点很明显;预测准确度并不是决策中唯一重要的事情。非常精确的预测引擎有时仍然会出错,出错的后果可能是灾难性的。统计学家和毫升专家迈克尔乔丹给出了一个个人的例子,根据超声波的错误预测,他的未出生的婴儿将有智力残疾。这一预测使医生推荐了一种危险的医疗方法。得到这个预测会导致许多准父母决定终止妊娠。
医学诊断是一个领域,你更关心假阳性的风险,而不是预测的准确性。在某些领域,你可能更关心虚假负面信息的风险,比如你的工作是阻止恐怖分子上飞机,或者阻止黑客获取有价值的秘密,或者让一个会炸毁你投资银行的无赖交易通过。
在复杂系统中,基于算法高精度预测的决策可能会导致灾难,在极少数情况下,它会导致预测错误。
在实践中,我们通常可以通过调整决策阈值来处理此类情况,在更敏感或更具体之间切换。但这并不能解决黑天鹅的情况,因为其严重后果的事件非常罕见,无法出现在用于训练预测算法的数据中。
算法偏差:另一个没有直接修正的预测风险是算法偏差。Propublica在2016年发表的一篇文章首先强调了在刑事司法背景下使用的机器学习算法中存在种族偏见的问题,特别是在预测个人是否会犯下未来的罪行以及根据该预测作出判决或假释决定时。最近,亚马逊因向警察部门出售面部识别服务而受到严格审查;该技术随后被证明有种族偏见。当然,算法偏差的问题远远超出了种族。
即使这些刑事司法算法没有明确使用种族作为特征,它们也可以设计出这样的特征。当一个求职申请没有直接要求参加比赛时,一个比赛代理(比如丹尼尔和达内尔)仍然可以向招聘经理表示参加比赛。这些预测算法也可以使用这样的代理,除非这些代理可以编码为深神经网络中节点之间的复杂关系,这样它们对于人类来说太复杂,无法检测或理解。
一些人认为,预测黑人犯罪风险更高是黑人犯罪率更高的逻辑结果。与其争论种族政治和犯罪统计的解释,我倒不如指出准确的预测完全是站不住脚的。正义是我们的绩效标准!司法是我国刑事司法制度的一项核心原则,司法是根据人能控制的因素和不能控制的因素来判断人的,如人的种族、性别、邮政编码、是否有被监禁的家庭成员等。
如果在犯罪和惩罚中使用机器学习的唯一标准是预测准确度,那么我们将生活在少数报告式的反乌托邦中,低收入单亲母亲所生的婴儿在出生时会有缓刑追踪器。
当我们的模型预测但不理解时,我们会做出错误的决定
摘自温伯格的文章:
我们人类长期以来都认为,如果我们能理解事物发生的不可变规律,我们就能完美地预测、计划和管理未来。如果我们知道天气是如何发生的,天气预报可以告诉我们是否要带伞去上班。
让我们听从温伯格的建议,摒弃人类理解天气的企图,转而根据历史天气数据训练一个深层的神经网络,并用它来预测每天早上是否会下雨。在每一天结束时,我们将当天的天气数据输入到算法中,因此它会更新它的权重,使它们与当前的气候保持一致。
假设我们使用这个算法的预测来决定是否要带伞。在前一节中,我认为这种理解自由、高度精确的预测引擎可能会在五级风暴来袭时杀死我们。但如果我们忽略了这一点,那么温伯格提出了一个非常好的ML案例研究作为他的论点。
现在让我们来考虑一个类似的商业案例研究。我们将根据上个月的内部财务信息和市场情况,而不是天气预报,在您的电子商务网站上预测一个月的收入。如果Deep Net预测下个月收入将下降(雨天预测),那么我们将开展一场广告活动来刺激需求(带上雨伞)。
然而,在第一种情况下,天气不受我们是否带伞的影响。在第二种情况下,未来的收入受我们是否开展广告活动的影响。这些影响通过影响预测、影响未来决策等的未来收益数据反馈到算法中,从而形成反馈循环,从而导致决策不理想。
解决这一问题的方法是建立一个因果模型的预测算法,以便在进行预测时能够根据因果关系进行调整。
这些股份可能比收入损失要高得多。几项广泛的观察研究着眼于绝经后妇女的医疗记录,发现激素使用(雌激素和孕激素)预测冠心病(CHD)的减少。在此基础上,医生开始给绝经后妇女开激素补充剂,以预防冠心病。
然而,当妇女健康倡议组织进行随机试验时,他们发现补充激素的妇女冠心病发病率增加。
为什么会这样?这是一个猜测。也许在这些初步研究中,有些绝经后的妇女生活富裕。他们有钱报名参加昂贵的运动课程,如Crossfit和室内攀岩。他们听取了富裕健身伙伴的建议,以减轻更年期激素补充的影响。另外,所有的运动都是增强他们的心脏,抵消荷尔蒙所造成的任何损害。
或者,也许,这不是富裕和过度密集的锻炼,而是其他一些不被注意的原因,统计学家称之为混淆。试验中的随机分组消除了这些混杂因素的影响,证明了激素补充的实际效果。混杂因素的性质与此无关。关键是,在混杂因素存在的情况下,从预测直接走向政策是一个坏主意。在这种情况下,代价是人类的生命。
但在大数据时代,难道我们不能衡量所有重要的事情,这样就不会有任何混淆吗?不。生成大数据的过程并不关心你计划做出的决定,除非你是设计过程的人。
你在数据中没有测量到的重要的事情不会戳到你的肩膀,告诉你它们在那里。他们只是在沉默中继续困惑。
解决办法不是放弃理解,而是建立能够理解的人工智能
温伯格将人工智能和高度精确的黑匣子预测混为一谈,却没有理解。事实上,有一些机器学习算法对一个领域内的因果关系做出自己的假设。换句话说,他们试图理解。这些算法可以从被动的数据观察(如PC算法)中学习到这些关系,它们还可以尝试干预数据生成过程,以更直接地了解影响什么的因素。以这种方式,他们表现得像一个人类科学家。
我不是在贬低深造。这类算法中最前沿的确实采用了深层神经网络架构,这在Neurips 2018因果学习研讨会上是显而易见的,在那里,诸如Yoshia Bengio之类的深层学习专家出席了会议。
是的,复杂的系统很难建模。但是放弃理解,让愚蠢的人工智能做出艰难的决定将是一场灾难。相反,我们应该专注于构建能够理解的人工智能。