IBM开发新型AI智能推荐算法,平衡用户偏好与道德规则
2018年07月17日 由 浅浅 发表
893112
0
近年来,人工智能算法已经非常擅长向用户推荐内容。技术公司使用AI根据用户对内容的反应来优化他们的推荐。这对于提供内容的公司来说是好事,因为它会导致用户在应用程序上花费更多时间并产生更多收入。
但对公司有利的事情并不一定对用户有利。通常,我们想要看到的并不一定是我们应该看到的。但是,那些商业模式依赖于窃取注意力的公司如何尊重道德规范,同时为用户提供优质内容?
为了应对这一挑战,IBM研究院和麻省理工学院媒体实验室的一组科学家开发了一种AI推荐技术,该技术在优化用户偏好的结果的同时,也确保其符合其他约束条件,例如道德和行为准则。在IBM Research的人工智能伦理全球领导者Francesca Rossi的带领下,科学家团队在电影推荐系统中展示了AI的功能,允许家长为孩子设定道德约束。
之前曾尝试将道德规则集成到AI算法中,但它们主要基于静态规则。例如,用户可以指定一个特定的输出或类别的新闻,而这是一个算法应该避免推荐的。虽然这种方法在某些环境下可以工作,但它有其局限性。
“定义明确的规则集很容易,”IBM研究员Nicholas Mattei表示,“但是在互联网上的很多东西中,在拥有大量数据的地区,你没法写下你希望机器遵循的所有规则。”
为了解决这个问题,Mattei和他的同事开发的方法使用机器学习来通过实例来定义规则。“我们认为,通过实例学习什么是合适的,然后转移这种理解的同时,对在线奖励做出反应,是一个非常有趣的技术问题。”
以身作则教授道德规范
研究人员选择电影推荐作为演示项目,因为存在相当多的电影相关数据,并且这个领域中用户偏好和道德规范之间的差异清晰可见。例如,父母不希望视频流服务向他们的孩子提供不适当的内容,即使他们的孩子对此表现出积极的反应。
AI推荐技术使用两个不同的训练阶段。第一阶段是离线的,这意味着它发生在系统开始与最终用户交互之前。在此阶段,仲裁者给出系统示例,用于定义推荐引擎应遵守的约束。然后,AI会检查这些示例以及与它们相关的数据,以创建自己的道德规则。与所有机器学习系统一样,提供的示例越多,数据越多,创建规则的效果就越好。
在电影推荐的情况下,离线训练阶段,父母向AI提供一组适当和不适当内容的示例。“系统应该能够从这些例子中学习,并使用这些例子在与其他用户,孩子一起工作时不推荐某些类型的内容,”Mattei说。
训练的第二阶段是在线与最终用户直接互动。与传统的推荐系统一样,AI试图通过针对用户的偏好优化其结果并显示用户更倾向于与之交互的内容来最大化其奖励。
由于满足道德约束和用户偏好有时可能是冲突的目标,仲裁者可以设置一个阈值,定义每个人获得多少优先级。在IBM提供的演示中,一个滑块允许父母选择道德原则和孩子的偏好之间的平衡。
我们很容易看出这个系统如何帮助解决与AI推荐系统工作方式相关的其他问题。IBM研究人员还在医疗保健中测试了该技术,他们通过在药物成功变量和生活质量限制之间建立平衡,成功地在药物剂量中使用该算法。
该团队还致力于改进系统可以训练的示例类型。研究小组的负责人说:“我们还试验了一些例子,这些例子不仅仅是是或否的限制,而像优先级一样,这样我们就能更清楚地表达出我们为道德行为提供例子的方式。”
并非没有限制
之后研究团队将致力于使AI能够在更复杂的情况下工作。“在这个用例中,我们专注于单一建议,例如是否应该推荐特定的电影,”Rossi指出,“我们计划扩大这项工作,以便能够对行动序列施加限制。”
这样的改变将使算法能够解决其他类型的问题,例如滤泡沫和技术成瘾,当一个单一的无害的行为(例如在你的手机上检查通知或从一个有偏见的来源读取新闻)在长时间重复或与其他类型的类似行为结合时,会产生不利的影响。
虽然Rossi和她的同事开发的方法在亲子或医患情况下表现良好,但在只有一个用户参与的情况下,它可能会遇到限制,这是我们在互联网上使用的大多数应用程序。在这种情况下,用户将负责定义自己的道德准则和约束。
Mattei表示,“在一些更个性化的系统中,你可能能够表达一些高级别的想法,比如'我希望看到更多种类'或'我希望花更少的时间在手机上',但如果你能表达它们,你也可以推翻它们。你必须表达自己的美德并坚持下去。“
一个解决方案可能是让用户选择一个家庭成员的朋友来设置和控制规则,就像一些技术高管所做的那样。这可能是IBM研究团队在与麻省理工学院媒体实验室合作的一个更广泛的项目中所探讨的问题的一部分,该项目专注于工程道德推理。
IBM研究人员将于7月17日在瑞典斯德哥尔摩举行的第27届国际人工智能联合会议上展示他们的算法。