MIT开发AI系统,确定新闻来源是否有政治偏见以检测假新闻
2018年10月08日 由 浅浅 发表
501656
0
虚假消息仍然是令人头疼的问题。今年3月,有一半的美国人报告在新闻网站上故意误导文章。最近爱德曼调查的大多数受访者表示,他们无法判断媒体报道的真实性。鉴于假新闻的传播速度比真实新闻快,因此十分之七的人担心它可能会被用作“武器”,这并不奇怪。
麻省理工学院计算机科学与AI实验室(CSAIL)和卡塔尔计算研究所的研究人员相信他们已经设计了部分解决方案。在本月晚些时候将在比利时布鲁塞尔举行的2018年自然语言处理经验方法(EMNLP)会议上提交的一项研究中,他们描述了一种AI系统,可以确定来源是准确的还是具有政治偏见的。
研究人员用它来创建一个包含1000多个新闻来源的开源数据集,其中注释了“事实性”和“偏见”分数。他们声称这是同类中最大的。
研究人员写道:“一种有希望的打击假新闻的方法是关注他们的来源。虽然假新闻帖子主要在社交媒体上传播,但他们仍然需要一个可以发布的网站。因此,如果一个网站过去已经发布了非事实信息,那么将来很可能会这样做。”
AI系统的新颖之处在于对其评估的媒介的广泛背景理解。它不是孤立地从新闻文章中提取特征(机器学习模型所训练的变量),而是在确定可信度时考虑众包百科全书,社交媒体,甚至URL和网络流量数据的结构。
它建立在支持向量机(SVM)上经过训练,可以评估三点(低,混合,高)和七点(极端,低,混合,高)和七点(左翼极端,左派,中间偏左,中间派,中间偏右,右派,右翼极端)的事实性和偏差。
根据团队的说法,系统只需要150篇文章来确定是否可以可靠地信任新的来源。它在检测新闻来源是否具有高,低或中等水平的事实性时准确率为65%,并且在检测新闻来源是左倾,右倾还是中间派时准确率为70%。
在文章方面,它对副本和标题进行了六重测试,不仅分析了结构,情绪,参与度(在这种情况下,在Facebook上的股票,反应和评论的数量),还有主题,复杂性,偏见和道德(基于道德基础理论,一种旨在解释人类道德推理的起源和变异的社会心理学理论)。它计算每个要素的得分,然后在一组文章中平均得分。
维基百科和Twitter也加入了系统的预测模型。正如研究人员指出的那样,缺少维基百科页面可能表明网站不可信,或者页面可能会提到有问题的来源是讽刺性的或明确的左倾。此外,他们指出,没有经过验证的Twitter帐户的出版物,或者最近创建的帐户混淆了他们的位置的出版物,不太可能是公正的。
模型考虑的最后两个向量是URL结构和Web流量。它会检测试图模仿可靠新闻来源(例如“foxnews.co.cc”而不是“foxnews.com”)的网址,并考虑网站的Alexa排名,即根据收到的整体综合浏览量计算的指标。
该团队用来自Media Bias / Fact Check(MBFC)的1066个新闻来源进行了系统训练,这是一个人工事实检查员的网站,他们手动注释具有准确性和偏见数据的网站。为了生成上述数据库,他们在每个网站上发布了10-100篇文章(总共94814)。
正如研究人员在其报告中详细详述的那样,并非每个特征都是事实性或偏见的有用预测指标。例如,一些没有维基百科页面或已建立的Twitter个人资料的网站是公正的,而Alexa中排名很高的新闻来源并不总是比那些交易量较少的竞争对手更具偏见或更实际。
这里出现了有趣的模式。来自虚假新闻网站的文章更可能使用夸张的和情感性语言,而左倾网点更可能提到公平和互惠。同时,具有较长维基百科页面的出版物通常更可靠,具有包含最少数量的特殊字符和复杂子目录的URL的出版物也是如此。
在未来,该团队打算探索该系统是否可以适应其他语言(它是专门针对英语进行训练),以及是否可以训练它来检测特定区域的偏差。他们计划推出一款应用程序,该应用程序将自动回应包含“跨越政治光谱”的文章的新闻。
“如果一个网站之前发布了假新闻,他们很有可能会再次发布,”该报的第一作者,博士后助理Ramy Baly说,“通过自动搜索有关这些网站的数据,我们希望我们的系统可以帮助确定哪些网站可能首先做到这一点。”
当然,他们并不是唯一试图用AI来对抗假新闻传播的人。
总部位于德里的创业公司MetaFact利用自然语言处理算法来标记新闻报道和社交媒体帖子中的错误信息和偏见。AdVerify.ai是去年推出测试版的软件即服务平台,解析有关错误信息,裸露,恶意软件和其他有问题内容的文章,并交叉引用定期更新的数千个虚假和合法新闻项目数据库。
就其本身而言,Facebook已尝试部署“识别账户和虚假新闻”的AI工具,并最近收购了总部位于伦敦的创业公司Bloomsbury AI,以帮助其打击误导性新闻。
一些专家不相信AI能胜任这项任务。负责组织假冒新闻挑战赛的卡内基梅隆大学机器人研究所科学家Dean Pomerleau是一个众包偏见检测算法的竞赛,他在接受采访时告诉Verge,AI缺乏对不正当和虚假陈述所必需的语言的细致理解。
人类的事实检查者不一定更好。今年,谷歌暂停了事实检查,这是一个标签,出现在谷歌新闻的故事旁边,包括由新闻出版商和事实检查机构检查的信息,此前保守派出版商指责它对他们表现出偏见。
无论最终解决方案是什么,AI,人工管理,还是两者兼而有之,都无法提供足够快的速度。Gartner预测,到2022年,如果目前的趋势持续下去,发达国家中的大多数人会看到更多的错误的信息。