百度介绍测试人工智能模型稳健性的对抗工具箱
2020年01月19日 由 TGS 发表
412214
0
不管人工智能和机器学习系统在生产中宣称的稳健性如何,没有一个系统能够完全抵御对手的攻击,也没有一个技术能够通过恶意输入来愚弄算法。结果表明,即使在图像上产生很小的扰动,也能以很高的概率愚弄最好的分类器。考虑到“人工智能即服务”业务模式的广泛推广问题,亚马逊、谷歌、微软、克拉里菲等公司已经将易受攻击的系统提供给最终用户。
科技巨头百度的研究人员在最近发表的一篇关于ARXIV.ORG:Advbox的论文中,提出了部分解决方案。他们把它描述为一个开源的工具箱,用来生成对抗性的例子,他们说它能够愚弄Facebook的Pythorch和Caffe2、MxNet、Keras、谷歌的TensorFlow以及百度自己的Paddle等框架中的模型。
尽管Advbox本身并不新鲜,但百度论文还是深入揭示了技术细节。AdvBox是基于Python的,它实现了几种常见的攻击,这些攻击执行对敌对样本的搜索。每种攻击方法都使用距离度量来量化敌方干扰的大小,支持图像分类和对象检测模型以及云api的子模型-感知器-评估模型对噪声、模糊、亮度调整、旋转等的稳健性。
AdvBox提供了测试易受所谓对抗性t恤衫或面部识别攻击的检测模型工具。此外,它还提供了通过包含的Python脚本访问百度云托管的deepfakes检测服务。合著者写道:“即便是通常来说不易察觉的干扰,也足以愚弄最强大的人工智能,与以前的工作相比,我们的平台支持黑箱攻击……以及更多的攻击场景。”
百度并不是唯一一家旨在帮助数据科学家抵御攻击的公司。在去年,IBM和MIT发布了一个评估机器学习和人工智能算法稳健性的指标,名为Cross-Lipschitz网络稳健性极值,简称CLEVER;4月,IBM发布了一个名为“对抗性健壮性工具箱”的开发工具包,其中包括测量模型漏洞的代码,并建议了防止运行时操作的方法。另外,德国Tübingen大学的研究人员创建了Foolbox,这是一个Python库,用于生成针对TensorFlow、Keras和其他框架的20多种不同攻击。