IBM提出深度学习模型水印方法,可防止侵权
2018年07月23日 由 浅浅 发表
845119
0
如果机器学习模型可以在照片,电影,音乐和手稿添加水印以表明版权,防止知识产权窃取,并防止攻击者损害其完整性,该会如何呢?IBM正在申请新的专利,他们可以做到这一点。
IBM认知网络安全情报经理Marc Ph.Stoecklin详细介绍了IBM研究人员将独特标识符嵌入神经网络的工作。他们的概念最近在韩国的ACM亚洲计算机和通信安全会议(ASIACCS)上发布,可能会在IBM内部进行部署,或者在不久的将来作为面向客户的产品发布。
“这是我们第一次用强有力的方式来证明某人进行了剽窃,”Stoecklin表示,“深度神经网络模型需要强大的计算机,神经网络专业知识和训练数据,然后才能得到一个高度准确的模型。它们很难建造,所以它们很容易被剽窃。任何有价值的东西都将成为目标,包括神经网络。”
IBM并不是第一个提出深度学习模型水印方法的,KDDI研究所和国家信息学研究所的研究人员于2017年4月发表了一篇关于该主题的论文。但正如斯托克林所指出的那样,以前的概念需要了解被盗模型的知识,这些参数是远程部署的,剽窃服务不太可能公开。
而IBM团队的方法独特之处是允许应用程序使用API查询来验证神经网络服务的所有权。这对于防止对抗性攻击至关重要,例如,之前欺骗计算机视觉算法将猫视为“疯狂的被子”,或强迫自动驾驶汽车无视停车标志。
那么它是怎样工作的?这是一个两步过程,涉及嵌入阶段,其中水印应用于机器学习模型,以及检测阶段,它可以被提取以证明所有权。
研究人员开发了三种算法来生成三种相应类型的水印:一种是将“有意义的内容”与算法的原始训练数据一起嵌入,另一种是嵌入不相关的数据样本,第三种是嵌入噪声。在将任何三种算法应用于给定神经网络之后,馈送与目标标签相关联的模型数据触发水印。
该团队使用MNIST数据集测试了三种嵌入算法,一个包含60000个训练图像和10000个测试图像的手写数字识别数据集,以及一个包含50000个训练图像和10000个测试图像的对象分类数据集CIFAR10。
结果,所有这些都是“100%有效”。Stoecklin指出,“例如,如果我们的水印是1,我们的模型将由数字形状触发。”
不过它不适用于离线模型,尽管Stoecklin指出在这些情况下剽窃的动机较少,因为这些模型无法套现。并且它无法通过预测API攻击来防止侵权,这些攻击通过发送查询和分析响应来提取机器学习模型的参数。
该团队继续改进该方法,并且如果一切按计划进行,则有可能进行商业化。