IBM的AI训练技术速度提高4倍,并保持原有精度
2018年12月05日 由 浅浅 发表
202811
0
计算效率是AI的核心问题。同时保持训练速度、准确性和能耗并不容易,但是最近硬件的进步使得这个目标比以前更容易实现。IBM将在本周展示AI训练方法,这些方法能带来比以往技术水平高出数量级的性能提升。
第一个突破是加速数字技术,以8位精度实现完全精度。第二个是针对模拟芯片的8位精度技术,这是迄今为止同类技术中最先进的,IBM称其精度大约提高了一倍。
IBM在NeurIPS 2018中详细介绍了两种技术,IBM Research-Almaden副总裁兼实验室主任Jeffrey Welser表示,“下一代AI应用程序需要更快的响应时间,更大的AI工作负载以及来自众多流的多模式数据。为了释放AI的全部潜力,我们正在重新设计AI的硬件:从加速器到用于AI工作负载的专用硬件,如我们的新芯片,以及最终用于AI的量子计算。利用新的硬件解决方案扩展AI是IBM Research为了从Narrow AI转向Broad AI,跨越各个学科,帮助人类解决我们最紧迫的问题。”
从相对高精度(16位)浮点运算到低精度(8位)可能听起来有些违和,但语音识别和语言翻译等任务并不一定那么严格。使用近似值可以实现显著的功效和性能提升。正如Welser所解释的那样,具有16位精度引擎的“计算构建块”平均比具有32位精度的类似块小4倍。
在一篇题为“Training Deep Neural Networks with 8-bit Floating Point Numbers”的论文中,IBM研究人员描述了他们是如何在ResNet50、AlexNet和BN50_DNN等模型以及一系列图像、语音和文本数据集之中,既能将加法的算术精度从32位降低到16位,又能保持8位精度的准确性。他们声称他们的技术可以使深层神经网络的训练时间比16位系统快2到4倍。
第二篇论文“8-bit Precision In-Memory Multiplication with Projected Phase-Change Memory”,提供了一种补偿模拟AI芯片低固有精度的方法,使它们能够在标量乘法运算中达到8位精度。同时比同类数字AI系统消耗的能量少33倍,且精度大约为原来的2倍。
论文的作者提出了内存计算作为传统内存的替代方案,它具有存储和处理数据的双重功能。单独的架构调整可以将能耗降低90%以上,并且相变存储器(PCM)可以获得额外的性能提升。该属性使其能够执行计算,研究人员预测的PCM(Proj-PCM)使PCM在很大程度上不受电导变化的影响,从而实现比以前更高的精度。
Welser指出,“我们的研究团队提高了精度,表明内存计算能够在低功耗环境中实现高性能深度学习,例如物联网和边缘应用,与我们的数字加速器一样,我们的模拟芯片可以扩展到视觉,语音和文本数据集的AI训练和推理,并扩展到新兴的Broad AI领域。”