NVIDIA 提供的解决GPU危机的“革命性方法”
2023年06月06日 由 Camellia 发表
187065
0
用于训练大型语言和视觉模型的 GPU 的短缺,引发了公司之间争取备用容量和计算能力的竞争。
NVIDIA一直处于生成式人工智能浪潮的前沿,也是其中最大的受益者之一——这要归功于它的GPU。这家芯片巨头预测下一季度的业绩将惊人地达到110亿美元,比华尔街的预测高出50%。
但这对芯片制造商来说也是一把双刃剑,因为需求远远超出供应。《华尔街日报》援引Lamini的联合创始人兼首席执行官Sharon Zhou的话说,“这就像疫情期间的卫生纸…因为短缺,这关乎你认识谁。”
生成式人工智能革命和来自大数据和服务器运营商的容量增加正在导致GPU的短缺。由于GPU适合进行类似矩阵乘法的并行处理任务,公司正在争相获取GPU以训练大型语言和视觉模型。用于生成式人工智能系统的先进芯片的短缺导致了争夺备用容量和计算能力的竞争。
受此影响,NVIDIA的GPU库存在3月份暴跌10.6%,这是自2019年第四季度以来的首次下降。Elon Musk据说已经收购了Oracle大部分备用服务器空间用于OpenAI的竞争对手X.AI(Elon Musk新成立的人工智能公司),使初创企业寻找服务器资源变得更加困难。他曾说:“现在获得GPU比获得毒品要难得多。”
同时,Sam Altman认为,基于训练和运营大型语言模型的强大GPU的成本限制和投资回报递减,扩展更大的AI模型的时代已经结束了。但是,NVIDIA正在寻求拯救局面并保持堆栈的流动。这家市场领导者最近的市值达到了万亿美元,正专注于打造一个由人工智能驱动的未来,为自己带来下一个万亿美元。首席执行官黄任勋在Computex大会上概述了公司的计划。凭借其在生成式人工智能方面的专业知识,NVIDIA旨在使其人工智能组合多样化,并在市场上获得资本。
这是生意
官黄仁勋宣布,NVIDIA计划将其强大的超级计算机出租给企业。通过DGX Cloud租赁服务,开发人员可以访问数以万计的NVIDIA芯片,包括旗舰产品A100或H100芯片,以加速人工智能的发展。这项租赁服务的8个芯片的价格为每月3.7万美元,旨在满足人工智能行业日益增长的需求。NVIDIA正在与Oracle、微软和Alphabet等大公司合作,提供超级计算机服务,进一步扩大对其强大技术的访问。
为了使人工智能产品更具成本效益,NVIDIA在发布会上推出了新的芯片和软件解决方案。他们还推出了人工智能基金会(AI Foundations),这是一项旨在帮助企业培训定制人工智能模型的服务。此外,NVIDIA还推出了加速半导体设计和制造流程的技术,将计算时间从数周大幅缩短至一夜之间。与美国电话电报公司、台湾联电制造(TSMC)和阿斯麦控股(ASML Holding)等行业巨头的合作正在进行中,以将这些进步推向市场。
黄强调,NVIDIA的整个数据中心产品线,包括H100、Grace CPU、Grace Hopper超级芯片、NVLink、Quantum 400 InfiniBand和BlueField-3 DPU,现已投入生产,以满足日益增长的需求。该公司宣布,面向游戏玩家的GeForce RTX 4060 Ti GPU、HGX H100 GPU服务器和GH200 Grace Hopper超级芯片也已全面投产。这些发展凸显了NVIDIA致力于推进人工智能计算并为一系列应用提供高性能解决方案的承诺。
特别是GH200 Grace Hopper超级芯片,它结合了基于Arm的NVIDIA Grace CPU和Hopper GPU架构,现在已经全面投产。GH200提供高带宽和计算能力,适用于复杂的人工智能和高性能计算工作负载。全球超大规模企业、超级计算中心和系统制造商(如Cisco、Dell和Lenovo)将可以访问基于GH200的系统。NVIDIA的软件堆栈,包括NVIDIA AI、Omniverse平台和RTX技术,将在这些加速系统上得到支持,预计将于今年晚些时候推出。
无论如何,没有竞争
目前,NVIDIA在全球GPU市场上占据着88%的份额,竞争对手AMD和英特尔占据剩余的12%。然而,其他公司正在进入人工智能加速器市场,包括AMD的AMD Instinct 人工智能加速器。尽管由于缺乏与NVIDIA的CUDA等效的API,AMD的消费类GPU不如NVIDIA的GPU适用于人工智能应用程序,但AMD已开发了用于机器学习的ROCm开放软件平台。然而,CUDA更为成熟且集成度更高,在与人工智能工具如TensorFlow和PyTorch的兼容性方面更为优越。
为了减少对NVIDIA的依赖,谷歌和亚马逊等主要科技巨头已经为人工智能工作负载开发了自己的定制芯片。例如,AWS为推理任务推出了Inferentia,而谷歌则专门为TensorFlow开发了张量处理单元(TPU)。尽管出现了这些定制芯片,但NVIDIA长期以来一直是人工智能领域的主要参与者,即使在使用GPU进行训练AI算法之前,NVIDIA就已经在这个领域扮演了关键角色。
来源:https://analyticsindiamag.com/nvidias-game-changing-fix-for-the-gpu-crisis/