英伟达刷存在感,怼英特尔,想方设法给科技巨头省钱
2017年09月26日 由 meng 发表
422862
0
英特尔与英伟达是两个欢喜冤家,放在一起从来都不缺少话题。在不久之前,在英特尔精尖制造大会上,刚刚为摩尔定律正名。今天,在英伟达主办的GTC中国中,黄仁勋刚一上台就表示摩尔定律已经过时,直接怼了英特尔一次。
说英伟达是AI时代最大的幸运儿,是再适合不过的了,仅仅股价在一年之内就已经上涨了几十倍。全球巡回的GTC之旅北京站,已经吸引了超过3500名科学家、工程师和媒体参加。
全新NVIDIA® TensorRT 3 AI 推理软件
很明显,互联网公司正在加快脚步把AI注入到被数十亿用所采用的服务之中。所以,AI推理工作量在呈指数级增长。
数据表明,在视频领域,每天运行的推理计算大约有3000亿次;在语音领域,每天运行的推理计算大约高达500亿次以上;在语言翻译领域,每天运行的推挤计算更是高达约7000亿次以上。
NVIDIA TensorRT是全球首款可编程推理加速器,借助于CUDA的可编程性,TensorRT可以加速助推深度神经网络日益多样化和复杂的增长趋势。当然,通过TensorRT的加速,服务提供商可以用较低的成本来部署这些计算密集型AI工作负载。
今天,英伟达拿出了全新的NVIDIA® TensorRT 3 AI 推理软件,这款软件可以大幅度提升从云端到终端设备,包括无人驾驶汽车和机器人在内的推力性能,并且可以降低成本。
黄仁勋表示,TensorRT 3 与NVIDIA GPU的结合可以基于所有的框架,为了类似图像和语音识别、视觉搜索、自然语言处理及个性化建议等AI服务提供超快并高效的推理。另外,TensorRT 和NVIDIA Tesla® GPU加速器的速度能够达到CPU的40倍,与基于CPU的解决方案相比,成本只是其中的1/10。
黄仁勋还提及,搭配 Tesla V100 GPU 加速器的 TensorRT 每秒可以识别多达 5700张图片,但是如今所用的 CPU 每秒只能识别 140 张图片。
不难看出,黄仁勋是不会放过任何一个怼CPU的机会的。
除了TensorRT 3之外,黄仁勋还发布了可以实现AI加速的软件,包括可以大规模提供实时。低延迟视频分析的 DeepStream SDK和可以加快 HPC 和深度学习应用速度的加速计算软件平台 CUDA 的最新版本:CUDA 9。
实际上,在5年内CUDA开发人员的数量已经增长了14倍,人数超过了60万人,CUDA SDK的下载量也高达到180万。
黄仁勋还表示,现在已经有包括微软、亚马逊、Facebook、谷歌、阿里巴巴、科大讯飞、京东以及腾讯在内的超过1200家来自于各行各业的公司采用了NVIDIA 推理平台。
帮合作伙伴省钱、省钱、省钱
既然这次GTC大会来到了北京,英伟达当然不会忘记秀一下强大的合作伙伴。现在包括阿里云、腾讯及百度都已经在其云服务中部署了 Tesla V100 GPU 加速器。此外,华为、联想及浪潮再内的OEM都已经采用了NVIDIA的 HGX 服务器架构并使用 Tesla V100 GPU 来构建新一代加速数据中心。
英伟达为什么能够吸引到这些巨头公司呢?手段只有一个,就是帮他们省钱。
阿里云、腾讯及百度都在升级其庞大的数据中心,从基于NVIDIA Pascal 的系统转而采用基于 Volta 的平台,为AI推理及训练提供了非凡的速度与可扩展性。
NVIDIA V100 数据中心 GPU是基于 Volta 的全新系统的核心。该GPU配备有210亿个晶体管,性能比之前的NVIDIA Pascal 架构P100 GPU提升了 5 倍,同时能够提供相当于100个CPU的深度学习性能。
黄仁勋还表示,Tesla GPU 加速的服务器可以代替超过100个超大规模的CPU服务器来运行深度学习推理应用程序与服务,从而节省宝贵的机架空间、降低能耗与冷却要求,实现高达90%的成本降幅。
其原因是因为Tesla V100相较于CPU加速了40倍,因此如今你只需要一台8CPU服务器就能够替代160台爽CPU服务器或者是4个机架,每一台V100服务器能够节约50万美元。
例如京东,通过采用 NVIDIA 的 Tesla GPU 和 TensorRT,已经可以同时针对1000个高清视频流进行实时推理,然而服务器的数量则减少到原来的1/20。
拉拢中国的科技巨头,并拿出实际的应用案例,同时AI城市平台、NVIDIA DRIVE自动驾驶开放平台和世界首款机器人芯片XAVIER接连发力,英伟达已经展现出了AI的雄心,中国成为AI路上路上巨大的潜力市场,英伟达当然也不会错过。