Google Cloud AI平台更新,增强培训和推理能力
2019年10月30日 由 KING 发表
539500
0
谷歌近日宣布更新其Cloud AI Platform,以增强机器学习与深度学习模型的训练和预测能力。
Google Cloud AI Platform是一个面向数据科学家、ML开发人员和AI工程师的端对端的机器学习平台(ML PaaS)。Cloud AI Platform提供了解决机器学习模型生命周期的服务。从数据准备到培训再到模型服务,该平台具有开发和部署复杂的机器学习模型的所有基本构件。 本次更新使在Google Cloud Platform上训练和部署ML模型变得更加灵活而强大。
模型开发
运行定制容器以在Cloud AI Platform上训练模型已经不是难事。该功能使用户可以将其自己的Docker容器映像与任何预安装的ML框架或算法一起在AI平台上运行。
自定义容器支持消除云中大规模培训模型所涉及的约束。客户现在可以使用其培训计划中使用的特定版本的语言框架和工具来打包自定义容器映像,这样就无需选择平台来训练模型的特定版本工具。通过自定义容器,数据科学家和ML开发人员可以将自己的框架和库带入AI平台,即使它们本身不受平台支持。开发人员可以在将其部署到云之前在本地构建和测试容器映像。DevOps团队可以将AI平台与现有CI / CD管道集成在一起,以自动化部署过程。
为了简化训练ML模型选择正确硬件配置的过程,Google引入了扩展层,即一组基于一类GCE VM的预定义群集规范。每个级别都是根据其对某些类型工作的适用性来定义的。
客户还可以选择一个自定义层,在其中可以涉及主服务器、工作服务器和参数服务器的计算机配置。集群中的这些服务器有助于分布式训练,以加快训练大型数据集的速度。
模型部署和推理
托管一个经过全面训练的模型的过程称为推理。
客户可以在Google Cloud AI平台中托管经过训练的机器学习模型,并使用AI平台预测服务来推断新数据的目标值。Cloud AI Platform Prediction管理云中的计算资源可以运行ML模型。使用ML模型的开发人员可以从部署的模型中请求预测,并作为响应获得预测的目标值。
现在,Cloud AI Platform Prediction服务使客户可以从一组Google Compute Engine计算机类型中进行选择以运行ML模型。客户可以添加GPU,例如NVIDIA T4或TPU加快推理过程。作为托管平台,该服务无需人工干预即可处理预配、扩展和服务。以前,在线预测服务仅支持从一种或四种vCPU计算机类型中进行选择。
使用AI平台的GCP客户现在可以将预测请求和响应直接记录到BigQuery上,以分析和检测偏斜和异常值,或者确定是否需要重新训练以提高模型的准确性。
Cloud AI Platform Prediction由Google Kubernetes Engine提供支持,可提供所需的规模。 在Cloud NEXT活动中将ML PaaS重大更改为AI平台后,Google一直在不断增强服务。自定义容器和基于GKE的预测服务等功能的普遍适用使该平台具有更强的灵活性和可扩展性,以在云中训练和部署机器学习模型。