亚马逊揭开SageMaker AI服务的面纱,分享能够大规模地训练机器学习模式
2018年03月20日 由 nanan 发表
167950
0
亚马逊今天揭开了其SageMaker AI服务的帷幕,揭开其客户如何能够大规模地训练机器学习模式,同时降低成本。该公司采用了新颖的技术,在提供类似性能的同时,保持了所需的计算能力。
当SageMaker接受数据来训练一个模型时,它使用的是一个流式算法,它只会让一个数据传递给它得到的数据,而其他的算法可以在需要的时间和处理能力上看到指数的增长,但亚马逊的算法却没有。当数据流进系统时,该算法调整其状态——这是SageMaker中用于培训特定系统的信息中存在的统计模式的持久表示。
不过,这种状态并不是一种训练有素的机器学习模式:它是将数据输入给SageMaker的一种抽象,然后可用来训练模型。这提供了许多有用的优势,比如让亚马逊更容易地分发模型的训练。SageMaker可以在训练过程中比较多台机器上处理不同数据的相同算法的状态,以确保所有系统正确共享他们所馈送数据的表示形式。
同样的表示使得优化机器学习模型的超参数变得更加容易。那些控制模型某些功能的参数是创建最好的机器学习系统的关键。传统上,数据科学家将通过每次重复训练具有不同参数的相同模型并选择产生最准确最终结果的模型来优化这些参数。
然而,这可能是一个耗时的过程,特别是对于使用大量数据构建的模型而言。在SageMaker的帮助下,亚马逊不需要做所有繁重的再训练,因为它只能使用流式算法的状态。
所有这些都是为了创建一个能够处理全球范围内运行的、令人难以置信的大型数据集的系统,这对于亚马逊的AI项目以及客户的需求都非常重要。
该公司的AI副总裁Swami Sivasubramanian表示,亚马逊的流式算法与其他传统的机器学习方法相比,在准确性方面更具有可用性。
目前很难准确评估亚马逊的做法,因为该公司还没有发布描述SageMaker流式算法如何工作的技术论文。Sivasubramanian表示,亚马逊目前暂停发布,但他指出,该公司已经发布了描述其技术成就的论文(包括他与公司首席技术官Werner Vogels合作的论文)。
不出所料,Sivasubramanian对亚马逊未来的SageMaker计划仍保持缄默态度。但该公司认为AI是未来产品开发的一个关键领域,因此我们很可能会看到它从这里继续发展。