MIT等研究团队开发交互式工具ATMSeer,可查看和控制AutoML系统工作流程
2019年06月05日 由 明知不问 发表
888610
0
麻省理工学院等研究团队开发了一种交互式工具,首次让用户看到并控制自动机器学习系统的工作方式。目的是建立对这些系统的信心,并找到改进它们的方法。
为图像分类、疾病诊断和股市预测等特定任务设计机器学习模型是一个艰巨而耗时的过程。专家们需要从许多不同的算法中选择建立模型,然后,在模型开始训练之前,手动调整确定模型总体结构的超参数。
最近开发的自动机器学习(AutoML)系统迭代测试修改算法和超参数,并选择最适合的模型。但这些系统是作为黑盒子运行的,这意味着它们的选择技术对用户是隐藏的。因此,用户可能不信任搜索结果,并且很难根据自己的搜索需求定制系统。
ATMSeer工具
在ACM CHI计算系统人为因素会议上发表的论文中,麻省理工学院,香港科技大学(HKUST)和浙江大学的研究人员描述了一种工具,将AutoML方法的分析和控制纳入用户手中。该工具名为ATMSeer,它将AutoML系统、数据集和有关用户任务的一些信息作为输入,然后它在用户友好的界面中可视化搜索过程,界面提供有关模型性能的深入信息。
共同作者Kalyan Veeramachaneni说道,“我们让用户选择并观察AutoML系统是如何工作的,你可以简单地选择性能最好的模型,或者考虑其他因素,或者使用领域专家来指导系统搜索某些模型。”
研究人员发现大约85%使用ATMSeer的参与者对系统选择的模型充满信心。几乎所有参与者都表示,使用该工具使他们在将来使用AutoML系统时足够舒适。人们更有可能使用AutoML,因为他们打开了那个黑盒子,看到并控制了系统的运行方式。
数据可视化是实现人与机器之间更好协作的有效方法。ATMSeer将主要使机器学习从业者受益,无论他们的领域如何,具有怎样的专业水平。它可以减轻手动选择机器学习算法和调整超参数的麻烦。
调整模型
新工具的核心是定制的AutoML系统,称为“自动调整模型”(ATM),由Veeramachaneni等研究人员在2017年开发。与传统的AutoML系统不同,ATM在尝试拟合模型时对所有搜索结果进行完整编目数据。
ATM将任何数据集和编码预测任务作为输入。系统随机选择一个算法类,如神经网络、决策树、随机森林、logistic回归和模型s超参数。
然后,系统针对数据集运行模型,迭代地调整超参数,并测量性能。它使用了解该模型的性能来选择另一个模型。最后,系统为任务输出几个表现最佳的模型。
诀窍在于,每个模型基本上可以被视为具有一些变量的一个数据点:算法,超参数和性能。在这项工作的基础上,研究人员设计了一个系统,在指定的图形和图表上绘制数据点和变量。他们开发了一种独立的技术,可以让他们实时重新配置数据。使用这些工具,你可以想象的任何东西,你也可以修改。
类似的可视化工具专门用于分析一种特定的机器学习模型,并允许有限的搜索空间定制。因此,为AutoML流程提供有限的支持,其中需要分析许多搜索模型的配置,相比之下,ATMSeer支持分析使用各种算法生成的机器学习模型。
用户控制和信心
ATMSeer的界面由三部分组成。控制面板允许用户上传数据集和AutoML系统,并启动或暂停搜索过程。下面是一个概览面板,显示基本统计数据,例如搜索的算法和超参数的数量,还有一部分是按降序排列的最佳表现模型的排行榜。
ATMSeer包含一个“AutoML Profiler”,其中的面板包含有关算法和超参数的深入信息,这些信息都可以进行调整。一个面板将所有算法类别表示为直方图,即一个条形图,显示算法性能分数的分布,范围为0到10,具体取决于它们的超参数。一个单独的面板显示散点图,可以显示不同超参数和算法类的性能折衷。
对没有AutoML经验的机器学习专家进行的案例研究表明,用户控制确实有助于提高AutoML选择的性能和效率。、三个主要因素确定用户如何自定义其AutoML搜索:搜索的算法数量,系统运行时间以及查找表现最佳的模型。这些信息可以用来为用户量身定制系统。