在机器学习项目中,如何使预测建模问题的数据收益最大化

2018年04月23日 由 浅浅 发表 739850 0
在机器学习项目中,如何使预测建模问题的数据收益最大化

预测建模的成功与否,可能取决于你使用的数据,以及你使用这些数据的方法。问题的数据和框架可能是你完成项目的最大筹码。

如果在这个问题上,你选择了错误的数据或框架,那么将会导致模型性能不佳,甚至出现更糟的情况,比如模型无法聚合。如何使用数据,这些问题是无法用分析性运算解决的,不过试误法可以探索出怎样最充分地利用你手中的数据。

在这篇文章中,你将了解到在机器学习项目中,如何使你的数据收益最大化。

读完这篇文章,你会明白:

  • 探索预测建模问题的可替代框架的重要性。

  • 为输入数据设定一系列想法,系统地测试每个想法是有必要的。

  • 特征选择、工程设计和准备,都可以为问题创建更多想法。


概述


这篇文章大致分为8个部分:

  • 问题框架

  • 收集更多的数据

  • 研究你的数据

  • 训练数据样本大小

  • 特征选择

  • 特征工程

  • 数据准备

  • 更进一步


1.问题框架


利用自由联想,以多种方式构建你的预测建模问题。

问题的框架意味着以下元素的结合:

  • 输入

  • 输出

  • 问题类型


比如:

  • 无论数据多少,你都可以将其作为模型的输入数据吗?

  • 你能预测其他事情吗?

  • 你能把问题变成回归、分类、序列等问题吗?


你越有创造力越好,可以借鉴其他项目、论文和领域本身中所包含的想法。

学会利用自由联想:写下所有的想法,即使它们看似疯狂。

2.收集更多的数据


不要局限于你的需要,要获得更多数据,甚至是与预期结果无关的数据。

在出现结果之前,我们都不会知道到底需要多少数据。数据在模型开发期间流通,也需要给项目留下足够的空间。每次你使用一些数据时,其他任务能够使用的数据就会变少。

你需要在如下任务中使用数据:

  • 模型训练;

  • 模型评估;

  • 模型调整;

  • 模型验证。


此外,你所工程的独特项目是前所未有的,当然包括了你所独有的建模数据。你目前还并不知道到底哪些特征是有用的,你可能会有一些想法,但你还不能全然知晓谜底。将数据全部收集起来,让它们在这一阶段可以被尽数利用。

3.研究你的数据


将所有你能想到的数据可视化,从各种角度分析你的数据。

  • 查看原始数据会很有帮助,你会注意到一些细节;

  • 查看汇总统计信息也一样;

  • 数据可视化是这两种学习方式的完美结合,你会从中发现更多的东西。


在原始数据和汇总统计数据上花些时间,最后着手进行可视化,因为这一步需要更多的时间来准备。

使用你能想到的每个数据可视化方法,根据你的数据从各种书籍和论文中搜集资料。

  • 回顾统计图。

  • 保存统计图。

  • 注释统计图。

  • 向领域内的专家展示统计图。


你在寻求对数据更深入的了解,这些可以使用的想法能够帮你更好地选择、工程和准备建模数据,这样就会得到好的结果。

4.训练数据样本大小


对数据样本进行敏感性分析,看看你实际需要多少数据。你不应该分析所有的观察值,如果你这么做了,你就没必要预测新数据了。因此,你使用的只是数据中的一个样本。所以模型究竟需要多少数据是一个开放性问题。

不要以为越多越好,一定要进行测试。工程实验观察模型技能是如何随着样本大小变化的。用统计学知识分析重要趋势是如何随着样本大小变化的。没有这些知识,你就无法对测试工具有足够的了解,从而轻松地评价模型技能。

5.特征选择


为输入特征开发多种不同的想法,并对每个想法进行测试。

哪些变量对你的预测建模问题有帮助或最有帮助是未知的。

  • 你可以尽情猜想;

  • 你可以使用领域内专家的建议;

  • 您甚至可以从特征选择方法中获得的建议。


然而这些都只是猜想。每一组建议输入特征都是问题中的一个想法——关于什么特征可能对建模和预测输出变量有用。利用自由联想、计算等方法,收集尽可能多的不同想法的输入数据。设计实验并仔细地测试比较每个想法。用数据评估哪些特征和视图是最具预测性的。

6.特征工程


用特征工程来创建预测建模问题中额外的特征和想法。

有时你拥有所有可以获得的数据,但是给定的特征会屏蔽一些知识,而这些知识对于机器学习方法来说太过笨拙,以致于无法进行学习和映射结果变量。

例如:

  • 日期或时间。

  • 处理。

  • 描述。


将这些数据分解为更简单的额外成分特征,比如计数、标记或其他元素。在建模过程中,让事情尽可能变得简单。

7.数据准备


用你能想到的所有方法进行数据预处理,以满足算法的需要。预处理数据在输入特征中创设额外的想法,就像特征选择和特征工程那样。

一些算法对预处理有偏好,例如:

  • 规范化的输入特征。

  • 标准化的输入特征。

  • 使输入特征静止。


准备好符合这些期望的数据,然后更进一步。应用你能想到的所有数据预处理的方法。不断地为你的问题设定新的想法,并用模型来测试它们,看哪种效果最好。你的目标是发现有关数据的各种想法,哪一种能够在映射问题中,为学习算法最有效地揭露未知的潜在结构。

8.更进一步


通常你可以收集更多的数据,也可以为你的数据提出更多设想。自由联想很重要。

一旦你觉得自己已到达终点,那么开始调查建模问题中,基于不同想法建立的模型整体,将会是走向成功的便捷之路。这样做简单且高效,尤其是想法揭示了潜在映射问题的不同结构的情况(例如,模型存在不相关的误差)。

总结


在这篇文章中,你了解了使预测建模问题的数据收益最大化的技巧。

具体来说,你学习了以下内容:

  • 探索预测建模问题的可替代框架的重要性。

  • 为输入数据设定一系列想法,系统地测试每个想法是有必要的。

  • 特征选择、工程设计和准备,都可以为问题创建更多想法。

欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消