在机器学习项目中，如何使预测建模问题的数据收益最大化

2018年04月23日由浅浅发表 740018 0

预测建模的成功与否，可能取决于你使用的数据，以及你使用这些数据的方法。问题的数据和框架可能是你完成项目的最大筹码。

如果在这个问题上，你选择了错误的数据或框架，那么将会导致模型性能不佳，甚至出现更糟的情况，比如模型无法聚合。如何使用数据，这些问题是无法用分析性运算解决的，不过试误法可以探索出怎样最充分地利用你手中的数据。

在这篇文章中，你将了解到在机器学习项目中，如何使你的数据收益最大化。

读完这篇文章，你会明白：

探索预测建模问题的可替代框架的重要性。

为输入数据设定一系列想法，系统地测试每个想法是有必要的。

特征选择、工程设计和准备，都可以为问题创建更多想法。

概述

这篇文章大致分为8个部分：

问题框架

收集更多的数据

研究你的数据

训练数据样本大小

特征选择

特征工程

数据准备

更进一步

1.问题框架

利用自由联想，以多种方式构建你的预测建模问题。

问题的框架意味着以下元素的结合：

输入

输出

问题类型

比如：

无论数据多少，你都可以将其作为模型的输入数据吗？

你能预测其他事情吗？

你能把问题变成回归、分类、序列等问题吗？

你越有创造力越好，可以借鉴其他项目、论文和领域本身中所包含的想法。

学会利用自由联想：写下所有的想法，即使它们看似疯狂。

2.收集更多的数据

不要局限于你的需要，要获得更多数据，甚至是与预期结果无关的数据。

在出现结果之前，我们都不会知道到底需要多少数据。数据在模型开发期间流通，也需要给项目留下足够的空间。每次你使用一些数据时，其他任务能够使用的数据就会变少。

你需要在如下任务中使用数据：

模型训练；

模型评估；

模型调整；

模型验证。

此外，你所工程的独特项目是前所未有的，当然包括了你所独有的建模数据。你目前还并不知道到底哪些特征是有用的，你可能会有一些想法，但你还不能全然知晓谜底。将数据全部收集起来，让它们在这一阶段可以被尽数利用。

3.研究你的数据

将所有你能想到的数据可视化，从各种角度分析你的数据。

查看原始数据会很有帮助，你会注意到一些细节；

查看汇总统计信息也一样；

数据可视化是这两种学习方式的完美结合，你会从中发现更多的东西。

在原始数据和汇总统计数据上花些时间，最后着手进行可视化，因为这一步需要更多的时间来准备。

使用你能想到的每个数据可视化方法，根据你的数据从各种书籍和论文中搜集资料。

回顾统计图。

保存统计图。

注释统计图。

向领域内的专家展示统计图。

你在寻求对数据更深入的了解，这些可以使用的想法能够帮你更好地选择、工程和准备建模数据，这样就会得到好的结果。

4.训练数据样本大小

对数据样本进行敏感性分析，看看你实际需要多少数据。你不应该分析所有的观察值，如果你这么做了，你就没必要预测新数据了。因此，你使用的只是数据中的一个样本。所以模型究竟需要多少数据是一个开放性问题。

不要以为越多越好，一定要进行测试。工程实验观察模型技能是如何随着样本大小变化的。用统计学知识分析重要趋势是如何随着样本大小变化的。没有这些知识，你就无法对测试工具有足够的了解，从而轻松地评价模型技能。

5.特征选择

为输入特征开发多种不同的想法，并对每个想法进行测试。

哪些变量对你的预测建模问题有帮助或最有帮助是未知的。

你可以尽情猜想；

你可以使用领域内专家的建议；

您甚至可以从特征选择方法中获得的建议。

然而这些都只是猜想。每一组建议输入特征都是问题中的一个想法——关于什么特征可能对建模和预测输出变量有用。利用自由联想、计算等方法，收集尽可能多的不同想法的输入数据。设计实验并仔细地测试比较每个想法。用数据评估哪些特征和视图是最具预测性的。

6.特征工程

用特征工程来创建预测建模问题中额外的特征和想法。

有时你拥有所有可以获得的数据，但是给定的特征会屏蔽一些知识，而这些知识对于机器学习方法来说太过笨拙，以致于无法进行学习和映射结果变量。

例如：

日期或时间。

处理。

描述。

将这些数据分解为更简单的额外成分特征，比如计数、标记或其他元素。在建模过程中，让事情尽可能变得简单。

7.数据准备

用你能想到的所有方法进行数据预处理，以满足算法的需要。预处理数据在输入特征中创设额外的想法，就像特征选择和特征工程那样。

一些算法对预处理有偏好，例如：

规范化的输入特征。

标准化的输入特征。

使输入特征静止。

准备好符合这些期望的数据，然后更进一步。应用你能想到的所有数据预处理的方法。不断地为你的问题设定新的想法，并用模型来测试它们，看哪种效果最好。你的目标是发现有关数据的各种想法，哪一种能够在映射问题中，为学习算法最有效地揭露未知的潜在结构。

8.更进一步

通常你可以收集更多的数据，也可以为你的数据提出更多设想。自由联想很重要。

一旦你觉得自己已到达终点，那么开始调查建模问题中，基于不同想法建立的模型整体，将会是走向成功的便捷之路。这样做简单且高效，尤其是想法揭示了潜在映射问题的不同结构的情况（例如，模型存在不相关的误差）。

总结

在这篇文章中，你了解了使预测建模问题的数据收益最大化的技巧。

具体来说，你学习了以下内容：

探索预测建模问题的可替代框架的重要性。

为输入数据设定一系列想法，系统地测试每个想法是有必要的。

特征选择、工程设计和准备，都可以为问题创建更多想法。

标签：

深度学习学习人工智能教程数据数据预测

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇如何解决机器学习中出现的模型成绩不匹配问题

下一篇学会判断机器学习模型的性能——开发基线模型技能

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）