从前,有一个叫“数据”的男孩。在他的一生中,他总是试图弄明白他活下去的目的是什么。比如:“我的价值观是什么? 我能对这个世界产生怎样的影响? 数据从何而来? 我和数据之间有什么相似之处吗?”这些问题一直都萦绕在他的脑海中,幸运的是,“数据”最终找到了一个解决方案,并经历了一个巨大的转变。
这一切都始于“数据”沿着行(row)散步的时候,他遇到了一个奇怪却又有趣的管道(pipe)。一端是带有入口的管道,另一端是出口。这条管道上还标有5个不同的字母:“O.S.E.M.N.”。好奇驱使“数据”进入了这条管道。长话短说……在数据中,我们发现了洞察力(insight)。
提示:本文将简要地介绍在典型的数据科学管道中你所期待看到的内容。从建立你的业务问题到创建可执行的洞察力。
理解数据科学管道工作流程的典型工作流程是实现业务理解和解决问题的关键一步。如果你对数据科学管道的工作方式感到害怕,那就不要再说了。这篇文章是为你量身打造的!
OSEMN管道
O(Obtaining)-获取我们的数据
S(Scrubbing)-整理我们的数据
E( Exploring)-探索我们的数据将使我们能够找到模式和趋势
M(Modeling)-建模我们的数据将给我们作为向导的预测能力
N(iNterpreting)-解释我们的数据
业务问题
所以在我们开始OSEMN管道之前,我们必须考虑的最重要的一步是理解我们要解决的问题。假设这一次在我们开始用“数据科学”做任何事情之前,我们必须首先考虑我们要解决的问题。如果你有一个小问题想要解决,那么最多你就会得到一个小的解决方案。如果你有一个大问题要解决,那么你就有可能有一个大的解决方案。
问问你自己:
了解这一基本概念将使你走得更远,并引导你成为“数据科学家”。但无论如何,不管你的模型预测的有多好,无论你获得了多少数据,无论你的管道是怎样的,这仍然是你必须做的非常重要的一步。
“好的数据科学更多的是提出关于数据的问题,而不是数据的整理(munging)和分析(analysis)”——莱利纽曼
如果数据科学家没有任何数据,你就不能做任何事情。根据经验,在获取数据时,你必须考虑一些事情。你必须识别所有可用的数据集(可以来自互联网或外部/内部数据库)。你必须将数据提取成可用的格式(csv、json、xml等等)。
技能要求:
管道的这一阶段应该需要最多的时间和精力。因为机器学习模型的结果和输出与输入一样好。基本上来说就是:无用输入,无用输出。
目的:
技能要求:
现在,在探索阶段,我们尝试了解数据的模式和值。我们将使用不同类型的可视化和统计测试来支持我们的发现。这就是我们能够通过各种图表和分析得出数据背后隐藏的含义的地方。
预测分析正在成为一个游戏规则的改变者,而不是回头去分析“发生了什么?”预测分析会帮助高管回答“接下来会发生什么?”以及“我们该怎么做?”这样的问题。(福布斯杂志,2010年4月1日)
预测能力的一个例子:在沃尔玛的供应链中可以看到一个很好的例子。沃尔玛可以预测他们是否可以在飓风季节卖光他们所有的草莓味的馅饼(pop-tarts)。通过数据挖掘,他们的历史数据显示,在飓风季节发生前最受欢迎的物品竟然就是“pop-tarts”。这是一个真实的故事,并得出了一个结论,那就是不要低估预测分析的力量。
目的:
技能要求:
“模型是数学中嵌入的观点”——凯茜奥尼尔
现在是讲故事的时间!最重要的一步是了解并学习如何通过沟通来解释你的发现。讲故事是关键,不要低估它。它与人联系,说服他们,帮助他们。理解你的听众并与他们建立联系的艺术是数据叙述中最好的一部分。
目的:
技能要求:
不要担心,你的故事不会在这里结束。由于你的模型还在生产中,所以定期更新你的模型是很重要的,这取决于你接收新数据的频率。你收到的数据越多,更新就越频繁。假设你是亚马逊,你为客户推出了一项让他们“购买鞋子”的新功能。如果你的旧模型没有这个功能,那么现在你必须更新包含该特征的模型。如果不是,你的模型会随着时间的推移而退化,并且不会表现得很好,从而导致你的业务也会退化。新特征的引入将会通过不同的变化或者可能与其他特性的相关性来改变模型的性能。
获取你的数据,整理你的数据,用可视化的方法来探索你的数据,用不同的机器学习算法来建模你的数据,通过评估来解释你的数据,并更新你的模型。
记住,我们和数据没有什么不同。我们都有价值观,有目的,有理由在这个世界上存在。