5个字母解释数据科学管道 适合初学者的学习指南

2018年01月22日 由 yining 发表 754768 0

从前,有一个叫“数据”的男孩。在他的一生中,他总是试图弄明白他活下去的目的是什么。比如:“我的价值观是什么? 我能对这个世界产生怎样的影响? 数据从何而来? 我和数据之间有什么相似之处吗?”这些问题一直都萦绕在他的脑海中,幸运的是,“数据”最终找到了一个解决方案,并经历了一个巨大的转变。


这一切都始于“数据”沿着行(row)散步的时候,他遇到了一个奇怪却又有趣的管道(pipe)。一端是带有入口的管道,另一端是出口。这条管道上还标有5个不同的字母:“O.S.E.M.N.”。好奇驱使“数据”进入了这条管道。长话短说……在数据中,我们发现了洞察力(insight)。5个字母解释数据科学管道 适合初学者的学习指南


提示:本文将简要地介绍在典型的数据科学管道中你所期待看到的内容。从建立你的业务问题到创建可执行的洞察力。
5个字母解释数据科学管道 适合初学者的学习指南


理解数据科学管道工作流程的典型工作流程是实现业务理解和解决问题的关键一步。如果你对数据科学管道的工作方式感到害怕,那就不要再说了。这篇文章是为你量身打造的!


OSEMN管道
O(Obtaining)-获取我们的数据
S(Scrubbing)-整理我们的数据
E(Exploring)-探索我们的数据将使我们能够找到模式和趋势
M(Modeling)-建模我们的数据将给我们作为向导的预测能力
N(iNterpreting)-解释我们的数据


业务问题
所以在我们开始OSEMN管道之前,我们必须考虑的最重要的一步是理解我们要解决的问题。假设这一次在我们开始用“数据科学”做任何事情之前,我们必须首先考虑我们要解决的问题。如果你有一个小问题想要解决,那么最多你就会得到一个小的解决方案。如果你有一个大问题要解决,那么你就有可能有一个大的解决方案。


问问你自己:




  • 我们如何将数据转化为美元?

  • 我想用这些数据做什么?

  • 我们的模型带来了什么业务价值?

  • 什么能帮我们省下一大笔钱?

  • 怎样才能使我们的业务更有效率呢?


5个字母解释数据科学管道 适合初学者的学习指南

了解这一基本概念将使你走得更远,并引导你成为“数据科学家”。但无论如何,不管你的模型预测的有多好,无论你获得了多少数据,无论你的管道是怎样的,这仍然是你必须做的非常重要的一步。




“好的数据科学更多的是提出关于数据的问题,而不是数据的整理(munging)和分析(analysis)”——莱利纽曼



获取你的数据


如果数据科学家没有任何数据,你就不能做任何事情。根据经验,在获取数据时,你必须考虑一些事情。你必须识别所有可用的数据集(可以来自互联网或外部/内部数据库)。你必须将数据提取成可用的格式(csv、json、xml等等)。5个字母解释数据科学管道 适合初学者的学习指南


技能要求:




  • 数据库管理:MySQL,PostgresSQL,MongoDB

  • 查询关系数据库

  • 检索非结构化数据:文本、视频、音频文件、文档

  • 分布式存储:Apache spark、Apache spark/flink


整理数据


管道的这一阶段应该需要最多的时间和精力。因为机器学习模型的结果和输出与输入一样好。基本上来说就是:无用输入,无用输出。


5个字母解释数据科学管道 适合初学者的学习指南


目的:




  • 检查数据:了解你正在使用的每个特征,识别错误,丢失值,以及损坏记录

  • 清洗数据:丢弃、替换和/或填充缺失的值/错误


技能要求:




  • 脚本语言:Python、R、SAS

  • 数据整理工具:Python,Pandas,R

  • 分布式处理:Hadoop、Map Reduce/Spark


探索(探索性数据分析)


现在,在探索阶段,我们尝试了解数据的模式和值。我们将使用不同类型的可视化和统计测试来支持我们的发现。这就是我们能够通过各种图表和分析得出数据背后隐藏的含义的地方。5个字母解释数据科学管道 适合初学者的学习指南


目的:

  • 通过可视化和图表找到你的数据中的模式

  • 通过使用统计信息识别和测试重要的变量来提取特征


技能要求:

  • Python:Numpy,Matplotlib,Pandas,Scipy

  • R:GGplot2,Dplyr

  • 推论统计

  • 实验设计

  • 数据可视化


建模(机器学习)


现在要进行的是最有趣的部分。从统计学意义上来说,模型是基本规则。把机器学习模型想象成在你的工具箱里的工具。你将可以访问许多算法并使用它们来完成不同的业务目标。你使用的功能越好,你的预测能力就越强。在清洗你的数据并发现哪些特征是最重要的之后,使用你的模型作为预测工具只会增强你的业务决策。
预测分析正在成为一个游戏规则的改变者,而不是回头去分析“发生了什么?”预测分析会帮助高管回答“接下来会发生什么?”以及“我们该怎么做?”这样的问题。(福布斯杂志,2010年4月1日)

5个字母解释数据科学管道 适合初学者的学习指南

预测能力的一个例子:在沃尔玛的供应链中可以看到一个很好的例子。沃尔玛可以预测他们是否可以在飓风季节卖光他们所有的草莓味的馅饼(pop-tarts)。通过数据挖掘,他们的历史数据显示,在飓风季节发生前最受欢迎的物品竟然就是“pop-tarts”。这是一个真实的故事,并得出了一个结论,那就是不要低估预测分析的力量。


目的:




  • 深度分析:创建预测模型/算法

  • 评估和改进模型


技能要求:




  • 机器学习:监督/无监督算法

  • 评估方法

  • 机器学习库:Python(Sci-kit Learn)/R(CARET)

  • 线性代数和多元微积分


“模型是数学中嵌入的观点”——凯茜奥尼尔



解释(让数据讲故事)


现在是讲故事的时间!最重要的一步是了解并学习如何通过沟通来解释你的发现。讲故事是关键,不要低估它。它与人联系,说服他们,帮助他们。理解你的听众并与他们建立联系的艺术是数据叙述中最好的一部分。


情感在数据叙述中扮演着重要的角色。人们不会神奇地理解你的发现。产生影响的最佳方式是通过情感来讲述你的故事。我们作为人类,自然受到情感的影响。当你展示你的数据时,请记住心理学的力量。再重申一遍,理解你的听众并与他们建立联系的艺术是数据叙述中最好的一部分。5个字母解释数据科学管道 适合初学者的学习指南

目的:




  • 识别业务洞察力:返回业务问题

  • 将你的发现形象化:保持简单的和优先级的驱动

  • 讲述一个清晰可操作的故事:有效地与非技术受众沟通


技能要求:




  • 业务领域知识

  • 数据可视化工具:Tablaeu,D3.JS,Matplotlib,GGplot,Seaborn

  • 交流:展示/演讲和报告/写作


更新你的模型


不要担心,你的故事不会在这里结束。由于你的模型还在生产中,所以定期更新你的模型是很重要的,这取决于你接收新数据的频率。你收到的数据越多,更新就越频繁。假设你是亚马逊,你为客户推出了一项让他们“购买鞋子”的新功能。如果你的旧模型没有这个功能,那么现在你必须更新包含该特征的模型。如果不是,你的模型会随着时间的推移而退化,并且不会表现得很好,从而导致你的业务也会退化。新特征的引入将会通过不同的变化或者可能与其他特性的相关性来改变模型的性能。



结论


获取你的数据,整理你的数据,用可视化的方法来探索你的数据,用不同的机器学习算法来建模你的数据,通过评估来解释你的数据,并更新你的模型。


记住,我们和数据没有什么不同。我们都有价值观,有目的,有理由在这个世界上存在。

欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消