数据科学家修炼之道

Posted by The Drunkard's Walk on May 21, 2016

数据科学与大数据

四V特性,也有人提起另外两种特性:Variability(多变)和Visibility(可见)

  • Volume (体量)
  • Velocity (高速)
  • Variety (多样)
  • Veracity (准确)

里程碑:

  • 1996年IFCS举行大会“Data Science, Classification and Related Methods”(数据科学、分类以及相关方法)
  • 1997年,《数据挖掘与知识发现》创刊
  • 2009年,《数据学导论》中提到,数据科学是一门新的科学,不同于自然科学与社会科学
  • 2009年6月,《数据科学家的崛起》

数据科学的重要性

挑战之一:开发出更适于分析数据,发现非线性关系以及元素间相互作用的模型,以及专用的数据挖掘工具来辅助决策。

数据科学的韦恩图

新规则

  • MapReduce 是一个使计算机网络可以用低风险来高效分拆数据的规则,所有的数据都会被复制,防止集群中的节点(计算机)崩溃。还有一些用来负责任务的时序安排和管理数据流的管理节点。
  • Hadoop 灵魂是MapReduce,像浏览本地文件一样浏览计算机集群上的文件。
  • 高级文本分析,自然语言处理(NLP)
  • 大规模数据程序语言(例如Pig、R、ECL等)
  • 替代性的数据库结构(例如Hbase、Cassandra、MongoDB…)

数据科学家的类型

《Analyzing the Analyzers》(分析分析者)四个分类:

  • 数据开发者 通常更多地关注技术话题,数据管理、数据分析。 日常工作涉及从各类数据源收集数据以及在一个大型数据库内组织数据,从这些数据库中查询有意义的结果,以及从结果中推导出有价值的信息。 倾向于成为拥有坚实的代码编写能力和机器学习技能的程序员,商务和统计技能相对较为初级。
  • 数据研究者 常常来自于学术界,有扎实的统计学背景,学历较高,商务技能并不是专长但不影响。 对于大型机构而言,他们是很重要的资产,由于他们精于学习新知,所有有可能变得很适合各类职务。
  • 数据创意师 有深厚的学术经历,极其擅长大数据技术,常常是开源软件的贡献者,同时拥有广博的知识。不仅具有商业头脑,而且也擅长日常的数据科学家工作。 对于需要员工具备适应各类工作能力的小公司来说是极其重要的资产。
  • 数据商务人士 通常是资深数据科学家,同时领导数据科学团队,他们在商务能力上非常娴熟,同时也是称职的项目经理。 常见于大型机构或是自营的企业,擅长于与其他专长人士打交道,特别是商务人士,同时也常常具有数据科学家流程中其他方面的大量经历。
  • 混合/普适类型 和数据商务人士很像,但并不拥有广泛的经历或是敏锐的商业嗅觉。 比较平衡,他们的技能包括编程、统计以及商务技巧,同时他们更加灵活,很像数据创意师,但具有更深入的商业理解。

数据科学家的思维体系

最为重要的几种特质:

  • 好奇心
  • 乐于实验
  • 创造力和系统性工作,没有创造力,就会局限于既有经验和方法论的框架中;系统性工作,是科学与艺术的区别,要在可控的时间和成本内完成目标。
  • 沟通能力

素质与能力

  • 建模(Model Building)
  • 计划(Plan)
  • 解决问题(Problem Solving)
  • 快速学习(Learning Fast)
  • 适应性(Adaptability)
  • 团队合作(Teamwork)
  • 变通(Flexibility)
  • 研究(Research)
  • 关注细节(Attention to Detail)
  • 汇报(Reporting)

思维

一般来说,是综合式和跃进式的思维方式。具有自我反馈的能力,也就是“元认知”。头脑是进化的,与创业者、管理者以及投资者相似,不断学习新知。

抱负

多与领域内的其他专业人士交流,有旺盛的求知欲,迎接开放性问题和各种挑战。

技术资质

综合的编程能力

一般来说需要掌握Java、Python、C++/C#、Perl、SQL也是必须的

科学背景

技术领域至少有一个硕士学位,对各种高级分析技巧扎实理论的理解和工具运用。需要学习几门数学统计学。

专业化知识

掌握至少一个统计工具

  • R(最先进的统计分析平台)
  • SPSS、SAS、Stata、MATLAB(统计工具,商业软件)

经验