语言成为数据科学硕士
å ¨å®¶-å¬éè¨éæ°£ç
目录:
每个人都希望自己的职业生涯有很高的需求 - 因为需求转化为高薪并且不缺工作。如今,大数据空间充满了这种就业,因为各种规模的公司都需要收集和分析信息,以便做出决策和预测(并获得结果)。
这正是数据科学家所做的:发现信息,建立联系,创建数据可视化,并帮助公司高效运营。对正确的编程语言进行全面了解对于解释统计数据和使用数据库至关重要。
据KDnuggets称,91%的数据科学家使用以下四种语言。
语言1:R
R是一种受数据挖掘者欢迎的统计导向语言。它是S的开源,面向对象的实现,并不是太难学习。
如果您想学习如何开发统计软件,R是一门很好的语言。它还允许您操作和图形显示数据。
作为他们的数据科学专业化课程的一部分,Coursera提供了一个关于R的课程,它不仅教你如何用语言编程,还讨论如何在数据科学/分析的背景下应用它。
语言2:SAS
与R一样,SAS主要用于统计分析。它是将数据库和电子表格中的数据转换为可读格式(如HTML和PDF文档)以及更直观的表格和图形的强大工具。
它最初由学术研究人员开发,已成为全球各种公司和组织中最受欢迎的分析工具之一。它更像是一种大型公司类型的软件,通常不被小型公司或个人自己使用。
学习SAS的资源列在本文档中。该语言不是开源的,因此您可能无法免费自学。
语言3:Python
尽管R和SAS最常被认为是分析领域的“两大”,但Python最近也成为了竞争者。其主要优势之一是其各种各样的库(例如Pandas,NumPy,SciPi等)和统计功能。
由于Python(如R)是一种开源语言,因此可以快速添加更新。 (使用SAS等已购买的程序,您必须等待下一个版本发布。)
另一个要考虑的因素是Python可能是最容易学习的,因为它简单易学,并且课程和资源的广泛可用性。 LearnPython网站是一个很好的起点。
您还可以找到更完整的Python学习资料列表。
语言4:SQL
到目前为止,我们一直在研究同一系列中的语言,(或多或少)具有相同的功能。 SQL代表“结构化查询语言”,它就是变化的地方。这种语言与统计数据无关;它侧重于处理关系数据库中的信息。
它是使用最广泛的数据库语言,是开源的,所以有抱负的数据科学家绝对不应该跳过它。
学习SQL应该使您能够创建SQL数据库,管理其中的数据以及使用相关的功能。 Udemy提供涵盖所有基础知识的培训课程,可以相当快速,轻松地完成。
结论
至少,您应该学习SQL并选择至少一种统计语言。但是,如果你有时间(在SAS的情况下,钱)并且想要真正达到你的市场价值,没有什么可以说你不能学到所有四个!
不要急于求成,多练习,磨练自己的技能,享受工作保障。