数据科学手册:成为数据科学家的3个提示
数据科学的影响继续通过工业,政府和非营利组织回荡。雇主正在狩猎数据科学人才,盈余计划的盈余涌现出来为有吸引力的数据助剂服务。
但你实际情况如何进入该领域?
为了了解数据科学状态的更清晰的图片,雇主和员工都可以利用它,以及如何进入该领域,我们与一些领域最突出的声音相交:DJ Patil,“数据科学家”一词的Co-Foiner; Michelangelo d'Agostino,以前是奥巴马2012年的数据团队;和Clare Corthell,开源数据科学大师的创造者。
我们已经将他们的见解蒸馏成三个主要的洞察力,我们将在下面分享。
(他们的完整访谈可在线免费提供,作为数据科学手册预发布的一部分。)
1.寻求快速,协作环境
在公司尝试雇用数据科学家时,在所有的独角兽追逐时,很容易忘记协作的重要性。
然而,最终,Patil表示,雇主和数据科学家忘记数据科学是一个常见的努力,这是一个常见的犯罪:
人们通过忘记数据科学是团队运动来犯错误。人们可能指向像我这样的人或(杰夫)哈默巴赫或希拉里(梅森)或Peter Norvig,他们说,哦,看这些人!这是假的,这完全是假的,没有一个单一的数据科学家,他们自己一直这样做。
数据科学是一项团队运动。有人必须把数据带到一起,有人必须移动它,有人需要分析它,有人需要在那里爆炸。
作者还发布了120个数据科学访谈Qual
VB Insight
鉴于这一点,雇主要记住,他们正在聘请建立一个能够共同努力的数据科学家,而不是孤独的狼群的干部。
有抱负的数据科学家应该寻求这样的合作文化,以最大限度地提高他们在为成功的数据科学的团队合作文化中学习,成长和陡峭的能力。
帕特结束:
“在学术界,你所做的第一件事就是坐在你的办公桌前,然后闭上门。硅谷在任何地方都没有门;你在开放的楼层。当人们告诉他们时,这些人是非常震惊的文化震惊,“不,你必须工作,合作,参与,战斗,辩论,而不是躲在桌子后面。”
2.深入陷入困难,肮脏的问题
努力解决困难问题的经验和你用来接近它们的策略是D'Agostino在UC Berkeley的Astrophysics博士期间挑选的最有价值的技能之一。为了获得最终与数据科学相关的经验,D'Agostino建议:
“很长一段时间努力解决问题,并且在某些事情不起作用时,如何推动,不要沮丧,因为大部分时间都不工作。您只需继续尝试并继续信心您可以在最后获得项目。即使你尝试了许多事情,你可以找到所有不起作用的东西,你可以找到所有的错误,你的推理和逻辑中的所有错误,并推到最后的工作解决方案。“
对于学生来说,这意味着您应该一直在寻找您的课程或研究的应用程序,而是可以对真实的实时数据集进行研究。在处理大型凌乱的数据集时,这为您提供了所有细微差别的智慧,并让您了解更多的教科书理论。
D'Agostino向我们解释:
“你可以阅读它,人们可以教你的技术,但直到你实际上处理了一个具有格式问题或其他问题的令人讨厌的数据集,你真的很欣赏你必须合并的东西束数据集合在一起或制作一堆图形到理智检查一些内容,并且突然间在你的发行版中没有任何意义,你必须p出来发生了什么。“
对于当前的从业者来说,它意味着争吵与数据科学中自然出现的强大数学和工程挑战。而不是信任标准工具,打开神秘的黑匣子的机器学习,并为自己打出问题。
总结了这个观点,D'Agostino得出结论:
“对于抱负的数据科学家来说,花时间通过深入挖掘硬数据来挖掘你的手脏,并乱有苛刻的智力和工程问题。难度将延伸你的思想和能力,最终增长和改善你。“
3.用项目引导自己展示掌握
成为数据科学家没有单一的道路。虽然持有博士学位可能是普通的数据科学志愿者,但是Corthell的路径说明它不是唯一的方法。
Corthell在她意识到许多设计决策可以通过关于用户行为的数据来增强的早期启动。最终她离开了初创公司,她用她的新发现空闲时间思考她真正想做的事情。
“在巴塞罗那长时间的解放,我订购了浓缩咖啡,并写下了我需要解剖元趋势并理解用户数据的技术技能。该清单占了6个月的全职工作,之后我真的能够做一些伤害。这成为开源数据科学大师。“
她决定她想收购数据科学技能,了解用户之间的元趋势,并为自己设计了课程。Corthell勇敢地踏上了六个月的自我教育之旅,并将她缺乏正式的工作经验,作为数据科学家,成为展示她生效的机会。她甚至通过发布她用作开源数据科学大师(OSDSM)的资源和课程来创造了自己的知名度。
在构建OSDSM时,Corthell探讨并综合各种公开的在线课程,教程和网站。使用这些资源,她在数据科学的坚果和螺栓中沉浸了自己。她建立了中级项目来测试她的理解。她的韧性赢得了许多人的关注,包括物质令人钦佩,这是一个创业公司,其中Corthell现在作为数据科学家的工作。
“作为患者零的新型基于互联网的机构教育,我不知道要期待什么。不可能知道如何判断,以及我是否会受益于我的实验。这种歧义通常让人非常不舒服。这就像自己在图书馆里留下了六岁的孩子,而不是用老师在课堂上。她现在要做什么?
我知道这将是一种风险,但我迈出了信仰的飞跃,并在图书馆独自离开自己。最终,最大的奖励没有来自课程,它来自冒险对我的风险。它带领我尊重我所采取的风险的部落,并尊重所需的砂砾。“
互联网上自由可用的信息量是惊人的,但可克服。
如果您不适合数据科学家的典型模具,请不要沮丧;用它作为展示自己独立和自律的机会。看看Corthell的OSDSM,并将其作为灵感,以导航您自己的增长矢量。