真实数据科学家们有一种罕见的技能混合赛:这是要寻找的东西
在去年的过程中,我与数百名雇主有兴趣招聘数据科学家的雇主,特别是具有高级教育学位的数据科学家。许多雇主和招聘经理人听说大数据是“热门新事物”。但与所有“热门新事物一样,”数据科学有很多错误的信息,因为有事实。以下是我经常遇到的大数据和数据科学的三种误解:
1.大数据是统计和商业智能,具有更多数据。这里没有什么新鲜事。
这是一个经常由有限或没有软件开发经验的人持有的视图,它显然是假的。对此的完美类比是冰。冰只是冷水吧?这里没有什么新鲜事。然而,冷却水不仅仅改变定量性质(温度),而是彻底改变其定性性质(将液体转化为固体)。可以说更多的数据。大数据库并最终打破计算的旧范例。通过大数据,所有数据都不能融入RAM,传统的BI计算需要数年。并行化和分布式计算是明显的缩放答案,但这并不总是容易:即使是逻辑回归等简单的统计工具也不容易并行化。分布式统计计算与传统业务分析不同,因为冰是来自水的。
2.数据科学家只是重新安排的软件工程师。
有时,具有强大的软件开发背景的工程师将重新命名为薪资溢价的数据科学家。这可能导致SubPar结果。在最简单的级别,调试统计错误会变得更加困难。工程师培训以发现并解决编程错误。但是在概率和统计数据中没有稳固的背景,他们经常有一个艰难的时间解决统计错误。您的代码可能只是正常,但如果您没有正确重新重复您的培训示例,您的预测将会关闭。
在更高的级别,工程师培训良好,以构建简单的基于规则的模型。但这些模型不适合从持续价值的数据中获得更微妙的洞察力,并在桌面上留下钱。克服这些挑战是必要的,以克服这些挑战,以建立下一代可扩展预测模型。
3.数据科学家不需要了解业务,数据会告诉您一切。
有机器学习背景的人往往屈服于这个,部分是因为机器学习如此强大。但这不是无所不能的。搜索所有可能的相关性是耗时,更不用说统计上有问题。数据科学家需要被企业直觉所指导,以帮助他们区分虚假的相关性和真实的相关性。缺乏领域专业知识可能导致得罪的结论(“更多警察导致更高的犯罪率”),提示不良政策建议(“削减了高犯罪街区的警务人员”)。最后,拥有商业直觉对令人信服的关键利益相关者来说也很重要。这些利益相关者可能不是数据科学家,但通常是域名专家:谈论你可以理解的语言的相关性是获得那种机构买入的关键,这对于数据科学来实现其承诺是必要的。
大数据和数据科学是关于构建合适的右翼工程,统计和商业技能的正确模型。如果没有三个,您的数据科学家将无法实现他们所开放的一切。
Michael Li是数据科学奖学金计划的创始人和执行主任数据孵化器。他以前是四方标和安德烈森·赫洛维茨的数据科学,并作为美国宇航局的研究员和华尔街柱的时间。你可以在Twitter @tianhuil上跟着他。