建立数据科学团队:技术堆栈的力量
在设置数据团队时经常被忽视的因素是技术堆栈的选择。通常,该决定委派给第一次雇用数据科学。由于有关正确技术的信息,那些负责避免作出决定。有一种案例是为了构建多语种团队。尽管如此,我想突出在数据团队的概念化期间选择技术堆栈的优势。
招聘
更频繁地,互联网公司正在寻找数据科学家短语他们目前的职位开口:“r,matlab或sas等分析工具的专业知识以及至少一种语言编写有效代码的能力(最好是Java,C ++,Python或Perl)。”这里的问题是,这些是七种不同的用例不同技能。因此,该公司收到了各种各样的简档,这根本没有帮助实现选择过程。
重要的是要区分使用异国情调和性感的技术来吸引最高人才和实际用于日常工作的工具。因此,可以搜索精通Java和Scala的数据科学家,但谁将有机会与Clojure合作。所有三种语言都是Java虚拟机的一部分,它们在数据科学世界中广泛使用,它们相互补充。该团队实际上可能只使用Scala,但Clojure被用作吸引顶级候选人的诱饵。这里的其他流行选择是语言朱莉娅和Haskell。但是,请注意不要过度使用挑选流行选择的策略,以便获得良好的候选人。公司应询问它可以并希望支持哪种技术和编程语言。例如,其他团队可能已经与某些语言进行了解其他任务,并且可以进行知识共享。
此外,公司应分析就业市场的现实。上面列出的一些语言是巨大的需求,但只有小社区都能使用它们。目前,试图雇用良好的Python数据工程师,并且在欧洲的基础上是一项非常艰巨的任务。尽管薪水标签,市场却枯竭。公司必须在海外寻求理想的候选人,并处理增加的开销。我的经历一直雇用非欧盟国家,并将他或她送到大陆欧洲可能由于法律文书工作和搬迁而占六个月。因此,建立一个质量团队可以花费至少一年的积极搜索,而且与技术的错误决定更长时间。
知识
同样,随着团队的增长和时间传递,他们将积累专业知识和代码库。人们来吧,但你的技术债务留下来。我已经看到了技术选择是事后的案例,改变是痛苦的。数据团队类似于任何其他软件团队,其中迁移和主要重构是一直以成本始终出现的重要事业。
例如,一个团队决定使用R作为主要编程语言,但几个月后意识到它不适合其管道;他们迁移到Python,并被设置为六个月。同样,一支球队让他们的第一个数据科学自由选择他的技术堆栈。该人决定使用Haskell,一种相对晦涩的编程语言,作为他们的主要工具。一年后,该人离开了公司,现在他们有一个无法维护的码比,因为他们找不到适当的人才。
您的团队不应该依赖具体贡献者。很多人想象,技术是可互换的,并且一旦您知道一个编程语言或算法,您就知道所有这些语言或算法。现实非常不同。每个人都可以在一个周末学习技术(编程语言,存储,算法,API等),但产生可以转到生产代码的结果需要更长时间。因此,战略性地选择与其他利益相关者一起的技术,并基于哪种专业知识的决定基础,您希望在公司中培养。
团队文化
每种技术和机器学习技术都有自己的社区和特质。这应该在选择过程中考虑,因为您可能会才能逃离可能不是正确的合适的杀戮。此外,使用出血边缘技术吸引完全不同类型的轮廓而不是选择尝试和测试的选择。如前所述,雇用合适的数据科学人才很难,需要时间;你不想带上适合纸张但不适应的人,而且后来叶子。技术选择在这里起着重要作用。
此外,不要低估使用流血边缘的风险。它倾向于吸引愿意接受竞争力的套餐的顶级候选人。然而,切削刃往往是不稳定的,有时记录不良,并且通常不完全理解如何缩放它。同样,不是团队中的每个人都可以通过您所需要的速度来拥抱它。如果球队击中墙壁,这对您的团队文化来说,这可能对您的团队文化非常令人沮丧,并且由于技术选择差而无法生产。因此,如果您处于紧张的截止日期,采用新技术可能对团队表现有害。
要查找技术行业内部人员的更多独家见解
,请探索VentureBeat最近的客人帖子。
项目
项目的类型和团队的范围将对技术选择产生重大影响。一些堆栈更适合某些用例比其他案例更适合。例如,一个专注于分析和Ad-hoc报告的数据科学团队在以R形或Python堆栈下完美地工作。另一方面,可以更好地为需要强大的推荐系统或欺诈检测的团队与JVM甚至与C ++一起服务。
在团队的早期,范围可能不清楚。尽管如此,讨论在规划阶段期间,讨论可能落入团队责任领域的潜在项目的类型。如果在这些讨论之后,团队的使命不明确,那么最好利用候选人池更大的一般技术。
因此,问题出现了:我应该选择哪种技术?答案并不简单,本文只触及一些要考虑的因素。但是,现在你可以使用这个拇指规则:如果您的数据有资格为大数据,则为JVM相关技术。如果没有,请转到Python或R生态系统。这些技术的选择对于整个价值链(ETL,中间件,分析,可视化等)拥有强大的库,其中大多数都有很好的记录,有可用的人才,并且生态系统是足够稳定的,以便向您的CTO提供安心然而,现代足以吸引最高人才。
您是如何决定哪种技术堆栈是您的数据科学团队最好的?让我在评论中知道。
Rodrigo Rivera是墨西哥德国数据企业家和Emplido的创始人,由Electialeer Inc.在亚洲和欧洲获得的分析招聘公司,他在产品管理,广告技术,CRM的领域建造了Rocket互联网的数据科学团队,数据见解和销售。