寻找一个伟大的数据科学家可以觉得想寻找公主桃子。她总是在另一个城堡。

有很多程序员可以匹配初创公司的速度。有大量的博士学位与稳固的研究背景。但是有一个严重的犹太人申请人,配备了两种技能。

Foursquare Veteran Michael Li正在解决解决方案:一个用于数据科学家的黑客训练营。它被称为数据孵化器。

纽约初创企业打算采取最聪明的科学和工程博士,并推动他们进入数据科学事业。首届计划计划于6月开始。

它不是针对从广场开始的人设计的。申请人已经有一些编程经验以及强大的定性和沟通技巧。李计划通过实际关心的工具和技术堆栈进一步熟悉他的研究员。

这对PHD不确定他们的下一步举措是一个有吸引力的提案。但它变得更好。

除了纽约市的房间和董事会费用之外,六周计划不会花费一分钱。如果他们决定聘请数据孵化器校友作为数据科学家或定量分析师(Quants),则数据孵化器将向其雇主合作伙伴收取其雇主合作伙伴。

这是黑客学校采用的相同模式,另一个用于编码人员的纽约计划。然而,更常见的是,编程训练营将对他们的课程(大会)收取费用,或者占据他们的校友的第一年的薪酬(App Academy)。

李认为,在大学出现的所有其他费用之后,使PHDS支付技术培训是正确的。

“我们真的试图把教育模式转向头上,”李说。“当你如此接近就业时,你应该支付自己的培训的想法 - 我只是不认为这是对的。”

自传初创公司

李是数据孵化器的执行董事,曾担任美国宇航局的血浆研究员,作为主要金融机构,最近是Foursquare的数据科学家。同时,他朝着去年收到的普林斯顿的计算和应用数学博士学位。

但他感到沮丧,他从学术研究中收集的技能统一往往与专业期望并没有保持一致。在他的私营部门工作,标准上升和时期萎缩。

“你从五年内花了五年的生活,在一个真正努力,深深的问题上有五天来让你的项目完成,如果你很幸运,”他说。

虽然学术界通过深入了解细节,但大多数公司对MeTiae的宽容很少。他们正在寻找快速和肮脏的解决方案,没有完美的代码,每个小细节都熨烫。

随着美国数据的数据规模增长,这种技能差距变得更加急剧,Yann Lecun,Facebook的人工智能研究总监告诉VidtureBeat。Lecun也是纽约大学数据科学中心的创始事事,说教育系统尚未赶上。

虽然李显然是一名恒星学生(一位证明他的学术能力的前数学教授),但他在雇用和在他的前几个月内感受到了大量的痛苦点。

但是现在,正如李游行到数据孵化器的六月发射,那些烦恼已成为他最大的资产之一:他知道其他人需要填补的知识。他知道如何填补它们。

教学才华

在设计数据孵化器的课程时,李从艺术学校提示。

在整个六周计划中,每个人都将制作一个投资组合项目。它应该展示他们收集和清洁数据的能力,应用一些有意义的机器学习方法和统计分析,并展示或可视化易消化的方式。在该计划结束时,他们将为潜在雇主提供一项大量的代码来审查。

“我有一些关于他们应该知道的各种各样的事情的模块,但它主要是通过建立一个投资组合项目指导他们,”李说。

课程

软件工程和数值计算。优化和矢量化线性代数的数值技术。编程工具包括Python,numpy,scipy,scikit-searn,matplotlib。数据可视化包括D3,GGPlot.Natural语
言处理。处理非结构化数据,词根,袋,单词,TF / IDF,主题建模.Statistics。
假设检测,回归和分类,组合方法,交叉验证,方差 - 偏置分解,数据归一化
.Database和并行化。SQL,Hadoop,MapReduce,Hive。

沿途,研究员将熟悉关键的技术技能,跨越软件工程和对数据库和并行化的数值计算。他们不会带走相同的技能集,但会有一些共同的地面,就像一个焦点在Python上。

“如果你想成为一个数据科学家,这些是你需要知道的事情,”李说。

我们很幸运

LI目前正在通过超过1,000个应用程序进行排序。

数据孵化器申请人在一起代表80多所不同的大学。他们主要是博士和文档,但一些初级教师和助理教授也适用于李的训练营。

李还尚未决定有多少学生将进入第一批学生,但他向我们保证,它将是一个少数人。

“我们不能接受5.8%,”他说,参考哈佛的验收率。“这是不可能的。”

总共可以使李能够在数据科学世界中与智力火力挑选人们。他们会预先装备90%的难以学习的技能:数学和统计数据专业知识。李的节目是加强持续10%的增强:技术培训,以及一些沟通和网络技能。

“它不像[那个材料]在概念上复杂的任何一个:Facebook的Lecun说,明亮的人可以很快挑选它。“你不能在飞行中拿起的东西是数学,这些人[已经]拥有它。”

?????, 利润

随着康奈尔科技加速度方案的一些初步融资,李的主要焦点现在正在追求雇主合作伙伴,这些伙伴将长期为其创业提供资金。

到目前为止,大约20家公司已同意作为训练者校友的雇主参加。许多人在“主流”技术领域,包括四个和etsy。其他人代表医疗保健和金融服务行业,如肿瘤数据公司Flatiron Health和算法执行代理数量经纪人。mashable正在击败堡垒作为数据孵化器的第一媒体雇主。

公司无义务聘请数据孵化器校友,但如果他们确实成功租赁,他们将支付相当于招聘费。

通常,当公司发布数据科学工作列表时 - 例如,在大学职位委员会 - 数百名简历洪水中。该公司很难将合格的申请人与众克人群中的合格申请人分开。

“一般来说,当你看一下休史并采访候选人时,这最终是对他们学习和建造新事物的能力的相对较浅的评估,”摩根首席技术官员Robyn Peterson说。

“李不得不直接面对这个问题,我们可以帮助他和一些有抱负的数据科学家所做的两者。”

有效地,数据孵化器将预筛选候选者。此外,校友都将拥有投资组合项目,因此雇主可以在运行自己的测试之前挖掘一些有形的最近的材料。

随着近期大学毕业的群体往往缺乏对工作的正确技能,公司展示了更偏好的候选人。但是招聘大学有一些优势:外国学生可以更容易地获得签证,并且从学位课程中出现的人可能会以更多的主题特定知识开始。

但由于雇用义务没有义务,参加李的计划很少有缺点。

“我们开放了各种各样的方式来获得好人,”定量经纪人Cofounder Robert Almgren说。“我们真的需要一个被解雇的一个关于金融市场的人,并有能力添加一些东西。”

大数据,较少的科学家

基于旧金山的Zipfian Academy,另一个数据科学训练营,在去年9月开了大门。大会在纽约提供介绍性数据科学课程。Insight Data Science在硅谷和纽约中运行数据科学奖学金。

所以数据孵化器不是一个完全原始的想法。但这没关系。

数据科学教育市场远未拥挤:对数据师的需求继续超过供应。麦肯锡全球研究所估计,到2018年,美国将面临140,000至19万人的缺点,配备了有必要感知大数据所需的深层分析技能。

这就是为什么这些训练营 - 以及其他数据科学教育倡议,从在线课程到大学计划 - 是如此至关重要。如果数据孵化器鼓励一个物理学家,工程师或统计名人追求数据科学,这是一个小但不是微不足道的措施,迈向闭合这个年轻的非晶产业的人才差距。

李对他的小计划有很大的抱负。他知道一块砂浆训练营只能达到有限的受众。从长远来看,他希望在线携带数据孵化器,以便它可以达到数千个。

但是,现在,他在6月份的开启门时,他的专注。

“我真的希望我们成为该公司,为成为数据科学家意味着什么,”李说。