什么Facebook的知道科学的数据可能会让你大吃一惊
在Facebook上,你不必是一个“数据科学家”攻坚克难的数据问题。
这就是我们从贾斯汀·摩尔,其数据科学的职业生涯跨越了对金融公司以及Foursquare和Facebook的听到。他应该知道:作为Facebook的纽约办事处的工程经理,他雇用和管理谁结束了Facebook的海量用户数据的存储工作的人。
我赶上了最近摩尔定律了解Facebook的数据科学。这里是我的摩尔定律谈话的编辑全文:
Eric Blattberg:是什么吸引你到Facebook和你是怎么结束的地方队?
以上:Facebook的贾斯汀·摩尔
贾斯汀·摩尔:Facebook拥有一种开放的文化:当你加入,你选择你想工作的团队。你选择,你觉得你可以对最具影响力的事情。这里也有一些指导,以什么公司认为是重要的,但它是一个真正的工程师驱动型的过程。
当我加入,我有这个垂直特定的知识 - 更多的是数学,机器学习,数据的科学型卧式知识的 - 所以我觉得我可能是最有影响帮助改善我们的地方的经验。
Eric Blattberg:有多大是Facebook的数据科学小组在纽约吗?
贾斯汀·摩尔:好了,对我来说,数据的科学是非常非晶。大家你问的是将不同的定义。我认为人谁也解决和工作的能力处理大型数据集往往需要大量的工程扒做到这一点。这是一个组成部分。但是,另一块在翻译什么产品的需求是组织成类型的算法,他们将被写入。所以,不只是应对巨大的数据集,但搞清楚我们应该用这些数据做什么,使我们的产品substantiative影响。
有些人用[数据科学家]作为一个职务,但[纽约]我们的人,从机器学习和自然语言处理,网络产品工程师博士范围内,所有的人都将我称之为数据的技术科学提高我们的数据集。最后,它在做什么是利用机器学习和众包来为我们的用户提供更好的,数据驱动的经验。
要了解更多关于数据的科学,一定要看看我们即将DataBeat会议,其中数据世界的摇滚明星将谈论公司如何通过大数据和智能分析工具,提高盈利能力。
Eric Blattberg:如何Facebook的 - 更具体地说,地点 - 杠杆在Facebook上的用户数据的海量?
贾斯汀·摩尔:你要做的第一件事是对哪里出了产品问题是。随着地方,例如,有一些可能突然出现的问题:也许我们不利用手机准确地对GPS;也许我们的排名模型并不好,因为它可能是,所以我们认为比较流行的东西比事情是非常接近你更重要。这意味着希望通过匿名会话找出来,是什么地方,人们看到,当他们使用该产品的列表?什么是与搜索结果相关的问题?
对于每个人,我们认为所有的不同的方式,我们可以解决这个问题。通常情况下,这是众包:有十亿人,我们可以问地方的问题,他们会给我们答案。这是地方,地方的重复?什么是地址这个地方?机器学习[也开始发挥作用。我们可以推断,这个地方是那个地方的基于所有与此相关的功能重复?有时,它是两者的混合体。你挑事你相当自信与机器学习和你问的人群进行确认。
Eric Blattberg:我很想得到你的一天到一天的经验,在Facebook的数据的科学管理意识。
贾斯汀·摩尔:我可以谈多一点关于平均工程师对我的团队经验,只是因为作为一个经理,我做多无聊的东西。
Eric Blattberg:嗯,我感兴趣的是管理的角度看,太。我们对VentureBeat的一个有趣的客户后,在几个月前看来不错的工程管理人员并不真正存在。
贾斯汀·摩尔:作为Facebook的一名经理,我穿了很多不同的帽子。我与招聘非常重大工作,确保我们正试图以正确的方式发展团队和办公室,这意味着生长真正快,而且保持质量酒吧真的很高。
良好的工程管理人员提供了他们需要成功的一切的工程师:所有联系人,信息和帮助他们需要,以便他们每天都可以专注于解决真正的难题。这意味着与其他团队协调,确保人们互相交谈,让人们知道公司的高级目标是什么,试图在需要组合时占据各种各样的想法并将它们放在一起上。我正在做的很多事情只是帮助提供这个环境。
Eric Blattberg:你工作中最难的部分是什么?
贾斯汀·摩尔:我认为尝试优先考虑,尽可能适应和灵活,真的很难。有一千件你可能会努力的事情。什么是一个团队,我们应该专注于 - 在顶级和辛苦中 - 这将产生最大的影响?Facebook有很多工程师,但我们也有很多问题可以解决。如果我是一名机器学习工程师,也许我应该在某种ui更改上工作,因为这比修复损坏的分类器会更大。
Eric Blattberg:您需要在Facebook中成为数据科学家的哪些技能?
贾斯汀·摩尔:您需要具有非常强大的数学技能,能够拿起统计数据,以及您需要成为一个强大的软件工程师。这是相同的面试过程:您基本上是一个软件工程师,我们在这里有一个非常高的酒吧。您还需要有产品感觉:你需要成为一个不仅仅是写算法的人,你需要知道为什么,在有人说某些事情是一个问题的时候,“这就是我们认为我们应该从算法的角度来解决这个问题问题。'
Eric Blattberg:鉴于所有这一切,你如何学习这些技能而不溺水债务?
贾斯汀·摩尔:我认为这不一定是学校的事情。我在本科学中做了很多离散的数学,但我不是一个统计名人。产品感觉部分只是辛的一个方面;那部分似乎有点先进。但是计算机科学和数学方面,您可以选择那些两个up [自己] - 尽管最好在学术环境中获得至少一个,因为你想要有一些强大的基础来工作。
我认为人们希望不同类型的数据科学家:有些人想要更多的基础力量在统计数据中,其他人想要更多基础力量在计算机科学中。我们在这里倾向于[在Facebook],但我们也有人们在商业分析宣传方面倾向于前者。你不必去获得博士学位。它更多的是激情。当你谈论数据库中的重复数据删除的地方时,他们的眼睛亮了。其他人认为这真的很无聊。第一个人只是数据人。
Eric Blattberg:所以,鉴于你一直担任近十年的数据科学家,这些领域多年来如何发展?对你来说,在Facebook和更广泛的是,在更广泛的科技世界中,对你来说都是令人兴奋的?
贾斯汀·摩尔:我认为我们在这里建立的一些工具和开放采购,以及其他公司的其他工具正在建设和开放采购 - Cloudera和很多其他公司也做了一个非常好的工作 - 这是这样做的因此,任何人都可以成为数据科学家或至少解决这些类型的问题。我认为这是真正令人兴奋的事情:我喜欢看到人们以更轻松的方式做得非常复杂的事情。
有很多组件。一个人能够处理大数据集,因此[软件如] MapReduce,Hadoop,Hive和Presto一直在变化。有很多新语言如朱莉娅,Matlab和R,它允许你种类的原型。您现在可以非常轻松地在比例下进行实验,并知道如果存在显着差异,有多少人将控制和实验组投入到P.一旦所有这些工具到达 - 我认为差距慢慢填补 - 然后任何人都可以出现问题并说,'嘿,我想尝试这个,我想改变这个,我想建立一个分类器'而且他们不需要了解深度机器学习或深度统计,甚至如何编写代码。他们只能攻击这个问题。任何人都可以这样做。