在人群科学家的心中,是数据科学家的新兴味道
就像任何利基角色一样 - 特别是在科技领域 - 数据科学家,以及我们整天的确,都是一个谜团。我们的时间是膝盖深的数字,算法和解决问题。我们倾向于在方程式中思考,因此,传达我们所做的事以及我们所需的所需并不总是跨业务部门翻译。
在MindJet,创新和生产力软件公司,我的项目围绕着量化效率和机械化协作头脑风暴的方法旋转。而且,在数学,科学和思想的交叉路口,我在令人难以置疑的尖端 - 但批判性 - 专业化,目前正在出现:人群科学。
这是什么
人群科学是一个逐渐的数据科学段,将统计数据,计算机科学和众包心理学的领域结合在一起,以更好地了解创新模式,并找到一种可重复的过程。像我这样的人群科学家使用数学技术从人群中获取信息,以便我们能够做出更好的决定并理解人群行为和结果的范式转变。
我的三人团队采用这些人群科学技术来寻找众群数据中的趋势和信号,以及我们的婚皮工程平台中的可重复创新模型和算法。维基百科是另一个重要的例子 - 他们总是使用人群科学来发展基本上是所有人类知识的主人记录。即使是流行但Irreverent的城市词典也利用了全球人群的强大,不断扩大的资源。所有这些都创造了旨在发现潜在的真理的集体,合作环境。
数据科学与人群科学
您可能想知道人群科学与传统数据科学有何不同。数据科学还涉及大量潜在嘈杂数据的信号和模式,但人群科学探讨了对其具有主观元素的数据:心理学,可变行为和人群的意见。这是典型数据科学家必须过滤出来的不同类型的噪音。人群的成员可以对一个主题的意见具有巨大差异,可能意外或故意进入错误的数据,或者可能会尝试超越系统。因此,人群科学家必须消除偏远的数据点并引入确保诚实的技术。维基百科甚至还有支票和余额系统(或算法);如果有人更新有错误信息的帖子,则可以由集体人群的其他成员标记和修订帖子。
鼓励诚实也可以通过游戏化技术进行,例如用户必须在其提交中放置“赌注”的预测市场 - 我使用引号,因为它并不总是一个货币赌注,但它可以是可赎回的积分或其他形式虚拟货币。把钱放在他们的嘴巴往往更加直接,并相应地量身定制他们的行为。人群科学家还可以使用统计技术来旗帜试图游戏系统,通过建模每个用户的答案和比较人群分配的分布。如果用户经常偏离人群,则不诚实的可能性要高得多,并且可以相应地加权用户的提交。
编码,测试和验证的路径
通常,我致力于产品团队的成员或者客户要求在平台中看到的东西。我们从集体风暴会话开始,包括数据科学和产品团队。然后我回到办公桌前冥想潜在的解决方案。我做了很多思考,在纸上涂鸦思想和方程,阅读了最新的学术期刊上的主题,并研究了其他公司的最新信息。在提出可能的解决方案后,其他数据科学家和我将在白板上提出的解决方案背后的理论,然后再回到计算机以编码,测试它,并在模拟或先前收集的数据上验证。当它通过所有测试时,我们将其写在白皮书中,我们携手即可进入产品团队。最终,我们与他们合作,实现我们的发现作为一个新功能。
更频繁的是,解决方案是迭代的。在随后的讨论中,我们考虑了我们未考虑的问题的新方面,并尝试在此处工作。最终我们需要提供产品,因此我们将推出我们认为是一个可行的解决方案,即使当我们解除额外的警告到问题时,它可以修改和更新。
我还花了很多时间建设模型,以帮助客户在他们的人群或网络中发现活动和行为的模式。我们为不同的产品特征锻炼算法,如声誉评分和排名。但也许最重要的是,我的团队专注于开发创新管道,并找到量化不同想法的价值的方法。这包括分析报告,切片和切割数据,并找到为客户中揭示模式中的模式的方法,以便他们对其社区深入了解。我们研究信息跨网络传播的方式,构建植根于科学中的产品特征,并开发跟踪系统,以优化各种活动。
这是Looker等产品真正有益的地方。Looker允许我创建我的同事可以快速访问的视图,它使它们能够灵活地挖掘并进行自己的数据发现。在旧金山的VidtureBeat下周在旧金山的Datapeat会议上,我将讨论我们对寻求者的使用,并希望能够对人群科学和创新的世界提供更大的洞察力。
Anna Gordon是全球领先企业创新管理平台的Pincejet的数据科学家。