拥抱数据品种挑战:时机已到
这项赞助职位由Tamr首席执行官安迪帕尔默制作。
三年前,我的合作伙伴Mike StoneBraker正在努力在麻省理工学院致力于测试数据集成和策策的界限。
迈克和他的研究人员想看看是否有可能将数千甚至成千上万的源连接在一起。研究团队正在与许多公司合作,以测试其研究的现实世界。在这段时间里,我在诺华生物医学研究(NIBR)的诺华学院里闲逛,专注于数据集成和软件工程。
事实证明,我们在NIBR中有一个项目,涉及15K来源的整合 - 迈克的学术努力的良好商业背景。在MIT和NIBR数据策委的研究人员之间的一个很棒的合作中,我们发现学术系统的设计能够处理很多来源,但我们还需要包括一个合作/专家采购能力来调整初始系统中机器学习算法生成的建议。
我们描述了2013年初称为“数据驯化者”发表的论文中的学术工作的结果。
当我们在Vertica时,迈克和我也看到了类似的模式。我们在Vertica上使用客户,我们会通过识别所有数据源来馈送到仓库中的过程。我们使用一堆自上而下的提取 - 转换加载(ETL)进程来实现,获取运行的查询,然后用户将有一个新的来源,他们想要从他们拥有的现有来源添加或属性忘记了。
那时,他们有两种选择:
忽略新数据,即使他们知道它是有用的,Orstart结束,再次重新进入ETL ......再次。比不是,团队将决定忽略新数据,这似乎是一个巨大的错过机会。在我们的思想的背后,我们一直在思考,“未来几年遗漏或可能出现的其他来源是什么?”
我们还开始看到MongoDB和CouchDB的许多分布式实例 - 这些伟大的新JSON数据来源需要集成 - 但是有很多,它们是如此非结构化,人们难以将它们插入现有的整合项目。
在看到这种情况之后,迈克和我来相信以自动化方式连接和巩固数千个新来源的能力是大型企业数据基础架构中的核心缺失能力。
现在我们相信时间已经采用整个企业的极端数据品种的现实。事实证明,使用专家指导的机器学习的周到连接是解决数据品种问题的真实诀窍。在过去几年中,专家与机器之间的互动一直是一个奇妙的挑战和我们最重要的成就。
Tamr的“自下而上”方法采用先进的算法和机器学习,自动库存并连接出这种巨大的佩戴数据来源。我们的系统拥有从数千个来源集成广泛的数据的固有歧义。我们的系统中的每一个连接 - 源,属性,记录,实体和专家之间的置信水平可能会随着时间的推移而变化,从专家的主动投入改善以及通过不断整合新来源和变更而获得的学习来源。
这种概率,自下而上的方法补充了传统企业数据建模的传统确定性,自上而下的方法。
最终,Tamr的“机器驱动的人性引导”解决方案尺度,包括多个部门中的团队,在企业,映射源,属性,记录和实体内连接所有内部和外部源。通过RESTful API可访问生成的集成数据和元数据,以为任何数据科学家,分析师或系统访问。
作为迈克和我很了解,MDM和ETL解决方案中的投资和价值有巨大的投资和价值,公司应该利用和补充自下而上的概率系统,如TAMR。对这些投资的补充和增加价值是TAMR产品的主要设计点。
这让我们全圈:回到麻烦,我们四年前开始的研究。虽然迈克和我没有一家新公司作为“待办事项”项目,但在我们开始的时候,经过三年的世界一流的研究,现实世界客户和顶级工程推动,我们谦卑开始向新客户和合作伙伴开放TAMR系统。
赞助的帖子是由一家公司生产的内容,可以支付邮政或与Venturebeat进行业务关系,他们总是明确标记。我们的编辑团队产生的新闻故事的内容永远不会受到广告商或赞助商的影响。有关更多信息,请联系[email protected]。