Hadoop,大数据和房间里的大象
在19世纪,约翰戈弗里萨克斯写了一首关于六个盲人男人和一个基于古老的印度故事的诗歌。努力发现大象是什么,每个人都触动了这个生物的不同部分,随后汲取了他自己的独特和不正确的 - 结论野兽是什么。萨克斯收场地观察到“每个人部分地在右侧,一切都是错误的。”快进到今天,大象也被称为Hadoop。
再一次,与Hadoop,我们有人试图描述一个令人费解的动物。意见是不同的 - 有时候是不正确的 - 因为他们在诗中。
Hadoop已被各种式描述为交易处理的理想方式,是搜索的理想方式,以及理想的方式分析方式,所有这些都是完全不同的用例。如果这不足以足够,还可以申请成为分析结构化数据,半结构化数据和非结构化数据的最佳方法。事实上,我们导致对每个人都相信这一切。这怎么可能?
Hadoop是一种原始的,未分化的技术,可以以各种方式模制。在进化树中,它与C和Java等低级编程语言相比,它比数据库管理系统等功能特定程序,甚至是电子表格等更高级别的用户应用程序。
当人们看到Hadoop并以广泛的方式描述它时,它们都是正确的,因为它就像粘土一样,理论上可以模塑成需要的任何形状。问题是,他们也是错的,因为它真的只是一个粘土。将其转化为有用的东西需要很多技能,时间和努力。Hadoop 2.0没有什么可以改变这个。
现在,我并不建议粘土或Hadoop 2.0有什么问题不是它的高质量版本。您绝对需要较低级别的技术来构建更高级别的技术。这只是当前的炒作似乎错位。当人们赞美Frank Lloyd Wright的下降时,他们多久会强调混凝土的化学成分?关于一块软件的重要事项是使用和施加高效的容易。
像传统的分析堆栈一样使用数据集成,数据仓库和商业智能,Hadoop - 和Hadoop 2.0 - 已经给了我们一个像复杂和缩略词一样复杂的新堆栈:从HDFS到纱线,从HBase到各种商业智能的口味。在这个新的Hadoop世界中,数据仍然需要从一个地方移动到另一个地方。从他们的数据中分隔了太多层数。太多时间和诀窍需要准备数据。结果:有盖雇用的技术人员,沮丧的商业经理,以及消失的机会,可以从洞察中分离商业用户的障碍。
这个新世界中唯一的其他幸福派对是招聘人员,他们能够获得丰富的独角兽的丰富奖励 - 这位传说中的数据科学家们掌握统计数据,计算机科学博士,与Python,Hadoop,Mapreduce,JSON的无声体验。和蜂巢 - 字面意思是传说的东西。
商业经理不想担心如何利用纱线。他们不想学习蜂巢,火花,数据库,数据湖泊等新短语的含义,现在都填充了技术话语。他们不想要求它写一个查询或合并数据集。简而言之,他们不想要另一个具有许多活动部件的系统。他们想要一个简单的工具,他们可以用来获得答案,尽可能快速而无痛。
在一天结束时,Hadoop 2.0仍然是程序员框架。必要时,作为低级技术,是时候我们将我们的注意力转移 - 和墨水 - 低级技术与办公墙内的接线一样有趣的最终用户。
Hadoop最终可能最终能够在用户体验中启用文艺复兴,但它还没有到目前为止。经过多年的炒作,你不能责怪有时觉得Hadoop是一只白象的商业用户。让我们专注于企业面向用户的软件 - 允许人们可以在自己的且没有传统堆栈的开销的情况下轻松访问和分析来自各种来源的无限数量的数据。只有这样,业务用户才会看到其数据的全部价值。
Sandy Steier是首席执行官和1010data的联合创始人。拥有超过四分之一世纪的行业经验,桑迪被公认为是采用高级数据的先进分析技术的创新者。在共同创建1010DATA之前,Sandy是UBS北美的研究和技术副总裁兼经理。