2015年,企业可以更好地利用范式转移的Hadoop
在来年,我期待 - 或希望 - 企业将意识到Hadoop不仅仅是一个新的数据库,或者只是数据处理和日常分析中的最新进步。相反,它是一种范式转移的发展,对整个商业模式具有广泛影响。
Hadoop是一个用于分布式处理和存储大数据的开源框架。根据IDC和Gartner的报告,Hadoop的现实是,似乎比实际的现场经验更加嗡嗡声和颤抖。
这不一定是由于Hadoop本身的缺陷,而是难以从如此复杂和不断变化的框架中获得真实价值。
2015年将成为Hadoop的一年,更广泛地通过其在大数据上的丰富分析的原始承诺,或者这是另一个迷宫的开始吗?
脱离了许多企业与Hadoop的经历源于将新技术视为解决旧问题而不是作为新的做法方式的基础。
这导致早期重点关注重新部署旧学校应用程序 - 如商业智能,数据可视化甚至简单的ETL处理 - 在Hadoop集群上。在许多情况下,今天的关系数据库技术比能够执行这些功能。尽管将它们迁移到Hadoop可以产生显着的成本节约和更大的灵活性,但这些应用无法反映平台的真实值。
Hadoop使高级分析成为可能 - 使用统计方法,数学建模和机器学习,以挖掘模式和洞察的数据。仅使用推动技术在一方面概括数据的概括数据之间的差异,或者使用推动技术找到尚未在数据中显而易识的模式和关系。
(我最近讨论了阿尔卑斯山在这个播客在这个播客中完成了Hadoop,在这个播客与Venturebeat的迪伦Tweney和Jordan Provet上采访了。)
已经是Facebook,亚马逊和LinkedIn等领先的数据为中心的公司正在展示如何通过提供更高级别的服务和驾驶新的收入来源来获得高级分析和大数据的组合来获得竞争优势。无论是均为合适的横幅广告,推荐最相关的产品,或促进最佳社交媒体连接,Hadoop的高级分析提供比传统分析工具更高的见解,允许企业做出易于使用的数据真正令人惊叹的事情。
然而,Hadoop不一定使高级分析变得简单。在许多情况下,它甚至不是机器学习最自然的框架(尽管像Spark和Giraph这样的系统会有助于解决这个问题)。
Hadoop确实提供了一种灵活的框架,用于部署并行工作流程,以实现跨分布式基础架构的广泛可扩展性和复杂的处理。它是数据科学家的自然沙箱,让他们将许多格式的数据与许多不同来源结合在心的内容中。它还提供了许多扩展和集成工具,以简化数据处理和一系列开源卫星项目。但最终结果的所有灵活性和所有这些技术都是很多人都留下了想知道在哪里开始。
在充分利用Hadoop集群和使用更先进的方法来产生更深入的见解和预测模型时,仍然存在重大挑战。这就是为什么软件社区在即将到纪的一年需要大幅进入的原因,以避免Hadoop转变为无聊数据仓库的另一个镗孔组成部分。
圣杯将是将Hadoop作为新分析的基础,即直接并立即影响企业运行的方式。不仅仅是历史报道,甚至不是预测模型,而且是探索数据,生产洞察力和将分析到业务引擎的平台。此前,挑战始于Hadoop App开发人员,迈出了踏板,不仅提供了广泛的一系列解决方案,旨在使Hadoop更容易使用,而且还可以培养能够高度集成和融合的凝聚力环境和编排。
来年可能是Hadoop的关键之一。不是因为它最终会出现在企业雷达上 - 发生了。但是因为整个行业都会来定义它作为做旧事物的新方式或从过去的重大休息。
Steven Hillion是Alpine Data Labs的Cofounder和首席产品官员,在那里他领导开发了一个高级分析的企业平台。在加入阿尔卑斯山之前,他在绿城创立了数据科学团队。你可以在推特上关注他:@shillion。