本赞助帖由Databricks制作。

随着数据的涌入,各种规模的公司正在开展提取洞察力和创造价值的共同目标。然而,数据科学项目及其承诺的回报仍然难以超越许多人的掌握 - 由于缺乏资源,数据集的大小,不同来源或其他因素。Apache Spark项目的目标是大大简化从数据中提取值的过程。

什么是火花?

Spark是大数据空间中快速增长的开源数据处理框架。它是第一个作为UC Berkeley的研究项目的一部分,并在五年前开放。框架,用于复杂的分析,速度和易用性,快速捕获。Spark已经成为大数据生态系统中最活跃的开源项目,仅在去年增加了350多名贡献者。Spark还拥有数百种生产用例,包括雅虎,百度等大型企业,腾讯从批量分析到流处理。在
简言,Spark使企业能够同时实现高性能计算,同时通过避免简化其数据基础设施。一组不同和复杂的工具的困难集成。这是因为Spark是一个用于大数据的并行执行引擎,提供三个非常理想的属性:

Spark超越了批量计算,并提供了支持流式,交互式分析和复杂数据处理的统一平台,例如机器学习和图形算法。它是快速的,因为它已由地下构建以在内存中处理数据。然而,Spark的优化延伸超越了内存。目前Spark持有TERASORT基准的记录,通过运行3倍并使用10倍更少的节点来击败Hadoop集群持有的上一个记录。它通过以各种语言公开丰富和富有表达API来编写大数据应用程序更容易,包括Python,Java和Scala。特别是它通过地图揭露100多个API,并减少两个只有其中两个。

火花与现有的Hadoop堆栈兼容。广泛地说,Hadoop堆栈由三层:存储层(HDF),资源管理层(纱线)和执行层(Hadoop MR)组成。火花位于执行层,在纱线顶部运行,可以从HDFS中消耗数据。

当涉及到Hadoop MR时,Spark速度快到100倍,需要2-5倍的代码行编写大数据应用程序,并且功能明智的功能不仅可以替换Mr,而且还可以替换Hadoop生态系统中的其他系统, Mahout和Giraph。

工作负载如何在火花内互操作?

Spark为各种工作负载提供支持,包括通过强大的库集合,包括批量,流,互动和迭代处理:Spark Streaming,Spark SQL,MLLIB,Graphx和现在Sparkr。

所有这些库都使用相同的执行引擎和相同的存储抽象。这使得可以将这些库提供的多个功能拼接在一起。例如,可以轻松地从火花流或火花中调用机器学习算法,或者使用Spark SQL来查询直播数据。

这种紧密的集成将使新的应用程序能够以前不可能,例如在线欺诈检测和实时大规模优化。

数据科学从摄取到生产

虽然火花的执行引擎是一个很好的开始,但它独自一人不足以解决当今企业面临的大数据挑战。各种规模的公司发现,他们的数据管道旅程中有许多挑战。这些挑战包括群集管理,部署,升级和配置火花,交互式探索数据以获得洞察力,最终建立数据
产品。需要划分地址来解决这些挑战。企业需要一个数据平台,使他们能够解锁其数据的价值,以便在一个平台中无缝过渡到探索和生产。DataBricks是一个这样的平台,帮助自由于今天的约束的自由企业,因此他们专注于从数据,构建数据产品构建数据产品的答案,并最终捕获大数据所承诺的价值。总而言之,理想的数据平台将利用火花,但也将逐步一步,使能组织能够连接到各种数据源所需的关键组件,并通过用户友好的工具获得更好的生产力,更有效地协作,并为广泛的受众提供数据产品。

ion stoica是Databricks的首席执行官和联合创始人。

赞助的帖子是由一家公司生产的内容,可以支付邮政或与Venturebeat进行业务关系,他们总是明确标记。我们的编辑团队产生的新闻故事的内容永远不会受到广告商或赞助商的影响。有关更多信息,请联系[email protected]