如何在Apache Spark上投注大
当我们在2011年首次去看Apache Spark数据处理引擎时,它是加利福尼亚大学伯克利的Amplab内部有点名的东西。该项目对众议人的人们众所周知,但不在市场上的市场。
现在,同样的Apache Spark项目正在享受流行度的迁移升高,因为大数据界变得越来越多地调整到Spark提供的能力和力量。
在Clearstory数据,我们将Spark的潜力确认为数据处理技术中的下一个大事。为什么?因为我们一直在Cloudera这样的Hadoop公司,并且在Aster数据和Teradata的Google的Mapreduce数据处理框架中深入研究。
在我们搜索的早期创建一个下一家伟大的公司,我们首次赌注将引擎盖下的发动机在下一个数据分析的时代应该是火花。我们的第二个Big Bet正在提供超级简单的用户体验。
通过Cloudera,Aster Data和Teradata的经验,我们以较低的成本储存大数据是一种大规模的需求。随着数据爆炸的,上一代数据平台是成本禁止的。我们首先看到了客户希望大量内部和外部数据的快速周期数据处理,以获得近乎实时的洞察力,进入业务中发生的事情。
但MapReduce等框架并非用于在大数据卷上接近近实时分析的任何内容。批处理很好,但可行的速度太慢和复杂。Spark引起了我们的注意,它的承诺提供了一种强大的大规模平行的群集计算平台。
当我们在AMPLAB中看到动画时,它在架构中,我们希望的一切:分布,内存数据处理速度。我们认识到,我们必须填补漏洞,使其在商业上可行的主流分析用例,这些用例要求快速地对数据的居住时熟悉。通过与Amplab合作,我们挖掘,原型解决了解决方案,并添加了下一代数据分析所需的第二个支柱,这是一种简单的使用前端应用。
我们在此核心前提下构建了Clearstory数据:为什么如果它被困在其上,则在比例下加速数据处理,如果它被困在其中,并且不能更快地消耗速度?
我们通过构建一个可以访问更多数据品种(更多源)和通过Spark的速度数据处理来开始通过Spark进行速度的数据处理来开始旅程,以便通过业务快速消耗,添加前端用户应用程序任何人都可以使用 - 不仅仅是它和数据jocks。
在地面上,它可能看起来像火花幸运的赌注,但它是一项基于第一手经验的知识架构决策。我们在火花上建立了后端发动机,向IT添加了自己的知识产权,并集成了前端用户申请,以加快对业务的洞察力。
从那里开始,我们开始与投资者,正式化和纳入清算数据。这几个月包括将一支恒星队伍与前端设计师和工程师一起带来了一系列,都是消费者应用背景。我们结婚了两种不同类型的技术DNA,并将它们放在一支球队上。
正在采用易于使用的基于Spark的平台的公司是那些积极竞争的公司,不能错过洞察力或延迟决策。数据源获得更多的威胁,时间要求缩小。当消费者购买竞争对手的产品时,每一美元损失销售仍然很难赢回。随着始终如一的数据智能,后视镜洞察力是过去的一件事。
例如,零售经理可以理解为什么在一天中没有酸奶销售的原因。这种简单的声音洞察力可能涉及九个或十个数据源。如果公司希望每天处理和分析此数据,则规模地分析了几次,这需要Cark的计算能力与企业用户的死亡简单(不太简单)应用程序耦合。
行业早期采用者包括消费品包装的商品,保险,媒体和娱乐,制药,零售商,汽车 - 任何消费者挥动力量的行业,公司都需要每天吸引或保持它们。在医疗保健和制药中,更快,更全面的见解可以加速诊断到固化循环。生物传感器可以为患者的毒性提供实时测量,以检测严重或危急症状的预警迹象,潜在节约生命和减少药物,实验室测试等成本。
在各种市场中引领了许多公司进行了19年,这就像在再次观看同一部电影。增长阶段,挑战和获胜的道路是相同的。最初几年正在调整和调整速度,让每天都感觉像马拉松比赛。当所有的东西对齐 - 产品,人,市场,技术选择 - 你击中了起飞点。在我们的情况下,Spark是那些技术选择之一。将其全部包装在一起,它首先访问伯克利庞大这部电影的伟大场景之一。
Sharmila Mulligan是Clearstory数据的首席执行官和创始人。她花了超过18年的建筑软件公司在各种市场。她是一名董事会成员,董事会是几家公司的顾问,众多公司的顾问,以及早期公司的积极投资者。