Alpine将数据科学带入群众(面试)
根据Alpine Data Labs的说法,处理大数据不应困难。事实上,该公司希望在大数据拖放方面进行拨打。
初创公司依赖于鼠标的语言,并希望帮助企业内部的每个人都使用高级分析和数据科学的力量。
我们最近赶上了Alpine产品和营销总监Joel Horwitz,了解有关公司,其产品和数据科学行业的最新发展的更多信息。这是我们讨论的编辑成绩单:
VidtureBeat:什么是高山数据实验室,为什么重要?
Joel Horwitz:Alpine是世界上第一个用于[数据存储和处理软件] Hadoop的高级分析平台。它很重要,因为我们是由数据科学家最初的数据科学家建造的,但现在我们开始扩展到企业。
它非常令人兴奋,因为当你看看数据科学和分析如何在历史上完成,它是一种非常孤独的练习。通过我们使这个非常视觉和简单的用户界面,它实际上降低了普通民众的障碍,进入并做了一些相当复杂的分析。
不要让我错了,这不是市场上最完整的解决方案 - 当然还有其他几年。但我们的产品符合我们今天交谈的大多数业务分析师的需求。
想了解有关数据科学的更多信息吗?下个月来到我们的Datapeat会议,我们将有摇滚明星的数据世界谈论数据科学的艺术和更多!
VidtureBeat:其中一些需要什么?你能用这台平台做什么?
Horwitz:这是一个完全水平的平台。我们有媒体的客户。Havas Media,他们有一个算法库,他们为客户管理。他们能够用[较少]的人来做。......他们能够进入并暂时进行更改,因为它们具有此视觉工作流程。它们不会进入代码并搜索丢失的分号。相反,他们关注,“我如何优化这件事如何为我的客户获得最佳价值创造?”
这是一个这样的顾客;我们有很多人。在电信中,我们有爱立信和黑莓;在金融业,我们有摩根士丹利和巴克莱;在医疗保健中,我们有Kaiser permanente。我可以继续,但这对我们来说是一个相当水平的戏剧。我们看到它覆盖每个垂直。
VidtureBeat:所以你只是向我展示这个界面,看起来很简单,但幕后有一些非常复杂的工程。你是如何构建这件事的?
Horwitz:我们在行业中有一些最聪明的思想。我认为[产品vp] Steven Hillion在组装一些最聪明的机器学习工程师,数据科学家和商界人士做出了惊人的工作。我们的首席执行官也乔奥托,他的DNA是Greenplum,[成为一个成为关键部分的大数据分析公司],所以他一直在这样做。这些家伙肯定会有技术排行,但这也能够完全理解业务需求的能力。我认为这就是你在产品中所看到的。它从外面看起来很简单。它看起来像你在分析产品中寻找的一切,但它的设计是这样的,所以它看起来很熟悉。
但在引擎盖下,我们正在做很多疯狂的东西。我们基本上是在Hadoop上超级简单的东西。大多数其他平台都要求您移动数据,因此如果要在Hadoop中使用数据,则需要碰撞中的整个[提取,转换,加载]进程,以迁移您的数据。对我们来说,我们并不真正关心你的数据;我们将连接到它,然后我们会让您进行实际的分析。当您开始谈论真正的数据集时,这真的很强大,因为转移该数据的成本呈指数级。
除此之外,我很兴奋,因为我们刚刚宣布采用火花。Spark是数据科学的一个很好的技术,因为它加速了通常在Hadoop上需要很长时间的迭代过程,因为Hadoop是一个基于批处理的过程。因此,在某些情况下,Spark基本上允许我们将算法加速100倍。今天,我们在50秒内展示了5000万行的零售数据。我从来没有能够证明没有火花的大小数据集。
VidtureBeat:为什么这重要?为什么这么速度如此重要?
Horwitz:当您观察数据的趋势以及如何增长时,大多数数据实际上都在企业之外生长。它来自新的移动应用程序,它来自Web 2.0和云应用程序。随着人们正在将他们的产品移动到云端,您可以使用这些应用程序的所有这些数据排气。它们都是基本上是半结构化的或非结构化数据流,这是Hadoop的伟大。
我最近读了一份报告,只有在Hadoop中只有12%的数据所说的东西实际上被使用并杠杆化。那么其他88%的数据在做什么?它只是躺在地板上,因为它真的很难处理。所以用火花,它真的降低了利用其余数据的障碍 - 以及它很快。您在数据上进行的每一个操作都是复合的。因此,如果我有一个线性回归或逻辑回归,例如,请运行10分钟,可能看起来可能看起来很多。但是,当您将其与聚合时,过滤器,加入,排序和所有其他分析操作组合时,它确实会加起来。
VidtureBeat:所以到目前为止,你已经谈过你的牵引力。我很乐意听到更多关于即将到来的事情。
Horwitz:我看到我们下次的地方真的在扩大我们的生态系统。Hadoop是一个生态系统,有很多伟大的技术。我们支持合唱,这是一个完全开源的源平台,因此我们希望找到与我们合作的合作伙伴扩大合唱团,并在我们的平台周围建立一个生态系统。
VidtureBeat:现在我们已经听到了很多关于阿尔卑斯山的事情,让我们在更广泛的水平上谈谈数据科学。行业在哪里,未来的机会将能够实现?
Horwitz:我认为,在早期,Hadoop地区出现了现场,因为它是抛出所有这些数据的非常低成本的地方。我认为我们现在已经达到了舞台,人们在Hadoop中铺设了大量的数据,其中一些利基球员早早得到了Hadoop上的数据科学。他们使用像Mahouch这样的东西,这是一个开源Apache项目,或使用Python,或基本上试图破解他们的方式。
早期,你有一个问题,然后他们找到了解决方案。但是我们发现的是[数据科学]正在创造净新的机会。
您正在获取现在出现的所有这些目的。人们可能知道的一个简单示例是这个应用程序称为决定。决定基本上彻底彻底穿过网络并拉动所有网上日志数据进行定价......使用数据科学,基本上是价格上涨是否会上升或下降。这是一个单一的应用程序。
VidtureBeat:所以你认为我们会看到更多基于数据的应用程序?
Horwitz:是的,我可以预见一大吨其他应用,这是非常目的地的:这是数据集;这是算法;这就是我们将如何销售它。[赞誉数据科学家] DJ Patil实际上创造了“数据产品”一词。所以我看到更多的数据产品进入市场。
但他们和我们在一起了[有一段时间];谷歌是一个数据产品。当您搜索Google时,它正在运行机器学习,为您提供答案。另一方面,您拥有像阿尔卑斯山的平台,实际上允许您创建大量不同的数据产品。但这不仅仅是创造;这是实际的微调。
所以我认为那些成为整个公司的原因是因为你现在只是一直在管理这个算法。历史上,更新是非常具有挑战性的。当您听说谷歌的新搜索引擎更新时,就像熊猫一样,他们每年历史上左右。现在他们每隔几个月都会出来。
我认为,谷歌一直在大数据的前沿很长一段时间。你用HBase和他们的Bigtable和[与] Dremel看到了它。您可以看到谷歌刚刚继续领先优势。基本上,他们表明这些静态机器算法不够了。他们真的需要动态,它真的需要成为企业中的任何人可以进入和实际调整。