好的,所以你推出了一个Hadoop集群来存储和处理大量不同类型的数据。祝你好运清理你最具混乱的非结构化数据,然后才能挖掘你所听到的所有令人惊叹的商业改变的洞察力。

通常,数据清洁或数据转换完全占用过多的时间。数据分析师可以在滑槽中抛出很多时间,只是让它准备好分析,例如商业智能软件。小奇迹数据科学家将高标记从初创物中提供高标记,如Paxata和Trifacta等初创公司。

一些早期的Trifacta客户通过使用该软件节省了一些大量的时间; Joe Hellerstein,该公司的首席执行官和联合创始人在与VentureBeat采访中,Joe Hellerstein表示,曾经凌晨六周的事情。

“那是30至1次储蓄,对吧?”海德斯坦说。“你说,好的,好吧,现在事情应该减少30倍的工作。人们说数据转型是80%的工作。你刚刚拯救了很多数据的人。“

但节省时间不是最酷的上行。相反,当分析师没有植物的时候,公司可以实现多少分析,确保一切都看起来正确。更多的分析可以转化为更频繁的实现,导致业务和产品调整。公司战略可以不断发展和旨在成功。

这就是为什么Trifacta等产品属于专用工具,可以帮助公司增长收入。我们将在两周内谈论我们在旧金山的Datapeat 2014会议上的此类工具。Hellersein将与Metamarkets首席执行官Mike Driscoll,DataMeer首席执行官Stefan Groschupf和关于值得注意的技术的其他淡色发言。

Trifacta肯定值得一看。

该软件在Hadoop中稍微咬了一口大文件,并以熟悉的电子表格格式显示示例。从那里,一个人可以用鼠标点击,并突出显示单元格中的重要组文本,然后将软件引导到屏幕上的新列中将该类型的数据拉到新列中。每个列都获得数据的基本可视化,如直方图,将数据放在一些上下文中。然后,用户可以修剪数据集以适合更具体的焦点。

该软件是“帮助大大简化准备数据的过程”,洛克希德马丁的高级首席建筑师哈利·哈勃,先前已经说过。“......我的团队已经能够缩短数据生命周期并获得更好的数据视图。”

好处不会结束那里。如果更多的人可以在Hadoop上单击自己的几下清理数据,如果更多的人最终可以在不困境的情况下分析数据。突然间,更多的人可以根据数据做出决定而不是依赖他们的直觉。

“这是一些客户对话的目标,”海尔斯坦说。

而且真的,这就是数据驱动的企业应该是全部的。如果Trifacta可以让所有尺寸的公司发生这种情况,这项技术可能成为采用Hadoop的任何组织的必备方面。

Cloudera已醒来达到Trifacta的意义。投资者也有。现在,世界其他地区需要赶上来。