把叉子放在'大数据' - 它完成了
这是企业家戴夫福勒的旅客帖子
大数据是一个庞大的术语。它现在不仅仅是行话,而且经常被误解和申请。正是在这个行业停止使用“大数据”来市场软件的时候,因为在一天结束时,问题不是“你的数据有多大?”,它是“你在做什么数据?“在这场战斗中,我并不孤单 - 许多知名的数据兽医都在我身边或至少要求澄清。
斯蒂芬很少是数据中伟大的声音之一,相信该术语本质上已成为营销活动。“......大数据比物质更大,”很少写,“和它[大数据]茁壮成长追求。”
这太模糊的定义也是欧洲州奥尔利地层大会的节目主席EDD Dumbill的问题。笨蛋,为大数据而造成早期意义,提出了大数据行业的问题。他说,它未能为客户提供解决业务问题的产品。“在这种感觉中,”笨蛋写道,“大数据营销推动是有害的 - 同样的旧事物只是重新加入新的趋势。”
编辑注意:我们即将到来的Cloudbeat会议,9月9日至10日在旧金山,将在革命案件中解决企业云使用。今天注册!
即使是Comic Stilbert也在大数据论证中取得了偏向。“是的,数据显示我的生产力在学习新术语时掌握,”德尔伯特表示,响应他尖头的老板对“来自我们云中的大数据的分析”的询问。
曾经在像德尔伯特这样的主流漫画条中印刷,往往是在商业词典中转移态度的领头羊,难怪专家和公司越来越多地质疑大数据的实用性。
但是,Dilbert jab的症状是双重的。不仅大数据术语,而且,在寻找数据解决方案的真实世界公司中,他们常常被所有大数据营销炒作混淆,有时最终会浪费资源,试图证明他们也有大数据。我去年写了关于它的“大数据”术语在炒作周期的峰值时。
在文章中,我引用了2012年的Microsoft研究论文,揭示了在自己的屋檐下滥用大数据应用,并在雅虎。研究人员发现了几种不明显的Hadoop安装 - 大数据软件 - 处理小于14千兆字节的数据。那个小数据的大数据软件是矫枉过正,这正是研究人员得出的结论。
“在许多情况下,”研究团队写道,“使用单个服务器扩展并添加更多内存可能更容易和更便宜。”研究人员继续解释,随着组件价格下降 - RAM,存储,CPU - 使用大数据集的大数据软件封装递减递减返回。
此外,微软和雅虎都是先进的技术公司。如果在这些公司可能发生错误标记和处理数据,那么它肯定会在其他地方进行。无论如何,微软研究人员在定义大数据方面朝着正确的方向前进。我认为真正的定义是这样 - 任何无法适合单个本地硬盘驱动器的数据集。在大约四个terabytes的那一刻。
四个terabytes是巨大的数据。例如,它绰绰有余,以便在纽约时报的Nate Silver编制的所有2012年选举数据,以及其他各种Pollsters,以及新闻机构。
关于大数据真的有趣的是,实际上,我们一直有它。但是,曾经是大数据的,例如,2001年,可能不再包含在定义中。它现在不包括在内,因为相同的数据集可能存储在单个驱动器上,这是不可能的。
事情的真相是,只有世界的Facebook和Google拥有或需要大数据。在我们其他地区,大数据只是营销炒作,销售谈话和行话。并且通过所有大数据噪音,易于忽视简单的真理 - 这不是数据的大小,这就是你使用它的方式。因此,让我们都同意在大数据中投入叉子。
Dave Fowler是Chartio(www.chartio.com)的创始人,是一个屡获殊荣的数据界面。Forbe已经命名为2011年和2012年的30个技术先驱30美元的戴夫。在Chartio之前,Dave在IBM在Xbox 360的处理器上工作,提交了10项专利。