这周在VidtureBeat的Datapeat会议上有两天,让我确信,“大数据”是真实的,潜在的变革 - 但像“云”这样的话,这个术语被糟糕过度使用。

事实上,营销术语被贬低的轻松掩盖了现场上实际工作的复杂性和令人敬畏。

通过云,一个简单的术语 - 一旦工程师使用,以指“在互联网上的东西太复杂地解释了这个确切时刻” - 很快就成为了“你不必担心的服务器”的速记。

但“云”的简单性作为销售命题掩盖了什么,实际上,公司的思考和组织数据中心的方式进行了重大建筑转变。这种转变是深刻的,并且通过开放的互联网标准和开源软件的传播,客户端设备和浏览器的广泛变化引起,以及交通中大量和不可预测的尖峰的可能性。所有这些更改都领导了公司以与10年前的方式截然不同的方式构建企业技术(包括他们的服务器场和运行在它们上的应用程序)。

同样,大数据是一个有吸引力的术语,因为它是“数据分析”的速记。谁不想要数据,更大更好?这个短语变得如此受欢迎,Merriam Webster的编辑在本周将其添加到圣文中。(顺便说一句,字典,将大数据定义为“通过传统数据库管理工具处理过大而复杂的数据累积。”)

但实际上,该术语的后面发生了一些重要的转变。

越来越大的数据。公司可以获得,并能够收集的能力,而不是以前的数据。有时,这意味着跟踪每个潜在客户的每一个点击遍布您自己的网站以及在某些情况下,其他网站。有时这意味着了解当前客户实际上是如何使用您的产品,日复一日的产品。它可能意味着收集关于人们如何通过城市的数据,以便促进更好的城市规划。传感器可以在令人耳目乎意义的速率下拾取信息并将数据发送到数据库中。所有那些在传统数据库技术上投入的所有这些。

这些数据中缺乏结构。它曾经很容易讲述哪些数据是什么:它是您可以将其归类为特定数据库字段的东西,例如名称,地址行1,地址行2等,然后用SQL语句查询。现在我们有很多这样的数据,但我们也有大量的非结构化数据:视频和音频文件,大量的社交网络文本,电子邮件,客户支持电话的成绩单等。如果您甚至不知道如何对其进行分类,或者将其放入哪些桶,您如何管理数据?新兴机器学习技术,如IBM的Watson,是处理如此混乱的一种方法,因为它在飞行中进入。

底层存储技术的转变。许多公司开始远离数据仓库,存储区域网络和其他网络存储技术以及更具分布式,集群,可扩展的存储器。Hadoop是这种转变的海报孩子,但这不是唯一一个。此外,除了事实证明,Hadoop本身具有一些重大限制。例如,在Hadoop中运行作业可能非常缓慢。它需要更好的安全功能。

能够轻松获取有用信息。通过合适的工具,普通的非数据科学家类型有能力从大量数据中获得有意义的答案。越来越多,他们也有这样做的愿望。大多数人不想要学习SQL。他们想看看漂亮的图表,告诉他们他们的业务是如何做的。他们希望能够看看他们的数据的不同方面或深入了解细节,以便他们可以将业务更好地运行。这一直是商业智能(BI)软件的承诺,尽管BI项目的声誉在长期以来,但是令人难以置信的昂贵的项目,产生少于承诺的昂贵的项目。也许今天的可视化和数据集成工具将实现去年的BI工具无法实现的。

查看VB数据作者Jordan Nevet的Datapeat的亮点摘要对于一些更大的例子,并查看我们的全面覆盖2014年的Datapeat 2014。

现在,并非所有这些数据收集和分析都会很好。大规模数据收集的侧面是潜在的隐私丧失。人们真的希望公司追踪和分析他们的每一个点击和他们的每一场运动吗?很明显,我们需要保护,以确保不滥用这种数据,并且人们对选择退出跟踪的强烈良好的辩护权。对孩子们尤其如此。

另一个潜在的缺点是,公司在数据海洋中冒险溺水。在不依赖A / B测试,详细的市场分析图表或花式仪表板的情况下,您可以通过无法做出决定来实现瘫痪。有时数据不是答案,你只需要使用你的判断。

尽管如此,数据的好处是明确的,这是推动各种科技公司提出收集,汇总,分析和提出它的新工具。本周的Databeat会议只是一个采样者。还有很多东西要来。

我不确定术语“大数据”是否会逐渐消失成毫无意义,或者如果它将成为术语“云”一词。但我相信一件事:在炒作后面,有一种技术革命酿造。