5个问题您应该询问大数据
Elad以色列是SISENSE的Cofounder和CPO。
大数据是一个模糊的术语,因此商业用户要小心。您必须了解大数据实际上可以做些什么以及它的限制是什么。当您绘制您的策略时,询问正确的问题至关重要,以确保您最终净现有用信息。
由于竞争对手和同事利用大数据来实现各种业务目标,企业是正确的。但在扫描波浪之前,请退后一步并考虑这五个问题,以确保您在正确的路径上设置:
1.你怎么了?
这似乎是一个明显的问题,但公司的愤怒被迫成为“数据驱动”,可能会在未经妥善定义手头的问题(或机会)的情况下成绩。您是一个商业分析师,他们无法符合您需要的数据吗?您是否无法首先访问公司的大数据?您是一名主要信息官,负责减少查询返回的等待时间吗?您是否厌倦了等待日期或查询结果的日期或几周?您的数据是否结构化或非结构化?上述所有的?
当然,您可能面临的问题之一是预算,特别是在初创公司和中小型企业。数据仓库和专有硬件的价格可能是禁止的。如果负担能力是一个问题,请根据商品硬件运行的软件映射策略,并且不需要数据仓库。
编辑注意:我们在雷德伍德市12月4日至5日的即将到来的Datapeat会议将专注于大数据分析和超越地区的业务最令人信服的机会。今天注册!
2.您为免费(开源)软件支付的价格是多少?
在Hadoop上有很多Hoopla,虽然它是一些商业需求的奇妙开源解决方案,但免费并不意味着没有价格支付。Hadoop在商品硬件上运行,需要投资,正如所需的权力和连接一样。
从几个关键的Hadoop供应商获得时,核心Hadoop分配是免费的和开源软件。但一些供应商拥有专有的Hadoop分布,甚至开源分布也具有专有的加载管理工具。除非您从Apache软件基础下载您的Hadoop组件,否则您将在与商业公司的相同软件许可证和锁定顾虑的道路上。
让我们不要忘记部署和管理所需的数据科学家的薪金。如果你有一个大钱包和靴子的硬件,Hadoop可能对你有利。但并非一切都是“Hadoopable”。
这让我接受了下一个问题。
3.尺寸是否重要?(您的业务大小和数据的大小)。
大数据周围的对话很大程度上徘徊在Petabytes周围。但是,大多数企业使用Tbery的数据。在Terabyte系列工作时,大型机器的开销可能无法偿还。您可能会发现遗留解决方案对于您的业务需求不必要超级规模。
如果您落在TB尺度范围内,则您将在单个服务器范围内。您可以通过针对单一服务器解决方案来保持成本和简单。只有十年前,单台计算机只能处理千兆字节的数据,但现在商品硬件可以处理Terabytes,开辟一系列以前不可用的选项。
4.你的数据在哪里?
如果您的大多数数据是现有的,您的策略应该与大多数人在云中的情况不同。例如,如果您的数据符合亚马逊或Rackspace云,则在该框架内运行大数据解决方案是有意义的,因为数据很容易在该环境中移动。但是,如果您的大多数数据都存在于前提,并且正在考虑在云中运行大数据查询,请再次思考。大数据难以移动,并在上传到云时保持同步造成许多挑战。在这种情况下,最好留在内部内部环境中。
5.各种技术之间的区别是什么?
目前用于大数据分析的三种技术:软件数据库设备,硬件数据库设备和分布式数据库。
软件数据库设备在商品硬件上部署,通常在单台计算机上,因此它们通常是经济实惠的,并且仅仅是架构的。示例是关系数据库,如SQL Server或MySQL,也是SISENSE的ELASTICUBE技术。
硬件数据库设备由专有的专有软件组成,用专有(即昂贵的)硬件捆绑在一起。专有硬件具有比商品硬件更强大的规格,但可以花费50倍。
分布式数据库是指在计算机集群上部署的软件,允许它“并行化”资源密集型处理操作。这涉及复杂的架构。
您可能遇到的其他技术,例如内存或OLAP多维数据集,是不直接解决大数据的较小规模技术。加载到这些数据MART技术的数据在加载之前被显着修整,通常由上述大数据技术之一进行。