大数据中的下一个大事:快数据
这篇赞助的帖子由Nati Shalom,CTO和Gigaspaces的创始人制作。
大数据移动几乎是对速度,体积和各种数据的规模的需求驱动。这三个矢量导致新一代分布式数据管理平台的出现,例如Hadoop进行批处理和NoSQL数据库,用于交互式数据访问。两者都受到各自的前任谷歌(Hadoop,Bigtable)和亚马逊(Dynamo DB)的启发。
随着我们移动到快速数据,更强调以速度处理大数据。在不妥协的情况下获得速度推动大多数现有的大数据解决方案的限制,并推动用于打破当前速度边界的新模型和技术。具有新型闪存驱动器的硬件基础架构的新进步提供了破坏电流限制的巨大潜力,这些速度限制主要是通过硬盘驱动器设备的性能界定的。
为什么使用现有的RDBMS,闪存驱动器顶部的NoSQL是不够的
许多现有数据库 - 包括更多现代化的解决方案,如NoSQL和NewsQL - 旨在利用标准硬盘驱动器设备(HDD)。这些数据库的假设设计了磁盘访问缓慢,因此它们使用许多算法(如Bloom Filter),以便在数据不存在时保存对磁盘的访问。另一种常见的算法是使用异步写入提交日志。通过Cassandra架构提供了对NoSQL数据库上的单个写入过程中常用的所有优化的良好探视。让我们看看以下需要什么:
cassandra写道
磁盘速度不再是瓶颈时会发生什么?
当磁盘速度不再是瓶颈时,就像在闪光灯设备一样,那么大量的优化变成开销。换句话说,通过闪存设备直接访问闪存设备,可以更快,更简单地访问闪存设备,以便每次写入或读取操作。
Flash不仅仅是一个快速磁盘
大多数现有用例都使用闪光灯设备更快。使用Flash作为快速磁盘是一个短路,无法绕过磁盘性能开销,而无需更改大部分软件和应用程序。已经说过,这种方法继承了许多不必要的磁盘驱动器开销。因此,为了利用闪存设备的全速速度,最好直接从应用程序访问闪光设备,并将闪光灯设备视为键/值存储而不是磁盘驱动器。
为什么我们不能简单地优化现有数据库?
当我们达到我们需要更改现有数据库的大部分现有假设和架构时,利用新技术和设备等闪存,这是一个清晰的迹象,即本地优化不会削减它。这需要新的中断。
大数据中的下一个大事
鉴于上面的背景,我认为,与对大数据的需求导致当前生成的数据管理系统的诞生方式,快速数据的驱动也将导致新的数据管理系统。与当前的数据库集不同,我相信下一代数据库将自然写入Flash,并将使用直接访问闪存而不是基于常规的基于磁盘的访问。除此之外,这些数据库还将包括高性能事件流传输功能,作为其核心API的一部分,以允许在其进入时处理数据,从而允许实时数据处理。
云中的快速数据
许多现有数据库都没有设计用于以云作为一流的公民运行,并且通常需要相当复杂的设置在云环境中运行良好。
随着云基础架构成熟,我们现在有更多选项来运行云上的大数据工作负载。下一代数据库需要设计为从Get-Go的服务运行。
为避免通常与此类设置相关联的延迟,下一代数据库需要尽可能接近应用程序运行。假设许多应用程序将在一个云中运行或另一个应用程序,这意味着这些数据库需要对不同的云环境进行内置支持。此外,他们还需要利用动态代码运输来通过数据来通过数据,以这种方式允许使用最小网络跳跃进行复杂处理。
内存数据库和数据网格是最接近的候选者,用于驱动下一页闪存数据库
RAM和基于闪存的设备具有比闪存和硬盘的共同点更多。在ram和闪存中,访问时间相当低,并且不是真正的瓶颈;内存数据库通过键值接口直接访问RAM设备以存储和索引数据。
这些因素使基于内存的数据库更有可能适合下一代Flash数据库。
内存数据库和数据网格的组合在闪存器件顶部还允许系统克服基于内存内存中的每个GB限制的一些关键容量和成本。两者的集成将允许每个单个节点的容量增加到基础闪存设备的极限而不是RAM大小的限制。
集成解决方案的整体架构如下所示(来源:Gartner):
如上所述,IMC(内存计算)层可以充当闪存设备的前端并处理事务性数据访问和流处理,而闪存设备用作RAM设备的扩展从申请角度来看。
RAM和闪存设备之间基本上有两种集成模式。
LRU模式 - 在此模式下,我们将RAM用作闪存设备的缓存层。RAM设备保持“热”,即最近使用的,闪光灯设备保持整个集合。
优点:优化最大容量。
缺点:有限查询到简单的键/值访问
快速索引模式 - 在此模式下,RAM中的所有索引和闪存中的数据都包含整个集合。
优点:支持复杂的查询,包括范围查询和聚合函数。
缺点:容量仅限于可在RAM中保持的索引的大小。
在这两种情况下,对闪存的访问直接使用键/值接口而不是通过磁盘驱动器接口完成。由于RAM和闪存驱动器都相当快,因此将数据与闪光盘同步地写入闪光盘,以这种方式避免由于不一致而潜在的复杂性。
将来自IMC和Flash设备的数据同步到在传统硬盘驱动器上运行的外部数据存储器也非常常见。此过程是异步的,并且批量进行,以最小化性能开销。
实际数字的直接闪存访问
要将某些实数放在这些陈述后,我想参考使用基于Gigaspaces XAP的内存数据网格和使用键/值软件API的直接闪存访问完成的最新基准测试之一,允许直接访问各种闪存设备。基准是在几种设备上进行的,以及在AWS上的私人和公共云的服务。基准显示托管数据增加了十次,而不会影响性能。
有关基准的完整详细信息,请参阅以下白皮书:
XAP MocirexTend - 实时应用程序的应用存储容量
.
赞助的帖子是由一家公司生产的内容,可以支付邮政或与Venturebeat进行业务关系,他们总是明确标记。我们的编辑团队产生的新闻故事的内容永远不会受到广告商或赞助商的影响。有关更多信息,请联系[email protected]。