超级个性化的路线:克服Hadoop克服了4个障碍
本赞助的帖子与StubHub相关联。
我们都知道在线创建个性化体验的重要性 - 而且在不知道客户的行为并需要更好的情况下,您就无法进行。从汇集来自各种来源的数据开始,使其随时可供下游团队和流程 - 即,数据科学家和程序员依赖它来分析和开发使一切勾选的场景课程 - 所以他们可以提供个性化的圣杯。
关于在商品硬件集群上存储和处理大量数据时,对Hadoop的权力毫无疑问。Hadoop就像一个巨大且可扩展的数据暂存区域,以适应任何数据类型,无论如何非结构化 - 在处理客户行为数据方面都是您所需要的。
但是有问题进入Hadoop。大多数公司通过构建定制附加解决方案来处理这些问题。让我们谈谈四个主要障碍或空白,让数据变成Hadoop并使其可用于处理。
障碍#1:自动摄取流和批处理模式中产生的数据
大多数公司都处理庞大的客户数据。例如,eBay拥有的在线事件票据市场。为了创建端到端的风扇体验并根据客户偏好和兴趣推荐事件,StubHub需要分析来自大量来源的数据。
这些来源包括点击流数据(实时信息跟踪用户在访问Weblogs捕获的网站时留下的用户离开),社交媒体数据,响应电子邮件和促销,历史事务,分段数据等。
数据以不同的格式(名称值对,JSON,关系等),并以不同的频率产生。然而,所有这些数据对于为客户创造独特的体验至关重要。
“Hadoop非常适合实时和批处理,”Stubhub的首席建筑师首席架构师斯卡斯特马拉迪说。“但是现在没有单一的常见框架或平台,以便以使数据立即消耗的方式自动从所有这些不同来源中摄取数据。”
正如他所指出的那样,大多数公司依赖一次性解决方案(如SQOOP,带入SQL Transaction Data和Flume用于日志数据)以解决一种类型的源或另一类。但是,虽如来,没有一定尺寸的适合 - 所有全面的解决方案他们可以转向。
障碍#2:验证和监控数据完整性
当您将数据送入Hadoop时,您需要确保您最终的目标是您所开始的。这涉及不断监视摄取过程,验证数据,并在某些事情不起作用时接收警报。
问题是不同的数据类型需要不同的验证类型。例如,如果要收到SQL结构化数据,则要确保行,列和值匹配。同样,如果您收到XML数据,树和结构需要匹配。目前,缺少的是基于数据类型的不同验证机制插入的常见框架 - 根据需要。
除此之外,大多数公司都需要一个监控解决方案,让他们在所有时间都知道摄取状态,并如果出现问题,则会生成警报,因此问题会在发生时修复。
障碍#3:使数据立即消耗
您将数据带入Hadoop。现在,您的数据只是坐在那里原始的原始格式。但是没有每个数据源的元数据和模式管理,您无法通过SQL界面(如Hive)查询数据。换句话说,你只是在处理大数据湖中,没有人能以有效的方式找到任何东西。
需要什么是一种在飞行中创建这些元数据模式的方法。数据摄取过程对数据生产侧没有控制。在此之上,数据元素的顺序和类型可以急剧地改变,具体取决于数据源。因此,摄入过程需要确保原始数据自动变为可操作的数据集,因为它在Hado oOp中的下游应用程序中的下游应用程序造成意义。这可能很棘手,特别是在处理非SQL类型的数据时。
障碍#4:基于数据可用性启用作业调度
您已定义了您的模式。您已经开发了处理数据的工作。下一步是安排要运行的作业,何时。
在大数据世界中,大多数企业与工具如此Oozie和Cron安排工作。与这些工具的常见限制是它们是基于时间的调度程序。想象一下情况 - 这一直发生 - 你有一个在9下午9点开始的工作,但这项工作取决于尚未到达的数据。更好的方法是根据数据可用性安排作业,但在某些类型的窗口中。
“您希望灵活地说,这里是我正在寻找的数据源,在此数据到达时安排我的工作。但是如果数据没有在指定的时间段内到达,请发送警报,因此有人可以查看并解决此问题,“Malladi解释说。
那些今天将数据带入Hadoop的四个挑战。一般,公司创建自己的自定义解决方案来填补这些领域,但这样做可以从事核心竞争力的重点。
更好的解决方案可能在地平线上。基于工作,它正在制作自己的大数据架构,StubHub创建了一个开源框架,它调用了BigDime(代表大数据摄取的首字母缩写,它计划在不久的将来发表公开可用,称到马拉迪。
BigDime建造在Flume和Kafka,是一个可扩展的框架,用于在Hadoop中更快更容易地摄取和处理大量客户数据。
前进,个性化将是任何面向消费者的网站或应用程序的关键。使用Hadoop以混合方式工作,并具有像大片这样的解决方案,扩展Hadoop的能力将是实现这一目标的关键。
赞助的帖子是由一家公司生产的内容,可以支付邮政或与Venturebeat进行业务关系,他们总是明确标记。我们的编辑团队产生的新闻故事的内容永远不会受到广告商或赞助商的影响。有关更多信息,请联系[email protected]。