Pinterest不是国家安全机构,而是该公司,它将自己标识为“视觉发现工具”,已经成长为充足信息的收藏家。像Twitter,Facebook,谷歌和其他网络巨头一样,Pinterest已经开发出用于存储数据的复杂系统,但它也建立了一个工具,让很多员工获得它。

在今天的博客中,Pinterest数据工程师Mohammad Shahangian Sheds在“自助式平台”中,他和他的同事为坐在亚马逊Web服务公共云中访问了Pinterest的Hadoop集群中的数据。

Shahangian写道,该存储系统“使我们能够通过相关引脚,引导搜索和图像处理等功能将最相关和最近内容放在用户面前。”“它还为数千美元的日常指标提供支持,并允许我们通过严格的实验和分析来实现所有面对的改变。”

但是该团队的自助工具远远不仅仅是广泛使用的Hadoop开源技术,用于存储和分析许多不同类型的数据。这是其他公司可能想要尝试的事情,以便更多部门更多的员工可以使用数据来改善产品并进行更聪明的决策。该概念已获得信誉,因为Platfora和Trifacta等初创公司在寻求简化Hadoop数据分析工作流程的各个阶段的同时获得资金。

由于砂工和他的团队的努力,Pinterest的不同人可以为不同的需求创造Hadoop集群。这就是珍贵的Pinterest数据科学家可以专注于只是让数据从Hadoop获得他们的同事。

“虽然可以水平扩展单个Hadoop集群,但我们发现a)获得完美的隔离/弹性可能难以实现,b)诸如隐私,安全性和成本分配等业务需求使得支持多个集群更实用涮羊师写道。

尽管公司可以支付设置Hadoop集群的服务,但它们并不总是满足经常添加特征和搬入越来越多国家的公司的需求。

“试图使用EMR [亚马逊的Elastic MapReduce服务]开箱即用,并安装所有这些东西,并确保所有这些东西都有,并不容易,”Shahangian在接受VentureBeat采访时说。

Hadoop作业通过亚马逊云上的启动Qubole的Hadoop-As-As-Service产品运行,Shahangian在博客文章中写道。

哦,如果您想知道Pinterest的数据是多少,该公司目前每天抛出20 TB的新数据,并且约有10 PB的数据位于Amazon的S3服务中,用于持久存储。

趋势一直是Piners在Hadoop中处理了越来越多的数据。

“工程团队专注于今年的许多技术(如塞诺),我们希望为此做同样的事情,但没有具体的日期,”一个Pinterest发言人在电子邮件中告诉Venturebeat。

阅读博客文章以了解Pinterest自助工具的详细信息,用于处理大数据。