雅虎开放资源Caffeonspark深度学习框架

雅虎今天正在开源许可证下发布一些关键人工智能软件（AI）。该公司去年建造了一个名为Caffeonspark的图书馆，在其Hadoop开源文件系统中占据了众多叫做“深度学习”的流行类型的AI，以存储大数据。现在，在GitHub上的开源Apache许可下，可以使用它是可以使用的。

主要在C ++中撰写，开发了Caffeonspark，以利用可以胜过Hadoop的Spark数据处理引擎进行某些计算。Spark有Mllib机器学习库，但它不能做深刻的学习，这涉及大量数据训练人工神经网络，然后让它们对新数据进行推断。但与任何其他大型技术公司一样，雅虎希望与其时间及其基础设施有效。

“您不必设置单独的深度学习集群 - 您可以在云和大数据平台的云和大数据平台产品管理高级总监SumeT Singh，在云和大数据平台的高级总监中进行深入学习，在接受采访时告诉Venturebeat。“您不必在这些专业模型培训之间来回复制数据。”因此，工程师可以将深度学习与更传统的机器学习方法相结合。

百度，Facebook，Google和Twitter过去都有开放的深度学习软件。这使得这些公司以外的人合作并使工具更好，甚至可以导致寻找雇用的新才能。某些公司已经在某些堆栈周围集结。例如，Facebook和Twitter都使用了火炬开源深度学习框架。谷歌和Pinterest已经使用了Caffe。

雅虎最近多年来一直在造成了许多开源贡献，而Hadoop实际上是在雅虎出生的。最近，雅虎开辟了Zhthelion Web爬虫和数据草图计数算法。它最近发布了一个13TB数据集，用于学术界的机器学习研究人员。

除了这个工具之外，还有Startup Skymind的DL4J（它代表Java的深度学习）开放源库在Hadoop上做深度学习，但雅虎建筑学副总裁安迪冯告诉Vidturebeat它并不完全满足雅虎的需求。此外，冯于2013年收购的伊思发动机队伍已经熟悉Caffe，冯说。

Caffeonspark支持通用X86芯片或图形处理单元（GPU）上的部署。它可以在云基础架构或公司的本地数据中心上运行。运行此分布式软件的服务器可以通过以太网或更快的Infiniband连接。它作为第三方火花包提供。

内部在雅虎，该软件 - 雅虎在9月份在Tumblr帖子中谈论 - 已被用于Flickr，垃圾邮件检测，帐户安全和内容推荐。

有关详细信息，请参阅Feng的博客文章。Caffeonspark的文件在这里。

谷歌已经悄悄地推出了AWS Lambda的答案