雅虎今天正在开源许可证下发布一些关键人工智能软件(AI)。该公司去年建造了一个名为Caffeonspark的图书馆,在其Hadoop开源文件系统中占据了众多叫做“深度学习”的流行类型的AI,以存储大数据。现在,在GitHub上的开源Apache许可下,可以使用它是可以使用的。

主要在C ++中撰写,开发了Caffeonspark,以利用可以胜过Hadoop的Spark数据处理引擎进行某些计算。Spark有Mllib机器学习库,但它不能做深刻的学习,这涉及大量数据训练人工神经网络,然后让它们对新数据进行推断。但与任何其他大型技术公司一样,雅虎希望与其时间及其基础设施有效。

“您不必设置单独的深度学习集群 - 您可以在云和大数据平台的云和大数据平台产品管理高级总监SumeT Singh,在云和大数据平台的高级总监中进行深入学习,在接受采访时告诉Venturebeat。“您不必在这些专业模型培训之间来回复制数据。”因此,工程师可以将深度学习与更传统的机器学习方法相结合。

百度,Facebook,Google和Twitter过去都有开放的深度学习软件。这使得这些公司以外的人合作并使工具更好,甚至可以导致寻找雇用的新才能。某些公司已经在某些堆栈周围集结。例如,Facebook和Twitter都使用了火炬开源深度学习框架。谷歌和Pinterest已经使用了Caffe。

雅虎最近多年来一直在造成了许多开源贡献,而Hadoop实际上是在雅虎出生的。最近,雅虎开辟了Zhthelion Web爬虫和数据草图计数算法。它最近发布了一个13TB数据集,用于学术界的机器学习研究人员。

除了这个工具之外,还有Startup Skymind的DL4J(它代表Java的深度学习)开放源库在Hadoop上做深度学习,但雅虎建筑学副总裁安迪冯告诉Vidturebeat它并不完全满足雅虎的需求。此外,冯于2013年收购的伊思发动机队伍已经熟悉Caffe,冯说。

Caffeonspark支持通用X86芯片或图形处理单元(GPU)上的部署。它可以在云基础架构或公司的本地数据中心上运行。运行此分布式软件的服务器可以通过以太网或更快的Infiniband连接。它作为第三方火花包提供。

内部在雅虎,该软件 - 雅虎在9月份在Tumblr帖子中谈论 - 已被用于Flickr,垃圾邮件检测,帐户安全和内容推荐。

有关详细信息,请参阅Feng的博客文章。Caffeonspark的文件在这里。