谷歌推出Tensorflow 0.8支持分布式模型培训
谷歌今天正在宣布发布其Tensorflow开源机器学习软件的0.8版。此版本很重要,因为它支持培训机器学习模型的能力,而不是仅仅是一台机器。
TensoRFlow可以用于一种称为深度学习的人工智能,这涉及培训大量数据的人工神经网络,然后让它们做出关于新数据的推断。培训是该过程中的一个重要步骤。
拥有超过100万台服务器,Googlers喜欢立即扩展许多服务器的软件,并平衡工作,以便更快速有效地进行。但是,当Tensorflow于11月向公众发布时,它不支持分布式培训。在不到24个小时内,人们将其视为GitHub问题。
“我们目前的内部分布式扩展有点纠缠于Google Internal基础架构,这就是我们首先发布单机版本的原因,”Google高级jeff Dean撰写了回复。“代码尚未在GitHub中,因为它在谷歌代码库的其他部分上有依赖性,其中大部分都被修剪,但有一些剩余的。
“我们意识到分布式支持非常重要,它是我们目前优先考虑的顶级功能之一。”
现在,五个月后,谷歌已经解决了这个问题。
这是显着的,因为还有其他类型的机器学习软件,可在多台机器上工作。例如,虽然Caffe深度学习框架不能用于分布式时尚的培训,但雅虎使其在Hadoop开源文件系统的顶部工作,用于使用Spark数据处理引擎的大数据。Deeplearning4J可以处理分布式培训,如微软的CNTK。但是Theano,另一个流行的框架(在许多其他可用)中,不能。
通过及时回应社区,谷歌可以让更多人改善其技术并用它构建更多软件。谷歌 - 杰夫迪恩本人 - 一直吹嘘开源社区对该项目的兴奋,现在谷歌也可以吹嘘人们在选择Tensorflow时,人们可以在一次使用许多机器训练。
“即使是小群体也受益于分布式Tensorflow,因为添加了更多GPU(图形处理单元),提高了整体吞吐量,并更快地产生了准确的结果,”谷歌脑软件工程师Derek Murray在博客文章中写道。
除了分布式支持外,0.8版本还附带了Google的初始网络的分布式培训师,以及定义分布式模型应该如何工作的代码。
谷歌发布了Tensorflow服务软件,用于2月份扩展推断。