谷歌今天解释了其研究人员如何改善谷歌语音中语音邮件转录的语音识别系统。上个月谷歌透露,谷歌语音中的识别错误率已经下降了50%,现在谷歌正在谈论它如何取得成功。

简而言之,Google重建了转录系统。旧的旧机器学习技术依赖称为高斯混合模型。新版本使用一种称为深度学习的人工智能,特别是长期内存经常性神经网络,谷歌研究科学家FrançoiseBeaufays今天在一篇博客文章中解释。

人工神经网络可以在大量数据上培训,如语音邮件消息,然后可以对他们接收的新数据进行推断。在这种情况下,Google从用户获得了许多语音邮件以训练。博伊夫解释说:

我们决定恢复声学和语言模型,并使用现有的语音邮件进行操作。我们已经有一小部分语音邮件用户捐赠了研究目的,并且我们可以转录培训和测试,但我们需要更多的数据来培训语言模型。因此,我们要求我们的用户批量捐赠他们的语音邮件,保证不会被任何人查看或听取任何人 - 仅由运行机器学习算法使用的计算机使用。但是从未被人工验证或手工转录的数据中如何从数据中培训模型?

我们不能只使用我们的旧转录,因为他们已经污染了识别错误 - 垃圾,垃圾出来。相反,我们开发了一种微妙的迭代管道来重新腾出模型。使用改进的声学模型,我们可以识别现有的语音邮件脱机以获得更新,更好的转录语言模型可以再培训,并且具有更好的语言模型,我们可以再次识别相同的数据,并重复该过程。

谷歌已经使用深入学习,以加强许多服务,包括谷歌翻译。在Google I / O会议上,昨天在新的字母伞公司下昨天被命名为谷歌首席执行官 - 宣布,由于深度学习的进步,谷歌现在的演讲识别错误率为8%。

现在,由于深度学习,谷歌语音转录更加准确,为其他公司进行演讲识别,包括苹果,西里提和微软的其他公司的新挑战是更准确的。

查看Beaufays的完整博客文章以了解更多信息。