Microsoft将释放Cortana的语音到文本技术选择开发人员

Microsoft今天宣布了自定义识别智能服务（CRIS）的新私人预览，这是一个可为应用程序SIRI的语音到文本功能提供高度可自定义的工具。此外，Microsoft正在为两套应用程序编程接口（API）开辟公共预览，这些接口提供了开发人员技术，可以理解谁在录音中交谈以及视频中的内容。

所有这项技术都属于Project Oxford，这是一项提供第三方开发人员访问微软在多年建立的人工智能的倡议。谷歌也在此路径上移动，例如随着云视觉API的发布。

微软上个月在项目牛津项目中宣布了情感检测工具，并宣布将在今年年底提供发言人认可的公共测试。据博客发布从Microsoft技术和研究高级计划经理Ryan Galgon，据博客发表，现在可以使用。语音API可以验证和识别扬声器，而视频API可以跟踪面部，检测静止背景的动作，并稳定视频内容。

但这里的更有趣的工具是克里斯克。这是上个月提供的高级描述微软：

这个工具......让人们更容易为挑战环境定制语音识别，例如嘈杂的公共空间。例如，公司可以使用它来帮助团队更好地使用语音识别工具，同时在响亮的车间或繁忙的购物中心。它也可以用来帮助一个应用程序更好地了解传统上具有语音识别的人的人，例如非母语扬声器或残疾人。

当开发人员注册使用该服务时，Microsoft询问他们是否熟悉HTK，Kaldi和SRilm等文本技术，或仅仅是谷歌，苹果或当然，微软本身的个人数字助理技术的用户。

事实上，随着加尔贡提到的，“过去几年目睹了扬声器识别系统的表现的巨大改善。”现在，开发人员将能够利用Microsoft汇集的这一领域的技术。

视频流启动StreamRoot提高了210万美元