Microsoft Azure Media Analytics在预览中启动视频OCR，情感检测服务

Microsoft今天宣布预览视频光学字符识别（OCR），面部检测和情感检测服务来自Azure Media Analytics，它本身就是最近推出的智能服务组合，其中包括Azure Media Services。

视频OCR目前仅在私人预览中提供，比文件甚至图像中的Mere OCR更先进，因为它必须通过每个inpidual视频帧。

“当与搜索引擎结合使用时，您可以通过文本轻松索引媒体，并增强您的内容的可发现性，”Microsoft Azure Media Services Manager Adarsh Solanki在博客文章中写道。“这在高度文本视频中非常有用，如幻灯片显示的视频录制或屏幕捕获。Azure OCR媒体处理器针对数字文本进行了优化。”

SRI Lab已开发了Video OCR技术，但之前它没有出现蔚蓝的云，与亚马逊Web服务或谷歌云平台相竞争。

Facebook还在试验中提取来自视频的信息 - 但是当然，人们所说的话语是为了产生标题。

微软开发了相关但不同的技术：通过Azure Media Analytics在视频中进行面部检测和情感检测的免费公共预览。这构建了Microsoft Project Oxford应用程序编程接口（API）所取得的面部跟踪和情感检测，此后已成为Microsoft认知服务。

“可以检测到多个面，随后在移动时跟踪，随后在JSON文件中返回的时间和位置元数据，”Microsoft Azure Media Services Manager Richard Li在跟踪期间写入博客文章“，它将尝试给予在人在屏幕上移动时，同一面孔的一致性ID，即使它们被阻挡或短暂地离开框架，也是如此。“

根据文献，可以检测幸福，惊喜，悲伤，愤怒，厌恶，恐惧和蔑视。

面部检测器介质处理器（MP）确实具有技术限制。例如，根据LI的说法，Azure媒体分析目前只能检测每个视频的最多64个面孔。他写道，它现在只能使用.mp4，.mov和.wmv文件。

Azure Media Analytics也可以提供超级式化服务，以及索引器，视频摘要和内容审核。