Microsoft今天宣布预览视频光学字符识别(OCR),面部检测和情感检测服务来自Azure Media Analytics,它本身就是最近推出的智能服务组合,其中包括Azure Media Services。

视频OCR目前仅在私人预览中提供,比文件甚至图像中的Mere OCR更先进,因为它必须通过每个inpidual视频帧。

“当与搜索引擎结合使用时,您可以通过文本轻松索引媒体,并增强您的内容的可发现性,”Microsoft Azure Media Services Manager Adarsh Solanki在博客文章中写道。“这在高度文本视频中非常有用,如幻灯片显示的视频录制或屏幕捕获。Azure OCR媒体处理器针对数字文本进行了优化。”

SRI Lab已开发了Video OCR技术,但之前它没有出现蔚蓝的云,与亚马逊Web服务或谷歌云平台相竞争。

Facebook还在试验中提取来自视频的信息 - 但是当然,人们所说的话语是为了产生标题。

微软开发了相关但不同的技术:通过Azure Media Analytics在视频中进行面部检测和情感检测的免费公共预览。这构建了Microsoft Project Oxford应用程序编程接口(API)所取得的面部跟踪和情感检测,此后已成为Microsoft认知服务。

“可以检测到多个面,随后在移动时跟踪,随后在JSON文件中返回的时间和位置元数据,”Microsoft Azure Media Services Manager Richard Li在跟踪期间写入博客文章“,它将尝试给予在人在屏幕上移动时,同一面孔的一致性ID,即使它们被阻挡或短暂地离开框架,也是如此。“

根据文献,可以检测幸福,惊喜,悲伤,愤怒,厌恶,恐惧和蔑视。

面部检测器介质处理器(MP)确实具有技术限制。例如,根据LI的说法,Azure媒体分析目前只能检测每个视频的最多64个面孔。他写道,它现在只能使用.mp4,.mov和.wmv文件。

Azure Media Analytics也可以提供超级式化服务,以及索引器,视频摘要和内容审核。