Microsoft研究人员回到了它,使用一种称为深度学习的人工智能来构建更智能的软件。在公司以前的工作中,微软研究员工已经开发了一种新的方法,这些方法可以比其他群体最近展示的类似系统更准确地回答有关照片内容的简单问题。

该方法涉及两种人工神经网络 - 卷积和长期内存网络 - 通常培训大量数据,例如照片,然后对其给出的新照片进行推断。但是,通过结合“堆叠注意力网络”进一步进一步进一步进一步,该“堆积注意网络”在图像中有效地蜂在图像中的关键区域中蜂拥而至。该网络中有多个层,每个层都有更大的变焦水平,导致更准确。

“介绍了人类的注意力,”Microsoft Research“深入学习技术中心的合作伙伴研究经理李邓,在立即在Microsoft博客的帖子上进行了采访时表示。“这是几年前就无法想象的技术 - 建模人类行为来解决问题。”

本月在本文中记录的新方法“堆积了图像问题回答”,优于微软研究人员今年早些时候在一篇名为“VQA:VQA:”的论文中的学术工作视觉问题回答。“

不是微软是唯一调查用图像识别混合自然语言处理的能力的公司。

谷歌和微软的喜好,已经广泛探讨了照片标题的自动创建。在图像问题的狭窄领域,百度,华为和其他人已经发布了他们的进度,而Facebook最近展示了一个移动应用程序,可以让人们盲目地提出关于照片中的内容的口语问题,并在回应中接受口头答案。

这里的大成就是准确性。特别是当系统可以用只有一个单词回答问题时,它表现得比百度和华为所显示的更好。哎呀,在这项工作中,一个人并不是一个更好的。如果你看大局,你知道这是一个很大的事。