在过去一年中,人工智能围绕着人工智能或艾的嗡嗡声在过去一年中越来越强劲。我们从未更接近解锁这项技术的好处。2016年将看到新型AI动力设备,因为我们在AI中最困难的挑战之一取得进展:让我们的设备了解他们所看到的内容。

为什么机器需要看到?愿景是一种主要意义和我们生活的主要媒介之一。为了使机器能够与人类联系并提供我们需要的支持,必须在视觉领域中观察和行为。这可以是一个小型摄像头的形式,可以帮助盲人“看到”,并在他们周围的世界或内容化世界的环境中,可以正确地识别流浪猫之间的差异,移动树枝和窃贼。

由于设备在我们的日常生活中发挥逐步组成部分,我们已经看到越来越多的应用程序失败,没有足够的视觉功能,包括一个无数的中位无人机碰撞和机器人真空,“吃”他们不应该的东西。

机器愿景是一种迅速生长的AI分支,旨在为自己提供与我们自己相当的机器,在过去几年里,由于应用专门的神经网络来帮助机器识别和理解现实世界的图像,这一年过去几年已经大规模进展。从2012年的那个出发点,计算机现在能够从互联网上识别猫来识别照片中的特定面孔,但仍然有一种方法。如今,我们看到机器愿景离开数据中心,并从自主无人机排序我们的食物。

在将鸟类飞行与飞机的飞行中相比,可以找到理解机器视觉与我们自己的共同类比。两者都将最终依赖基本物理(例如Bernoulli的原则)来帮助将它们升空进入空中,但这并不意味着飞机将挡住其翅膀飞翔。仅仅因为人和机器可能会看到相同的东西和这些图像被解释的方式甚至可能有一些普遍性,最终结果仍然可以差异很大。

虽然基本图像分类变得更加容易,但在提取抽象场景中的含义或信息方面,机器面临着全新的问题。光学幻想是机器愿景仍然必须走多远的一个很好的例子。

每个人都可能熟悉彼此面对的两个剪影的经典幻觉。当一个人看着这个图像时,它们不仅仅是看到抽象形状。他们的大脑插入进一步的上下文,允许它们识别图像的多个部分,看到两个面或花瓶,所有来自同一图像。

当我们通过分类器运行相同的图像时(您可以在互联网上找到几个免费的图像),我们很快意识到机器了解的是多么难。基本分类器没有看到两个面或花瓶,而是看到像斧头,钩子,防弹背心,甚至是声学吉他的东西。虽然系统允许不确定任何这些东西实际上都在图像中,但它显示这可能是多么挑战。

如果我们看待更复杂的东西,这个问题变得更加困难,就像来自贝弗利Doolittle的绘画一样。虽然看到这种形象的每个人可能无法发现画布上的各个面部,但它们几乎会立即看到图片比遇到眼睛更多。

通过相同的分类器运行此图像,我们的结果从像谷或石墙一样运行色域,以完全偏离底座灰色的灰色弗隆索萨(一种蘑菇)或非洲变色龙。虽然分类器可以了解图像的一般意义,但它无法看到图片中的隐藏面。

要了解为什么这是一个如此挑战,你需要考虑愿景如此复杂。就像这些图像一样,世界是一个凌乱的地方。导航世界并不像构建通过数据解析的算法一样简单,它需要经验和理解允许我们相应行动的真实情况。

机器人和无人机面对这些障碍可能出于规范的无数,并弄清楚如何克服这些挑战是那些希望利用AI革命的人的优先事项。

随着神经网络和专业机器视觉硬件等技术的持续采用,我们正在迅速关闭人类和机器视觉之间的差距。有一天,我们甚至可能会开始看到具有视觉能力的机器人,以上和超出我们自己的视觉功能,使他们能够在我们的社会中进行众多复杂的任务并完全自主地运营。

Remi El-Ouazzane是Movidius的首席执行官,一个启动与定制硬件的算法,为连接设备提供可视智能。