Facebook发布1.6GB的儿童故事，培训其AI

Facebook今天宣布发布了它用于训练其人工智能软件的数据，以了解儿童的故事，并预测故事中给定句子中缺少的单词。

数据集（.tgz）出现在1.6亿比1.6GB以上，它与最近发表的学术论文隶属于“金发姑娘原则：阅读儿童书籍具有明确的记忆表示。“Facebook首席执行官Mark Zuckerberg今天在Facebook帖子中概述了这项研究：

语言是计算机理解最复杂的东西之一。猜测如何完成句子非常容易，但机器更难。从历史上看，计算机已经能够预测“在”或“at”等简单的单词，如“奔跑”或“跑”，但他们也不会这样做，但他们也不会这样做，但他们也没有预测“球”，“桌子”或人的名词名字。

对于这项研究，我们的团队教授计算机来看看句子的背景，更准确地预测那些更困难的词语 - 名词和名字 - 这通常是句子中最重要的部分。当计算机的预测最准确，当它在相关词周围看出正确的上下文时 - 不是太多而不是太少。我们称之为“金发姑娘原则”。

现在，从志愿者LED的Gutenberg项目提供的书籍中绘制的数据集可用于学术研究人员，甚至是其他公司的研究人员，这些公司都热衷于改善其应用程序的语言理解系统。

Facebook先前已经开放了一些人工智能源代码 - 与其他主要的Web公司一样 - 甚至为其人工智能服务器共享设计。数据发布是Facebook的另一种方式，用于分享其工具以推进研究。

雅虎，另一家从事人工智能研究的公司，最近发布了一个可用于机器学习研究的13TB数据集，但它只适用于学术机构的人员。

有关Facebook人工智能研究的“儿童书籍测试”的更多信息在这里。

Fallout 4 Maker Bethesda正在研究3场新游戏