Facebook发布1.6GB的儿童故事,培训其AI
Facebook今天宣布发布了它用于训练其人工智能软件的数据,以了解儿童的故事,并预测故事中给定句子中缺少的单词。
数据集(.tgz)出现在1.6亿比1.6GB以上,它与最近发表的学术论文隶属于“金发姑娘原则:阅读儿童书籍具有明确的记忆表示。“Facebook首席执行官Mark Zuckerberg今天在Facebook帖子中概述了这项研究:
语言是计算机理解最复杂的东西之一。猜测如何完成句子非常容易,但机器更难。从历史上看,计算机已经能够预测“在”或“at”等简单的单词,如“奔跑”或“跑”,但他们也不会这样做,但他们也不会这样做,但他们也没有预测“球”,“桌子”或人的名词名字。
对于这项研究,我们的团队教授计算机来看看句子的背景,更准确地预测那些更困难的词语 - 名词和名字 - 这通常是句子中最重要的部分。当计算机的预测最准确,当它在相关词周围看出正确的上下文时 - 不是太多而不是太少。我们称之为“金发姑娘原则”。
现在,从志愿者LED的Gutenberg项目提供的书籍中绘制的数据集可用于学术研究人员,甚至是其他公司的研究人员,这些公司都热衷于改善其应用程序的语言理解系统。
Facebook先前已经开放了一些人工智能源代码 - 与其他主要的Web公司一样 - 甚至为其人工智能服务器共享设计。数据发布是Facebook的另一种方式,用于分享其工具以推进研究。
雅虎,另一家从事人工智能研究的公司,最近发布了一个可用于机器学习研究的13TB数据集,但它只适用于学术机构的人员。
有关Facebook人工智能研究的“儿童书籍测试”的更多信息在这里。