Yahoo发布13.5TB WebScope数据设置为机器学习研究人员

雅虎今天宣布发布了一个大规模的数据集，描述了人们在包括雅虎新闻和雅虎金融，包括雅虎新闻和雅虎金融中的新闻饲料的使用。这个想法是赋予学术界的机器学习研究人员，具有非常丰富的数据。

雅虎的新增数据并不是，雅虎实验室WebScope计划中有56次版本，其中包括广告，图像，社交和评级数据，以及其他类别。该数据特别涵盖了2015年在四个月内涵盖了2000万人，并显示了用于访问页面的设备类型，他们在文章中获得了多远，以及物品的最高主题。有关于人民地点的数据，他们的年龄（在某些情况下）及其性别 - 所有人都以匿名的方式。

对今天的发布有趣的是数据集的大小：13.5TB。这比这一点到最大的频率大大，这是大约1TB。

以上：今天发布的WebScope数据的样本。

图像

“我为什么兴奋？这是因为我认为学术界和行业之间的这些合作对于最先进的人工智能和机器学习技术来说至关重要，以真正处理现实世界中的大数据，“说本周早些时候在旧金山的雅虎新闻活动期间，加州大学电气和计算机工程教授Gert Lanckraiet。

这一举动展示了雅虎积极的光线，并且在雅虎可以使用一些积极的压力机时发生。

自玛丽莎梅耶成为该公司的首席执行官已有三年多，最近，投资者一直在推动企业变革。上个月，据说该公司考虑了核心互联网物业的旋转。上周，据报道，雅虎计划裁员。本周，纽约时报报告了公司的“脑流失”。梅耶，为她的部分，刚刚孪生。

但该公司近几周还采取了措施取悦开发商。它具有开放源算法，用于在流数据上运行计算，以及用于在网站上处理结构化数据的Web爬网履带。现在是这种数据发布，应该在学术界中欢迎，特别是对于希望了解如何以及人们阅读和努力改善其算法的人员。

100行样本的数据，雅虎提供通风竞技博格的暗示暗示了数据集的各种数据，其中有关于股票，学校，政治，体育，名人和，随机，卢克自动化的文章。

可以肯定的是，雅虎可以释放更多的数据。雅虎实验室的个性化科学研究总监Suju Rajan表示，她经常与Petabyte-Scale数据一起使用，这对于像雅虎这样的网页公司并不异常。但是，再次，单个研究人员可能难以交互地使用该大小的数据集。即使是13TB的数据也可能令人惊讶。

“许多人将无法使用它，但我们认为我们可以以这种方式推进研究，”雅虎实验室的研究副总裁Ricardo Baeza-yates说。

博客文章有更多关于新闻的详细信息。