雅虎今天宣布它已经发布了它的源代码,为其Anthelion Web爬网程序设计用于在开源许可证下从HTML页面解析结构化数据。

Web爬网是雅虎的核心,尽管它有许多其他应用程序,包括雅虎邮件,雅虎金融,雅虎信使,Flickr和Tumblr。对于雅虎以竞争激烈的地区共享代码,因为Web搜索很重要。

当然,它是在雅虎计划某些核心业务资产的“反向分拆”的时候来,但不是阿里巴巴的股份。此外,雅虎首席执行官Marissa Mayer刚刚孪生,所以有那么。(你可以争辩说,这与网络爬行技术无关,我可能会承认它也是,但我不能让自己写下雅虎的好消息,而不提及公司的最新标题。)反正。

去年,在上海的信息和知识管理会议上,雅虎在一篇论文中详细说明了一个。

“据我们所知,我们首先是介绍一个专注于语义数据的爬虫的想法,使用标记语言作为Microdata,Microformats或RDFA,”Yahoo Labs和Robert的作者彼得Mika和Roi Blanco写道德国曼海姆大学梅苏尔。

Microdata和RDFA是关于不同主题的结构化数据的语法格式。它们与结构化数据的Schema.org词汇兼容,该项目是谷歌,雅虎和Bing搜索引擎的所有工作。

本文的作者展示了如何实现爬行技术的实施可以为某些搜索查询提供更高数量的相关结果。

现在代码在Github上的Apache许可证下可用,作为长期Apache Nutch开源Web爬网遗留的插件。

“安策可以争取抓取特定页面;例如,包括标记的标记描述电影具有至少两个不同属性的电影,例如电影中的标题和演员,“Mika,Blanco,Meusel和Yahoo Research实习生Petar Ristoski今天在新闻的Tumblr帖子中写道。