Pinterest在运行一个网站的过程中积累了大量的数据,其中用户可以引脚,例如,只需点击内容的SmorgasBord。该数据将良好使用。它启用了pinterest来构建一个非常智能的搜索框。

在博客文章中计划今天去上市,Pinterest详细介绍了其搜索引擎的复杂的“数据收集”,称为QueryJoin。

该系统似乎令人振奋的与Pinterest接触。根据博客文章的说法,由于Pinterest推出了其引导搜索,因此每个用户行为的搜索数量增加了25%。

Facebook,Twitter,Google和其他Web公司也考虑用户订婚数据。但Pinterest是年轻的,它需要保持迅速使用。这是增长时间。因此,这种性质的工程壮举,可以留下深刻的印象,让他们再次又一次地回来,这是至关重要的。

QueryJoin借鉴了Pinterest先前谈过的数据收集,如Pinjoin和Userjoin,它考虑了董事会和重新固定活动。该系统还借鉴人口统计信息,以及搜索使用本身。

例如,QueryJoin看着用户在一次访问期间进行的所有搜索查询 - “了解用户如何改进他们的搜索查询,以查找他们正在寻找的东西,”Pinterest软件工程师Dong Wang在当今的博客文章中解释。

王写道:

我们每天从会话日志中提取搜索活动。对于每个搜索活动,我们提取构建QueryJoins所需的信息并将其存储在日期之后。

每周,我们通过将日常搜索活动聚合在一起创建一个部分QueryJoin。对于QueryJoin中的引脚,我们通过图像签名加入它们的Pinjoins。对于每个查询,我们发现一组与查询相关的Pinjoins,然后计算最相关的引脚并将查询分类为类别。我们还通过标识符加入QueryJoin和UserJoin(诸如用户信息的信息,例如他们的电路板和引脚),并计算性别和国家/地区统计数据。

王记说明,QueryJoin数据集合还有助于搜索自动完成和相关性的知识库。

有关Pinterest搜索功能的工作中的数据工程,请查看整个博客文章。