某人发表了一篇针对某新闻事件的原创博客,随后被新浪转载到了新闻频道。从描述的内容上讲,这是一种重复。但这种重复仅仅是主体内容上的重复,一方面它的转载带来了访问速度、稳定性等方面的增益,并且之后的检索用户还有可能用“新闻事件+新浪”来检索此新闻。
这可以被称之为站点增益。另一方面,它在转载过程中可能会改变页面的标题,而且依托其受众,在转载页面上,还有可能出现更多的有价值评论和回复等,还有可能存在指向其它相关事件的新闻链接。这些可以被称之为内容增益。因此即使主题内容没有任何变化,新浪的这次转载也是有价值的,其稀缺度也是较高的。
同样,反过来说,如果转载的网站相当不知名,则其无法带来站点名/稳定性/速度的增益。更有甚者,转载之后在页面上加入大量广告妨碍阅读,或者只转载了内容中不完整的一部分,这样的转载,或者说采集,就是纯重复的,与采集源相比,就是没有检索价值的了。
综上所述,对于主体内容重复的页面,我们应该评价其是否存在站点增益和内容增益,只有对于大量完全无增益的重复页面,我们才应该认为其稀缺度较低。
3. 质量
页面的质量是它对需求的满足程度的一种体现。判断页面质量的高低,应该是从最基础的需求依次递进的。
首先,不能是死链、网站要有一定的稳定性、访问速度要令人满意。其次,主体内容是否完整、版式和字体是否易读、各类广告会不会太多。最后,信息是否丰富、延伸出的次级需求是否满足。
典型的低质量页面存在以下一些特征:
主需求无效/未满足(过期分类广告/软件下载页面,下载链接无效等)
死链
虚假信息/诈骗等
空页面
站点不稳定
影响主需求的权限问题(下载/浏览需要注册会员/积分等)
信息不完整(转载不全等)
浏览体验差(广告/字体/页面布局等)
典型的高质量页面存在以下一些特征:
访问速度快(页面加载快/资源下载速度快)
页面整洁干净,主体内容在显著位置
页面信息完整
页面元素丰富(文字、图片、评论、相关推荐等)
4. 时效性
“时效性”是页面价值的一个属性,它一般体现在两个方面:一是页面所描述的事物本身有着较强的公众话题性,容易被传播。这其实是受众的一个体现。二是页面所描述的事物仅在第一时间有较高热度,随着时间推移热度显著下降。
这是一种“新闻”性。对于具有上述两种属性的页面,如果搜索引擎spider发现页面的时间正处于该事物的“爆发期”或“爆发期”之前,我们认为该页面具有时效性。
需要说明的是,搜索引擎的广义“时效性”是指对所有有价值新资源的及时收录提供检索,而所有的有价值新资源中,有一大部分其收录速度的提升对用户的搜索体验改善意义是不大的,比如介绍如何瘦身的知识性文章,张三的日记。页面价值中的“时效性”指得是一种突发时效性,也就是所有有价值页面中最需要及时收录的那些。对页面时效性的判断是为了指导我们将搜索引擎有限的资源投入到最关键的地方,产生最好的性价比。
判断页面的时效性价值,主要通过下面一些途径:
页面本身受众是否有短时间的突增,比如超链爆发。贾君鹏的帖子就是一个典型的例子。
描述相同事物的互联网页面是否有段时间的突增。贾君鹏事件短时间内爆发出大量相关讨论、报 ...
根据一个集合内的页面是否具有上述两种特征,推测该集合的时效性价值。比如魔兽世界吧经常 ...
四、页面价值的研究重点
前文已经介绍了页面价值的含义,研究的意义与价值判断的方法。最后我们再看一下,从技术角度上,这一方向的研究中的重点方向。
对页面价值的研究工作主要致力于三方面: