从这个文章上看“网页降噪”其实就是要打消、消除这些多余、反面谐,从而突出更重要的主体内容的事情。
噪点在原文宏观上看:即页面的内容、模版机关、样式,此类较为常见的有:内容版权声明、民众导航、民众底部声明(公司先容、雇用、存案信息等)这些多半可以看作是网页中的噪点!
噪点在原文微观上看:即文章内容中的文字、标记,此类较为常见的是一些助词(的、地、得、着、了、之、乎、者、也、矣......)、非凡标记(星星啊、月亮啊、太阳啊)、无效代码等;
以上是从《网页降噪助你晋升搜索引擎表示》摘出的英华内容,恰好我想做泛收罗,照旧很有用的,因为文中的噪点在正文提取来说就是过滤非正文内容。
我做了小结
一、样式噪点主要是有内嵌样式和行内样式,好比:
<style type="text/css">....囧....</style>和
<p>当样式中有大量的中文注释,一定会发生噪点,不能只过滤掉<style>标签,要把整个样式都去掉。
以下php代码会过滤css样式
二、内容版权声明噪点
版权可以是网站名称、网址、网址简称,如: 转载于..囧.. 、 转载自..囧.. 、 作者:..囧.. 、 copyright © ..囧.. 等信息,这些信息不是纯真地呈此刻footer底部,很大概呈此刻正文标题四周、内容尾部、要害字链接等部门。
因为环境许多,实在是许多,那判定会很巨大的,php过滤代码只上个或许:
三、民众导航噪点
导航有个很明明的特征:就是无长文本、要害词会合、位置漫衍平均、html标签统一等特点。
php代码不上了,说个根基思路:
1、可以把所有html标签换空格,统计文本长度,文本空格密度。
2、对付有class="menu" 、id="nav" 等标签举办判定。
3、一般来说 有ul li 会合的处所不是文章列表就是导航了。
四、文章内容中的文字、标记噪点
与其说是文章内容的噪点,不如说是正文的特征了、这个就是我们所要的正文部门了。
如 中文助词: “的、地、得、着、了、之、乎、者、也”
非凡标记: “,。、!?”
无效代码: <!-- content start --> <!-- content end --> <div> 告白代码 等内容
php代码也不上了:
1、统计长文本中 中文助词的次数比,找到比例符合位置。
2、对非凡标记举办支解:
先
$word = array(",", "。", "、", "!", "?");
$html = str_replace($word, ',', $html);
$arr = explode(',', $html);
再
分块统计$arr数量,
一般大于必然量会有惊喜。
3、无效代码也有必然的特征,可以简朴判定。
enenba.com原创内容,转载保存出处?post=251