从《网页降噪助你晋升搜索引擎表示》来做php正

日期：2020-05-27 栏目：程序人生浏览：次

从这个文章上看“网页降噪”其实就是要打消、消除这些多余、反面谐，从而突出更重要的主体内容的事情。
噪点在原文宏观上看：即页面的内容、模版机关、样式，此类较为常见的有：内容版权声明、民众导航、民众底部声明（公司先容、雇用、存案信息等）这些多半可以看作是网页中的噪点！
噪点在原文微观上看：即文章内容中的文字、标记，此类较为常见的是一些助词（的、地、得、着、了、之、乎、者、也、矣......）、非凡标记（星星啊、月亮啊、太阳啊）、无效代码等；

以上是从《网页降噪助你晋升搜索引擎表示》摘出的英华内容，恰好我想做泛收罗，照旧很有用的，因为文中的噪点在正文提取来说就是过滤非正文内容。

我做了小结

一、样式噪点主要是有内嵌样式和行内样式，好比：

和

<p>

当样式中有大量的中文注释，一定会发生噪点，不能只过滤掉<style>标签，要把整个样式都去掉。
以下php代码会过滤css样式

//php删除内嵌样式 $html = '前内容 <style type="text/css">....囧....</style>后内容'; $html = preg_replace('/<style.*?>.*?<\/style>/is', '', $html); highlight_string($html); //php删除行内样式 $html = '<p>'; $html = preg_replace('/ style=("|\').*?\1/is', '', $html); highlight_string($html);

二、内容版权声明噪点
版权可以是网站名称、网址、网址简称，如：转载于..囧.. 、转载自..囧.. 、作者：..囧.. 、 copyright © ..囧.. 等信息，这些信息不是纯真地呈此刻footer底部，很大概呈此刻正文标题四周、内容尾部、要害字链接等部门。
因为环境许多，实在是许多，那判定会很巨大的，php过滤代码只上个或许：

$html = preg_replace('/(噪点词前位特征1|噪点词前位特征2|......).*?\s+/is', '', $html);

三、民众导航噪点
导航有个很明明的特征：就是无长文本、要害词会合、位置漫衍平均、html标签统一等特点。
php代码不上了，说个根基思路：
1、可以把所有html标签换空格，统计文本长度，文本空格密度。
2、对付有class="menu" 、id="nav" 等标签举办判定。
3、一般来说有ul li 会合的处所不是文章列表就是导航了。

四、文章内容中的文字、标记噪点
与其说是文章内容的噪点，不如说是正文的特征了、这个就是我们所要的正文部门了。
如中文助词： “的、地、得、着、了、之、乎、者、也”
非凡标记： “，。、！？”
无效代码：   <div> 告白代码等内容

php代码也不上了：

1、统计长文本中中文助词的次数比，找到比例符合位置。
2、对非凡标记举办支解：
  先
    $word = array("，", "。", "、", "！", "？");
    $html = str_replace($word, ',', $html);
    $arr = explode(',', $html);
  再
   分块统计$arr数量，
    一般大于必然量会有惊喜。
3、无效代码也有必然的特征，可以简朴判定。

enenba.com原创内容，转载保存出处?post=251

转载注明出处：https://www.heiqu.com/7794.html

从《网页降噪助你晋升搜索引擎表示》来做php正

相关推荐