收罗时经常要对网站内容举办反复判定,php判定正文内容较量坚苦,对付标题的判定照旧较量简朴,只要过滤标题中的版权,再用similar_text计较
上代码:
<?php
/*
* php计较title标题相似比 by
enenba.com
*
* @param string $title_1 题目1
* @param string $title_2 题目2
* @return float $percent 相似百分比
*/
function title_similar($title_1,$title_2) {
$title_1 = get_real_title($title_1);
$title_2 = get_real_title($title_2);
similar_text($title_1, $title_2, $percent);
return $percent;
}
/**
* php收罗文章题目并去版权
* @param string $html 需要收罗的html源代码
* @return string
*/
function get_real_title($str){
$str = str_replace(array('-','—','|'),'_',$str);
$splits = explode('_', $str);
$l = 0;
foreach ($splits as $tp){
$len = strlen($tp);
if ($l < $len){$l = $len;$tt = $tp;}
}
$tt = trim(htmlspecialchars($tt));
return $tt;
}
//以下是测试
$title_1 = '代号PHPCMS V9产物正式宣布公测版本 - 站长之家';
$title_2 = 'PHPCMS再战江湖 V9产物正式宣布公测版本 - 站长网 admin5.com';
$percent = title_similar($title_1,$title_2);
echo '相似百分比:'.$percent.'%';
echo "<br />\n";
?>
输出:相似百分比:81.25%
内容版权声明:除非注明,否则皆为本站原创文章。
转载注明出处:https://www.heiqu.com/7798.html