打个比方,在英文词典里查找“apple”,你下意识里翻开词典是翻前面的书页还是后面的书页呢?如果再查“zoo”,你又会怎么查?显然你不会从词典中间开始查起,而是有一定目的地往前或往后翻。
同样,比如要在取值范围在 0 ~ 10000 之间的100个元素从小到大均匀分布的数组中查找5,我们自然而然地先考虑数组下标较小的开始查找。
以上的分析其实就是插值查找的思想,它是二分查找的改进。
基本思想:
根据要查找的关键字key与查找表中的最大最小记录的关键字比较后的查找方法,其核心就在于插值计算公式,我们先看折半查找的计算公式:
而插值查找就是要将其中的 1/2进行改进,改成下面的计算方案:
插值查找算法的核心就在于插值的计算公式:
$num - $arr[$lower]
—————————————
$arr[$high] - $arr[$lower]
代码:
<?php //插值查找(前提是数组必须是有序数组) 事件复杂度 O(logn) //但对于数组长度比较大,关键字分布又是比较均匀的来说,插值查找的效率比折半查找的效率高 $i = 0; //存储对比的次数 //@param 待查找数组 //@param 待搜索的数字 function insertsearch($arr,$num){ $count = count($arr); $lower = 0; $high = $count - 1; global $i; while($lower <= $high){ $i ++; //计数器 if($arr[$lower] == $num){ return $lower; } if($arr[$high] == $num){ return $high; } // 折半查找 : $middle = intval(($lower + $high) / 2); $middle = intval($lower + ($num - $arr[$lower]) / ($arr[$high] - $arr[$lower]) * ($high - $lower)); if($num < $arr[$middle]){ $high = $middle - 1; }else if($num > $arr[$middle]){ $lower = $middle + 1; }else{ return $middle; } } return -1; } $arr = array(0,1,16,24,35,47,59,62,73,88,99); $pos = insertsearch($arr,62); print($pos); echo "<br>"; echo $i;
总结:
从时间复杂度上来看,它也是 O(logn),但对于有序表比较长,而关键字分布有比较均匀的查找表来说,插值查找算法的平均性能比二分查找好的多。反之,数组中如果分布类似于{0,1,2,2000,2001,。。。999998,999999}这种极端不均匀的数据,用插值查找未必是很合适的选择。
我自己特别做了个例子:
$arr = array(0,1,2,2000,2001,2002,2003,2004,5555,69666,99999,100000); echo "位置:".binsearch($arr,5555); echo "<br>"; echo "比较次数:".$i; $i = 0; //重置比较次数 echo "<br>"; echo "位置:".insertsearch($arr,5555); echo "<br>"; echo "比较次数:".$i;
结果输出:
位置:8 比较次数:2 位置:8 比较次数:9
可以得到,对于极端不均匀的数据,插值查找效率比折半查找低。
PS:上面提到的binsearch()函数大家可以参考前面一篇 PHP有序表查找—-二分查找(折半)
更多关于PHP相关内容感兴趣的读者可查看本站专题:《PHP数据结构与算法教程》、《php程序设计算法总结》、《php字符串(string)用法总结》、《PHP数组(Array)操作技巧大全》、《PHP常用遍历算法与技巧总结》及《PHP数学运算技巧总结》