基于curl数据采集之正则处理函数get

日期：2020-10-04 栏目：程序人生浏览：次

根据前两篇的博文：

已经可以得到了我们需要的html文件，现在需要处理得到的文件获取到我们需要的采集的数据。

对于html文档的解析，没有像XML那样的解析类，因为HTML文档有很多不成对的标签，很不严格。这个时候就需要采用其他的一些辅助类了，simplehtmldom是一个类似于JQuery方式操作HTML文档的解析类。可以很方便的得到想要的数据，可惜速度慢。这里不是我们这里讨论的重点，我主要使用正则来匹配我所需要的采集的数据，可以很快速的得到我需要采集的信息。

考虑到get_html可以判断返回的数据,但是get_htmls没有办法判断，为了方便调式和调用写了如下两个函数：

复制代码代码如下:

可以这样调用：

复制代码代码如下:

$url = 'http://www.baidu.com';
$html = get_html($url);
$matches = get_matches('!<a[^<]+</a>!',$html,'没有找到链接',true);
if($matches){
var_dump($matches);
}

或者这样调用：

复制代码代码如下:

$urls = array('http://www.baidu.com','http://www.hao123.com');
$htmls = get_htmls($urls);
foreach($htmls as $html){
     $matches = get_matches('!<a[^<]+</a>!',$html,'没有找到链接',true);
     if($matches){
         var_dump($matches);
     }
}

就可以得到所需的信息，无论单页面采集还是多页面采集，最终PHP还是只能处理一个页面，由于使用get_matches了，可以对返回的值进行判断真假，得到正确的数据，由于使用正则的时候遇到了超过正则回溯的问题，增加get_preg_err_msg来提示正则信息。

转载注明出处：http://www.heiqu.com/c846b6c3dadc753a53c4a39639b572e3.html

基于curl数据采集之正则处理函数get

相关推荐