在收罗的时候常常会碰着被封IP,克制收罗。
这时候可以操作伪造搜索引擎蜘蛛UserAgent来打破限制实现收罗。
一般环境下,枫子都是用Curl,而且已经习惯利用Curl了,尚有一个专门用来收罗的Curl函数,今朝除了不能收罗Google,其它的网站还没有发明不能收罗的,不封是前提!
厥后发明curl也有curl的缺点,于是开始研究php的收罗类,著名的snoopy类。
下面是利用snoopy来打破限制的常用要领
1.利用Snoopy或curl传搜索引擎爬虫的USERAGENT值。
查察搜索引擎爬虫的USERAGENT值:
2.利用Snoopy或curl传referer值。
如:$snoopy->referer = ‘‘;
$header[] = “Referer: “;
3.利用Snoopy或curl署理。
如:$snoopy->proxy_host = “99.99.99.99″;
$snoopy->proxy_port = “3128″;
4.利用Snoopy或curl防造IP。
如:$snoopy->rawheaders['X_FORWARDED_FOR'] = ’127.0.0.1′;