PHP爬虫抓取网页内容 (simple_html_dom.php)

  使用simple_html_dom.php,下载|文档

  因为抓取的只是一个网页,所以比较简单,整个网站的下次再研究,可能用Python来做爬虫会好些。

1 <meta http-equiv="content-type" content="text/html;charset=utf-8"/> 2 <?php 3 include_once \'simplehtmldom/simple_html_dom.php\'; 4 //获取html数据转化为对象 5 $html = file_get_html(\'http://paopaotv.com/tv-type-id-5-pg-1.html\'); 6 //A-Z的字母列表每条数据是在id=letter-focus 的div内class= letter-focus-item的dl标签内,用find方法查找即为 7 8 foreach($html->find(\'.txt-list li a\') as $element) 9 $arr[]= $element->innertext . \'<br>\'; 10 11 $fileName=\'data.txt\';//不用事先建好 12 $arrLen=count($arr); 13 for($i=0;$i<$arrLen;$i++){ 14 file_put_contents($fileName,$arr[$i],FILE_APPEND|LOCK_EX); 15 /*FILE_APPEND|LOCK_EX是往后追加数据,如果没有该参数,则只能插入一条数据 16 但是如果重新启动抓取时,则会将以往抓取过的数据继续存入*/ 17 } 18 //以上是抓取的数据然后存到data.text里 19 $content=file_get_contents($fileName); 20 $cont=explode("<br>",$content); 21 $contLen=count($cont); 22 for($i=0;$i<$contLen;$i++) { 23 unset($cont[2*$i+1]); 24 }

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwwyjy.html