使用async、enterproxy控制并发数量的方法详解(2)
enterproxy还提供了其他不少场景所需的API,可以自行学习下这个API enterproxy
使用async控制并发数量
假如我们有40个请求需要发出,很多网站可能会因为你发出的并发连接数太多而当你是在恶意请求,把你的IP封掉。
所以我们总是需要控制并发数量,然后慢慢抓取完这40个链接。
使用async中mapLimit控制一次性并发数量为5,一次性只抓取5个链接。
async.mapLimit(arr, 5, function (url, callback) { // something }, function (error, result) { console.log("result: ") console.log(result); })
我们首先应该知道什么是并发,为什么需要限制并发数量,都有哪些处理方案。然后就可以去文档具体看一下API如何使用。async文档可以很好的学习这些语法。
模拟一组数据,这里返回的数据是假的,返回的延时是随机的。
var concurreyCount = 0; var fetchUrl = function(url,callback){ // delay 的值在 2000 以内,是个随机的整数 模拟延时 var delay = parseInt((Math.random()* 10000000) % 2000,10); concurreyCount++; console.log('现在并发数是 ' , concurreyCount , ' 正在抓取的是' , url , ' 耗时' + delay + '毫秒'); setTimeout(function(){ concurreyCount--; callback(null,url + ' html content'); },delay); } var urls = []; for(var i = 0;i<30;i++){ urls.push('http://datasource_' + i) }
然后我们使用async.mapLimit来并发抓取,并获取结果。
async.mapLimit(urls,5,function(url,callback){ fetchUrl(url,callbcak); },function(err,result){ console.log('result: '); console.log(result); })
模拟摘自alsotang
运行输出后得到以下结果
我们发现,并发数从1开始增长,但是增长到5时,就不在增加。然有任务时就继续抓取,并发连接数量始终控制在5个。
完成node简易爬虫系统
因为alsotang前辈的《node包教不包会》教程例子中使用的eventproxy控制的并发数量,我们就来完成一个使用async控制并发数量的node简易爬虫。
爬取的目标就是本站首页(手动护脸)
第一步,首先我们需要用到以下的模块:
- url : 用于url解析,这里用到url.resolve()生成一个合法的域名
- async : 一个实用的模块,提供了强大的功能和异步JavaScript工作
- cheerio : 为服务器特别定制的,快速,灵活,实施的jQuery核心实现
- superagent : nodejs里一个非常方便的客户端请求代理模块