浅谈Node.js之异步流控制(2)

日期：2020-06-07 栏目：程序人生浏览：次

/// 最大的启发是实现了如何异步循环遍历数组 function spiderLinks(currentUrl, body, nesting, callback) { if (nesting === 0) { return process.nextTick(callback); } const links = utilities.getPageLinks(currentUrl, body); function iterate(index) { if (index === links.length) { return callback(); } spider(links[index], nesting - 1, err => { if (err) { return callback(err); } iterate((index + 1)); }) } iterate(0); }

可以说上边这一小段代码，就是采用原生实现异步串行的pattern了。除了这些之外，还引入了nesting的概念，通过这是这个属性，可以控制抓取层次。

到这里我们就完整的实现了串行的功能，考虑到性能，我们要开发并行抓取的功能。

(spider_v4.js)

这段代码同样很简单，也有两个核心内容。一个是如何实现并发：

/// 最大的启发是实现了如何异步循环遍历数组 function spiderLinks(currentUrl, body, nesting, callback) { if (nesting === 0) { return process.nextTick(callback); } const links = utilities.getPageLinks(currentUrl, body); if (links.length === 0) { return process.nextTick(callback); } let completed = 0, hasErrors = false; function done(err) { if (err) { hasErrors = true; return callback(err); } if (++completed === links.length && !hasErrors) { return callback(); } } links.forEach(link => { spider(link, nesting - 1, done); }); }

上边的代码可以说是实现并发的一个pattern。利用循环遍历来实现。另一个核心是，既然是并发的，那么利用 fs.exists 就会存在问题，可能会重复下载同一文件，这里的解决方案是：

使用Map缓存某一url，url应该作为key

现在我们又有了新的需求，要求限制同时并发的最大数，那么在这里就引进了一个我认为最重要的概念：队列。

(task-Queue.js)

转载注明出处：https://www.heiqu.com/wywfwj.html

浅谈Node.js之异步流控制(2)

相关推荐